文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

基于文献计量的我国数据素养核心研究力量分析

时间:2023/11/9 作者: 图书馆界 热度: 20915
张 勇

  (东北财经大学图书馆,辽宁 大连 116025)

  随着数据密集型科研范式的日益兴起,E-Science的不断深入,以及大数据思维的持续影响[1],数据素养已成为科研人员和图书馆员必备素养之一。所谓数据素养是指遵循科研伦理的基础上,对科学数据进行采集与获取、组织与整理、选择与评价、分析与整合、利用与复用、共享与创新的一系列的能力与素质[2]。现在的科研流程大多建立在数据基础之上,没有数据支撑,几乎所有科学研究都无法做到准确深入,而对数据的驾驭能力并不是与生俱来,需要研究人员在科学研究过程中不断学习和培养,从而使个人数据素养不断提升。数据素养的高低在一定程度上决定了研究人员科研水平的强弱。国内最早关于数据素养研究的论文发表于2002年[3],之后其逐渐在图书情报等研究领域受到关注,并在最近几年成为热门研究主题,相关研究成果的数量开始迅速增加。研究内容主要集中在数据素养理论框架[4]、教育机制[5]、提升策略[6]、影响因素[7]、发展路径[8]、评估评价[9]等方面,这些研究内容和主题对数据素养的提升与发展起到非常重要的推动作用,但是在这些研究内容中却缺失对数据素养主要研究力量的分析。核心研究作者和团队一般掌握着某个研究领域的前沿信息,并引领该研究领域的发展潮流和方向。优势地区拥有地域、人才、资源等资源,也会在某些研究领域有着突出的贡献。某些期刊对特定研究领域成果的收录会有明显倾斜。掌握数据素养主要研究力量的分布情况,对科研人员在较短时间内高效地搜集业内权威信息、了解研究热点、把握研究方向、寻找研究主题等方面有非常重要的作用。因此,本文将从文献计量的角度对我国数据素养研究领域的核心研究力量进行深入分析,希冀为相关研究人员在搜集研究资料、提升科研效率、跟踪学术前沿等方面提供一些帮助。

1 数据统计源及计量工具

本文将利用中国知网的学术期刊全文数据库(CAJD)作为数据主要统计来源,经过多次试检后,以“TI=(‘数据素养’+‘数据素质’+‘数据能力’) OR KY=(‘数据素养’+‘数据素质’+‘数据能力’)”作为检索式进行专业检索,时间范围设定为“从不限至不限”,检索日期为2020年4月13日,来源类别限定为“全部期刊”。对检索结果进行人工清洗,去除一些征稿启事、组稿前言、会议资讯等信息后,得到符合条件的论文524篇。研究采用文献计量法作为主要分析方法,以可视化方法作为辅助分析方法。因此,本文将利用EXCEL作为主要分析工具,以CITESPACE和百度学术论文助手作为辅助分析工具。

2 我国数据素养研究的研究力量分析

一个研究领域的主要研究力量一般包括生产力量和传播力量两个部分。生产力量是指专门负责科研成果产出的个人、团体和机构,主要包括核心研究作者、核心研究团队和核心研究机构。他们掌握着该研究领域的前沿信息,把握着研究的发展方向。传播力量是指负责科研成果传播和扩散的主要力量,包括期刊、区域和学科等,对这部分力量的贡献度进行确认,可以使相关研究人员更加高效、精准地获取相关信息。

2.1 核心研究作者分析

每个研究领域都有其核心研究作者,这些核心研究作者一般被称为该研究领域的领军人物,其对该研究领域的发展脉络和研究趋势的把握明显要强于普通研究人员,对核心研究作者的科研成果进行认真研读可以在较短的时间内获取此研究领域的研究动态和发展趋势[10],从而能够更加准确地把握领域内的研究热点,更快地寻找出研究的突破口。

  

  综合指数评价法是指将与评价对象相关的评价指标得分转换成相应的指数,并分别给予相应的权重,最后汇总成综合指数并排序,根据综合指数得分和排序来对评价对象进行判定的方法。综合指数评价法一般分为5个步骤,即:确定评价指标、计算各指标的具体数值并转换成指数、分配指标权重、设定判定阈值、计算综合指数并排序。

  笔者利用专家访谈法对影响我国数据素养研究核心作者判定的主要因素及其权重进行调查,最后确定4个评价指标,分别是作者在数据素养研究领域的发文总量(W)、以第一作者身份发文的数量(X)、总被引次数(Y)以及作者在该研究领域内的H指数(Z),其权重分别比值为30%∶20%∶30%∶20%。利用普赖斯定律对发文总量进行限定,并去掉各项指标得分为0的作者,即同时满足“W≥2、X>0、Y>0、Z>0”4个条件,符合条件的核心作者候选人一共有55位,对这55位作者各项指标的平均值进行计算后得到,W的均值W均=3.00,X的均值X均=1.62,Y的均值Y均=45.24,Z的均值Z均=2.25。核心研究作者综合指数的计算公式H为:

  Hi=(Wi/W均×30%+Xi/X均×20%+Yi/Y均×30%+Zi/Z×20%)×100 (其中i=1,2,…,55)

  将各项指标的平均值代入公式后H值为100,即可以将100设定为判定核心研究作者的阈值,即综合指数大于100的候选人可以确定为该研究领域的核心研究作者。将55位候选人的各项指标值代入公式,并进行汇总排序后得到核心研究作者列表,如表1所示。

  从表1中可以看出,共有17位作者入围核心研究作者,表明我国从事数据素养研究的群体已经形成一定规模,这对我国数据素养研究领域快速发展有非常积极的意义。胡卉、邓李君和沈婷婷3位作者在数据素养研究领域表现更为突出,其综合指数都超过阈值的3倍以上,表明其在此研究领域有较高的贡献度。其中,胡卉和邓李君的发文量明显要高于其他作者,而且其发表的论文大多数是以第一作者身份发表,说明可能其本身就是直接从事数据素养的研究人员,而沈婷婷以第一作者身份发表的论文数量只有1篇,但是其发文的总被引次数却排在第1位,说明其有可能是某个团队或项目的负责人,其更多精力用于指导其他学者从事数据素养研究。黄如花、孟祥保和郝媛玲3位作者虽然发文数量并不多,但是其论文的总被引次数排名都非常靠前,而且明显高于其他作者,表明这3位作者研究成果的论文更具影响力,非常值得研究人员关注。另外,综合指数在200以下的作者也都在某些特定领域有较深入的研究,相关研究者可以根据自己的研究方向进行有针对性的选择。在排名比较靠后的作者中,也有值得关注的作者,如缪其浩的发文量虽然只有2篇,但是其被引次数却达到了133次,在入围的作者中,论文的被引率排在第1位,表明其发表的论文影响力较大,受关注度高,很有可能是该研究领域的经典论文,非常值得研究和学习。

  

  表1 我国数据素养核心研究作者综合指数排序表

2.2 核心研究机构分析

一些研究机构因为在某个研究领域拥有顶尖人才、特色资源或政策倾斜等优势因素,在研究领域内表现出较大的影响力和竞争力,这些研究机构一般被认为是该研究领域的核心研究机构,对核心研究机构所发表的研究成果同样值得关注。而且,核心研究机构内部研究人员协作同创,可能在某些研究方向上比单一核心研究作者更具优势。对核心研究机构的确定,同样可以通过综合指数评价法来实现。

  通过专家访谈法对我国数据素养研究领域的主要机构评价指标确定为相关发文总量(A)和发文总被引次数(B)2项。根据皮尔逊系数对这两项内容进行考查发现,两者存在较强的正相关关系[11],因此,两者的权重确定为各占50%。我国数据素养研究领域的单一机构发文量最高值是15篇,利用普赖斯定律对核心研究机构的候选机构进行限定,即A>3的机构共有42个,对这42个机构的各项指标平均值进行计算后可知,A的平均值A均=5.43,B的平均值B均=67.75。核心研究机构综合指数C的计算公式为:

  Ci=(Ai/A均×50%+Bi/B均×50%)×100 (其中i=1,2,…,42)

  将各项指标的平均值代入公式后,得到我国数据素养研究领域核心研究机构的判定阈值为100。将42个候选机构的各项指标数值分别代入公式后排序可知,综合指数高于100的研究机构共有15个,具体情况如表2所示。

  从表2中可以看出,武汉大学在我国数据素养研究领域有较大优势,其综合指数遥遥领先于其他机构,无论是发文数量还是被引次数的排名都较靠前,表明其对数据素养研究领域的贡献度较高,有很大的影响力。华东师范大学和上海大学虽然发文量很少,但是其总被引次数却排在前2名,表明这2个机构所发表的论文影响力非常大,很有可能是数据素养研究领域的经典文献,值得相关研究人员重点关注。东南大学和中国科学院的综合指数也较高,达到阈值的2倍以上,尤其是后者,发文量在所有机构中排名第1位,这表明其在我国数据素养研究中表现非常积极,而且从实践情况来看,其曾多次主办以数据素养为主题的全国性学术会议,为我国数据素养研究的推进起到了重要作用。其他入围的研究机构虽然在综合指数上表现并不突出,但是在某个特定研究方向上都有重要的科研成果产出,如四川外国语大学在数据素养教育方面成果的影响力较大,而江苏师范大学在数据素养评价方面有较多的科研成果产出等,相关研究人员可以根据自己的研究方向对优势机构的研究动态进行跟踪和分析。

  

  表2 我国数据素养研究领域核心研究机构综合指数排名表

2.3 核心研究团队分析

除了核心研究作者和机构,核心研究团队是另外一种科研产出力量,其与核心研究作者和机构有着较为密切的联系,很多核心研究作者来自核心研究团队,而很多核心研究团队又出自核心研究机构。但是,除了上述情况,还存在另外一种团队,即跨机构和跨学科合作团队,虽然这种合作较同机构合作的数量要少,但是其所产出的科研成果往往会产生更加深远的影响。笔者利用CiteSpace的作者聚类功能对我国数据素养研究的作者合作情况进行分析,得到图1。图中圆圈的大小代表发文数量的多少,每个圆圈的连线数量代表其与其他人合作的次数,连线的粗细代表2个作者之间的合作强度,合作论文数量占2人发文总量的比例越大,其合作强度越强。

  从图1可以看出,我国数据素养研究领域的合作情况比较普遍,而且很多团体的合作情况非常紧密。在这些合作团队中,合作人数超过4人的团队一共有4个。如图1中虚线椭圆所示,其中以王维佳为代表的中山大学团队和以杨现民为代表的江苏师范大学团队属于同一单位内部成员的合作关系,这种关系较为常见,合作关系也更稳定。另外2个是以刘三女牙和张斌为代表的华中师范大学与汉江师范学院合作团队,和以艾文华、周兴林和周丽为代表的南昌大学、上海大学和复旦大学合作团队,这2个团队是典型的跨机构合作团队,这种合作对数据素养研究主题的横向拓展起到非常重要的作用。合作人数为3人的团队一共有3个,从合作团队成员圆圈的大小可以看出,在我国数据素养研究领域3人团队的贡献度明显要高于4人团队。尤其是以胡卉为代表的中国科学院团队和以叶英平为代表的吉林大学团队,这2个团队发表的相关论文数量较多、被引次数较高、影响力较大。从图1中也可以看出,分别以邓李君和杨文建为代表的跨机构2人合作团队对数据素养研究也有很大的贡献度,其发文数量明显要高于其他团队,而且这种跨机构2人合作形式将会在未来的合作研究中成为一种非常重要的趋势。

  

  图1 我国数据素养研究领域核心研究团队分布图

2.4 期刊贡献度分析

每个研究领域的研究论文会发表在不同的期刊上,但是每种期刊对不同研究领域论文的刊载量大不相同,布拉德福定律对这一情况有很好的表述,即:刊载某个研究领域等量论文的期刊数量,按递减顺序进行排序,可以将这些期刊区分成核心区、相关区、非相关区以及一些后继区,核心区与相关区、后继区内的期刊数量关系是1∶n∶n2∶…(n>1)。笔者对我国数据素养研究相关论文所属的期刊进行统计,相关期刊共有282种。经过计算后发现,当核心区期刊论文数量设定为90篇时,n≈2,相关分区基本符合布拉德福定律,其实际数量关系为7∶15∶32∶61∶…,即核心区的期刊数量为7种,相关区的期刊论文数量为15种。期刊的具体情况如图2所示。

  

  图2 我国数据素养研究领域的期刊贡献度分布图(单位:篇)

  从图2可以看出,入围核心期刊区的7种期刊中有6种来自图书情报类,1种来自教育类,表明数据素养研究的主力学科是图书情报学。其中《图书与情报》与《图书馆理论与实践》刊载数据素养类研究论文的数量明显高于其他刊物。因此,它们可以被视为我国数据素养研究的最核心期刊,对数据素养研究领域的贡献度也最高。研究人员跟踪它们的发文动态,可以在最短时间内获取更多的数据素养相关信息,另外4种入围核心区的图情类期刊发文量也都在10篇及以上,同样值得相关研究人员重点关注。《电化教育研究》作为唯一入围核心区的非图情类刊物从另外一种学科思维来展示数据素养研究的最新研究成果,对研究人员拓展研究思路、打破固有思维有非常积极的作用。另外,来自核心区的5种期刊对数据素养研究的贡献度次之。从入围相关区的15种期刊来看,大部分来自图书情报类刊物,有2种期刊来源于新闻传播类,2种来源于教育类,表明数据素养研究不仅在图情类和教育类内产生重要影响,而且在新闻传播研究领域也是一个非常重要的研究主题,相关区期刊对我国数据素养研究的贡献度较核心区有所减弱。研究人员在资料搜集和信息跟踪的过程中,可以从核心区7种期刊入手,并兼顾相关区内载文量较高刊物,从而能够在保证资料准确性的基础上同时提高信息的获取效率。

2.5 学科贡献度分析

在前文的期刊贡献度分析中可以看出,图书情报、教育等学科对我国数据素养研究有较大贡献,但是各个学科具体的贡献度是多少,是否还有其他学科同样对我国数据素养研究产生重要影响,这是一个非常值得关注的问题,了解各学科的贡献度对我们在学科交叉中寻找新的研究主题和突破口有非常重要的意义。笔者对与我国数据素养相关的524篇文章所属学科、具体数量和所占百分比进行统计,得到图3。

  

  图3 我国数据素养研究领域学科贡献度分布图

  从图3可以看出,图书情报学科对数据素养研究的贡献度最大,其发文量几乎达到发文总量的一半,而教育类论文发文量排在第2位,已经超过发文总量的1/4,贡献度次之。而新闻传播、计算机、经济学学科发文量也达到总量的5%左右,虽然发文量不如前2个学科,但是较其他学科而言,其所占比重仍然较高,表明这3个学科对数据素养研究也有一定贡献。其他学科发文量相比之下较少,大部分发文量都在1%左右,虽然可能其中某篇论文会有较大影响,但是对其所在学科而言,对数据素养研究的贡献度较小。随着数据素养研究不断深入,各个学科在该研究领域内也出现了交叉渗透的现象,利用百度学术的数据挖掘功能对数据研究领域学科渗透现象进行可视分析,可以得到图4。从图4可以看出,对数据素养研究所倾向的主题各不相同,图书情报领域更加注重科学数据管理和用户服务,教育领域更加注重数据素养教育和培养模式的探讨,新闻传播领域更加注重数据新闻和财经新闻的分析,而计算机领域则更关心数据的挖掘和可视化分析,经济学则非常关注统计知识与统计素养等,多学科的交叉渗透为数据素养研究主题的横向拓展和内容纵深研究都提供了新的思路,各学科间的合作研究也将成为一个重要的发展趋势。

  

  图4 我国数据素养研究学科主题交叉渗透分布图

2.6 地区贡献度分析

一些地区会因为地域特色、资源特色或政策倾斜等原因,在某些学科的研究过程中占据有利优势,从而产生更多更具影响力的科研成果。笔者对我国数据素养研究领域相关论文的第一作者所在地区进行统计,以省份作为区分地区的依据,并根据各省份的发文数量将这些地区划分为5个层次,即:绝对优势地区、相对优势地区、潜力地区、相对劣势地区和绝对劣势地区[12]。具体统计和划分结果如表3所示。

  从表3可以看出,发文所占比重大于10%的地区有2个,分别是江苏和北京,从发文量来看,二者明显高于其他地区,因此,其在我国数据素养研究方向有绝对优势,对数据素养研究的贡献度也最高。江苏和北京入围绝对优势地区的主要原因是这2个地区的高校数量较多,而且多所高校入围核心研究机构。湖北、广东、上海、四川4省(市)虽然发文量所占比重高于50%,但是与绝对优势地区却仍然有很大距离,尤其是湖北和上海2个区域,核心研究机构综合指数前3名皆来自这2个地区,却没能入围绝对优势地区,说明其所辖的科研机构更倾向于单独行动,还没有形成区域性的联盟与合作,这一点非常值得相关地区思考。但是由于多个排名靠前的核心研究机构在相对优势地区,如果其能够加强合作,深入研究,未来有很大机会能够入围绝对优势区域。辽宁、浙江和河南等5省的发文量不高,但对数据素养研究也有一定贡献。尤其是辽宁省和浙江省发展潜力较大,其实力已经非常接近相对优势地区等级。而处于相对劣势和绝对劣势的地区较多,这些地区对数据素养研究贡献度最弱,尤其是青海、新疆和西藏地区在此研究领域的发文量皆为0。从整体来看,我国数据素养研究的地区贡献度与区域所处位置和经济发展情况有很大关系,地区越繁荣、经济越发达,贡献度越高;地区越偏远,经济越落后,贡献度越低。

  

  表3 我国数据素养研究领域地区贡献度层次分布图

3 结论:建议与不足

经过近20年的发展,我国数据素养研究已经取得丰硕的研究成果,对这些研究成果而言,不同的作者、机构和团体对其贡献度是不同的。胡卉、邓李君、沈婷婷作为核心研究作者的代表,无论在发文数量上还是论文的被引次数上都遥遥领先其他作者,在数据素养研究领域起到了引领作用。武汉大学、华东师范大学和上海大学3个机构对数据素养研究的贡献度最大。同时,中国科学院在该研究领域的发文量排名第1,有较多的研究后备力量,其对数据素养的研究也起到很大的推动作用。数据素养研究论文的发表方面,有7种期刊进入核心区域,《图书与情报》和《图书馆理论与实践》对数据素养相关论文的刊载量明显高于其他刊物,贡献度较高。《电化教育研究》作为唯一入围核心区的非图情类刊物,对数据素养教育相关论文的收录更具影响力。从学科交叉情况来看,我国数据素养研究的主力学科是图书情报学和教育学,两者相关论文收录率基本达到论文总数的3/4,新闻传播和计算机2个学科对数据素养研究的发展也起到了积极推动作用。从论文发表地区来看,江苏和北京两地属于相关论文产出绝对优势区域,对数据素养的研究贡献度最高,湖北、广东、上海和四川四省的贡献度次之,其他省份的贡献度相对较弱。

  对这些核心研究力量的分析,可以使相关研究人员更加有针对性且高效地获取相关信息。但是在实际研究过程中,也应该考虑学术研究的多元性,并不完全依赖本次研究结果中表现突出的主要研究力量。从科研生产力量的角度来看,综合指数排名靠前的作者对该领域的贡献确实很大,但是在进行信息参考的过程中,也要考虑这些作者的活跃年份。有一些作者可能在数据素养研究的起始阶段贡献较大,但是之后的研究方向已经改变,近几年没有相应的科研成果产出,如核心研究作者中的郝媛玲、沈婷婷就是这种情况,所以,我们更应该关注那些一直活跃或近年来在此领域比较活跃的核心研究作者。核心研究机构相关成果的选择面临着同样的问题。而对核心研究团队来说,除了考虑到该团队的科研究成果数量和质量,研究人员更应该关注这些团队研究人员的梯队形态和后备力量的充沛程度。

  从科研成果传播力量的角度来看,我们在关注排名靠前的期刊、学科和地区的同时,也应该关注那些与重点力量非常接近的部分,如期刊相关区域中排名靠前的刊物,如《科技传播》《情报资料工作》等;学科分布中的相对优势学科,如新闻传播、经济学等;地区分布中的潜力地区,如辽宁、浙江等。本次研究也有一些不足之处,如在进行文献计量过程中,只针对重要指标和信息进行计量,没有考虑相关因素的影响,这可能会导致计量结果与实际情况略有偏差,这些问题是我们在后续研究中需要改进的地方。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论