文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

基于知识图谱的国内外数字人文研究可视化分析

时间:2023/11/9 作者: 图书馆界 热度: 17428
崔倩倩

  (南通大学图书馆,江苏 南通 226019)

1 引 言

数字人文研究属于跨学科领域,其核心是采用计算机技术、信息技术、知识组织技术来解决迄今常以偶然方式处理的人文学科问题。作为一个舶来概念,2009年武汉大学教授王晓光[1]在教育部人文社会科学研究方法创新论坛上发表了《“数字人文”的产生、发展与前沿》一文之后,“数字人文”才真正开始受到国内学者的关注。2011年,武汉大学成立了国内第一家数字人文研究中心,随后台湾大学、香港公开大学、南京大学等高校也相继成立了数字人文研究机构,开始有组织有计划地进行数字人文研究。在“数字人文”这个概念被翻译到中国之前,国内已经存在数字人文实践,但相关的研究大多处于一种自为状态,缺乏相应的数字人文理论的有效支撑。本文采用文献计量和科学知识图谱方法,通过对CNKI和Web of Science核心数据集中收录的主题为数字人文的相关文献进行多层次剖析,以期为数字人文的深入研究提供参考。

2 研究方法与数据来源

科学知识图谱能够对科学知识的发展进程与结果关系进行可视化分析,本文采用美国德雷赛尔大学陈超美博士开发的科学计量与知识可视化软件CiteSpace[2]来进行知识图谱的绘制,直观地展现国内外数字人文研究的信息全景,并通过对数字人文相关文献进行研究机构、作者合作关系分析、关键词聚类、中心性分析等,探究和挖掘数字人文研究的热点及其动态变化过程。

  在保证查全率的条件下,采用相同的检索策略分别在CNKI和Web of Science核心数据集中获取代表国内和国外有关数字人文研究的数据集合。在CNKI中,“检索主题”等于“数字人文”或“人文计算”,精确检索,检索范围为2019年12月31日之前数据库收录的所有文献,检索到包括博硕士论文、期刊、专利等中文文献共计725条,经人工筛选,去除与主题相关度低的文献、人物访谈、选题指南以及一些会议综述和报道后,获得样本文献512篇。在Web of Science核心数据集(包括SCI-EXPANDED、CPCI-S)中,“检索主题”等于“digital humanit*”or“humanities computing”,检索范围为2019年12月31日之前数据库收录的所有文献,检索到827条记录,经人工筛选,去除与主题相关度低的文献、书评、会议文摘等,同时也去除第一作者单位为中国地区的若干文献,获得样本文献489篇。

  CiteSpace软件可对Web of Science核心数据集中导出的数据进行作者、机构、国家、地区合作网络分析,关键词、术语、领域共现分析,文献、作者、期刊共被引分析,以及文献耦合、双图叠加分析[3],但对于CNKI数据只能进行作者、机构合作网络以及关键词共现分析。本文为了进行国内外数字人文研究状态的可视化对比,选择了CNKI和Web of Science数据共有的分析字段,仅对样本数据进行作者、机构合作图谱分析和关键词共现图谱分析。

  

  图1 数字人文研究文献统计

  为考察数字人文研究成果,对2019年12月31日之前CNKI和Web of Science核心数据集中收录的相关文献进行统计,并绘制文献发表的年限分布趋势图(见图1),直观地展示国内外数字人文研究发展速度及趋势。经分析,国内数字人文的研究文献最早出现在2005年,而国外在2003年就出现了相关的研究报道。2003—2013年,国内外研究趋势都较为平缓,国外一直保持着一定数量的研究,但国内的研究似乎才刚刚萌芽;2014—2016年,国内外研究均呈现出明显的上升趋势,从趋势线的走势可以看出,国内研究的增长速度明显要高于国外研究;2017—2019年,国内研究更是突飞猛进,不仅在增长的速度上超越了国外,在文献的发表量上也明显高于国外,而国外始终保持着平稳的发展趋势。可见,数字人文的研究越来越受到国内学者的重视。出现这一现象的原因可能是由于2014年在上海召开的“图书馆前沿技术论坛:数字人文与语义技术”专题研讨会和2016年在北京大学举办的首届数字人文论坛推动了数字人文在各个领域的实践和发展。此外,国务院于2016年底发布《“十三五”国家战略性新兴产业发展规划》,规划中明确指出要促进人文资源的数字化,实现优秀人文资源的创造性转化,同时,提高博物馆、图书馆和档案馆等公共文化服务机构的数字化水平,将数字技术与文化服务深度融合来推动文化产业发展。随后,原文化部在2017年4月先后出台了《文化部关于推动数字文化产业创新发展的指导意见》和《文化部“十三五”时期文化产业发展规划》,这一系列政策的提出也为国内数字人文研究的发展提供了良好机遇。

3 可视化结果及分析

3.1 数字人文研究合作图谱分析

通过对国内外作者、机构的合作情况进行图谱绘制,探究数字人文研究学术领域的合作关系。首先,对样本数据进行预处理,利用Notepad++软件将国内外研究机构以及国外作者的名称进行梳理(机构名称保留到某大学,同一作者名称格式统一),再分别将样本数据导入CiteSpace软件,设置每一年一个时间分区,分析对象分别选择作者和机构,分析对象节点之间连线强度选择夹角余弦距离Cosine,筛选标准选择Top50。由于预处理时发现网络密度较低,所以这里对网格不进行修剪,运行后分别得到国内外数字人文研究作者合作图谱和机构合作图谱。

  图2和图3分别是国内外数字人文研究作者的合作图谱。图中节点的大小体现了该作者的发文量,也代表了该作者在这一研究领域的活跃程度,节点间的连线体现了作者之间的合作关系,连线越粗表示合作越紧密。图2的网络密度为 0.002 3,图3的网络密度为 0.003 1,说明该领域的作者之间的研究比较分散,学术交流和科研成果上的联系不紧密,但是,国外作者之间的联系要比国内相对密切一些。国内外该领域的作者大部分是以个人或者小团体形式进行研究的,没有形成权威性的大型学术组织。在国内数字人文研究领域中发文较多的作者有夏翠娟、赵宇翔、鄂丽君、朱庆华、李欣、曾子明、王涛、刘炜、杨晓雯、赵薇、王东波、王晓光、许鑫,其中夏翠娟和赵宇翔各有9篇相关文献。国外数字人文研究领域中发文较多的作者有Richard Furuta,Tobias Blanke,Akira Maeda,Mark Hedges,Colin Allen,Biligsaikhan Batjargal,Seamus Lawless,Stefan Jaenicke,Robert B Allen,其中,Richard Furuta有8篇相关文献。

  

  图2 国内数字人文研究作者合作图谱

  

  图3 国外数字人文研究作者合作图谱

  图4和图5分别是国内外数字人文研究机构的合作图谱。图中节点的大小体现了该机构的发文量,也代表了该机构在这一研究领域的活跃程度,节点间的连线体现了机构之间的合作关系,连线的粗细体现了合作的紧密程度。图4的网络密度为 0.003 5,图5的网络密度为 0.005 3,说明国外机构之间的联系要比国内密切很多。在国内数字人文研究领域中发文较多的机构有南京大学、武汉大学、北京大学、上海图书馆、上海大学、华东师范大学、中国人民大学、上海交通大学、南京农业大学、中山大学,其中,南京大学有46篇相关文献。国外数字人文研究领域中发文较多的机构有阿姆斯特丹自由大学、伦敦国王学院、阿姆斯特丹大学、伦敦大学学院、乌得勒支大学、伊利诺伊大学、都柏林圣三一学院、立命馆大学、得克萨斯A&M大学、牛津大学、印第安纳大学、莱比锡大学,其中,阿姆斯特丹自由大学有14篇相关文献。

  

  图4 国内数字人文研究机构合作图谱

  

  图5 国外数字人文研究机构合作图谱

  纵观国内外作者、机构合作图谱可以发现,国外研究者、研究机构之间的合作更为密切,展现出积极交流与合作的态度,而国内独撰作者较多,研究机构数量少且较为分散,还没有形成良好的跨界合作氛围。

3.2 数字人文研究共现图谱分析

对国内外数字人文研究文献的关键词进行共现图谱绘制,探究数字人文研究的热点主题和热点的演变。首先,对样本数据进行预处理,利用Notepad++软件将关键词进行同义词合并,再分别将样本数据导入CiteSpace软件,设置每一年一个时间分区,分析对象选择关键词,分析对象节点之间连线强度选择夹角余弦距离Cosine,筛选标准选择Top50,采用“PathFinder+Pruning Sliced Networks”算法对图谱进行修剪,并生成唯一解,运行后分别得到国内外数字人文研究关键词共现图谱。

  3.2.1 研究热点分析。图6和图7分别是国内外数字人文研究关键词共现图谱。关键词作为文献内容的高度精练,在图谱中出现的频次高低能在一定程度上反映该研究领域的研究特点及现状。共现分析方法作为一种能界定跨学科新兴领域研究范围、研究内容与研究方法以及构建该领域内学术生态系统的有效途径,可以应用于数字人文研究热点的捕捉与评价[4]。图中节点大小代表关键词出现的频次,节点间连线粗细代表关键词间共现的强弱,节点年轮的颜色和厚度代表研究出现的时间和对应时间出现的文献量。在CiteSpace中,常以“中介中心性”作为测度节点在网络中重要性的指标,中心性越高的关键词在网络中所起的“中介”作用越大,高中心性的重要节点在图谱中由紫色外圈标注,表明与其他节点连接紧密。图6中高中介中心性的节点有“数字人文、高校图书馆、图书馆、人文计算”,图7中高中介中心性的节点有“digital humanity”,说明国内围绕“高校图书馆”“图书馆”的数字人文研究比较多,而国外数字人文研究的内容比较分散。

  

  图6 国内数字人文研究关键词共现图谱

  去除检索主题“数字人文”,得到频次大于9、中介中心性大于0.05的关键词(见表1)。可以发现,国内数字人文的研究热点,包括基于元数据、大数据、档案、关联数据、数据库等研究对象,数字技术、可视化、数字化、GIS、知识图谱等研究方法以及高校图书馆、图书馆服务、文本挖掘、远读、知识服务、阅读推广、跨学科服务等一系列的研究应用。

  对关键词共现网络进行聚类(见图6),得到国内数字人文研究的热点方向分布:(#0)高校图书馆、(#1)知识图谱、(#2)人文计算、(#3)文学、(#4)徽学、(#5)图书馆、(#6)基础设施建设。

  

  表1 国内数字人文研究关键词共现频次、中介中心性及最早出现年份(部分)

  

  图7 国外数字人文研究关键词共现图谱

  去除检索主题“digital humanity”,得到频次大于9、中介中心性大于0.05的关键词(见表2)。可以发现,国外数字人文的研究热点,包括基于文化遗产、本体、历史、大数据、人文、关联数据、艺术、语料库等研究对象,可视化、GIS、机器学习等研究方法,以及数字图书馆、众包、自然语言处理、信息检索、评估、文本挖掘、语义网服务等一系列的研究应用。

  对关键词共现网络进行聚类(见图7),得到国外数字人文研究的热点方向分布:(#0)image retrieval,(#1)digital library,(#2)visualization,(#3)citizen science,(#4)humanities,(#5)big data,(#6)metadata。

  

  表2 国外数字人文研究关键词共现频次、中介中心性及最早出现年份(部分)

  通过国内外数字人文研究热点分析,可以看出国内外研究热点不尽相同:国内侧重于图书馆服务的拓展研究,尤其是高校图书馆的知识服务、阅读推广、古籍文献数字化等;国外侧重于历史、人文、艺术等文化遗产的可视化研究以及自然语言处理、语料库建设、人文资料评估、语义网服务等。从研究对象和研究应用上看,国外数字人文研究所涉及的领域更广,更能体现数字人文研究的学科交叉特点。从热点方向分布上看,国内更注重高校图书馆、基础设施建设等应用层面的研究,国外则更注重图像检索、可视化等技术层面的研究。

  3.2.2 研究热点转移分析。为直观的考察数字人文研究领域热点的转移情况,根据上文发文量的统计分析,将数字人文研究划分为三个阶段,即2003—2013年、2014—2016年、2017—2019年,分别聚类关键词,分析这3个阶段国内外数字人文研究的热点及变化情况。将样本数据导入CiteSpace软件,时间跨度选择所划分的时间段,设置每一年一个时间分区,分析对象选择关键词,分析对象节点之间连线强度选择夹角余弦距离Cosine,筛选标准选择Top50,采用“PathFinder+Pruning Sliced Networks”算法对图谱进行修剪,运行后分别得到国内外数字人文研究3个阶段的关键词共现词频/中心性。

  (1)国内数字人文研究热点的转移

  2003—2013年,国内研究表现出刚刚起步的状态,发文量较少,该年段内的热点关键词(中心性≥0.05)有:数字技术、人文计算、人文精神、文本挖掘、人文研究、交叉学科、可视化、媒体。主要针对数字时代人文精神[5]以及对数字化、文本挖掘等数字技术在人文科学研究中的应用[6]的探讨。随着技术的发展和大数据时代的到来,人文资料被数字化,知识成为一种可以计算的数据,这不仅改变了知识的获取方式和使用方式,也改变了人文学科研究的思维范式。

  2014—2016年,发文量有了一定的增长,但仍处于摸索阶段,该年段内的热点关键词(中心性≥0.05)有:人文计算、高校图书馆、图书馆、文学、大数据、数据库、新媒体、大数据时代、数字仓储、博物馆。主要针对图书馆、博物馆、数据库、数字仓储等作为科研支撑的基础设施建设研究[7]。国内目前还停留在数字资源建设层面,如各种方言数据库、俗语数据库、语料数据库、少数民族特色数据库、地方志数据库、族谱数据库、非物质文化数据库以及各种档案数据库的建设。同时,高校、科研机构研发各种数据平台,来支撑数据库建设。

  2017—2019年,发文量激增,国内数字人文时代正欣欣向荣,该年段内的热点关键词(中心性≥0.05)有:高校图书馆、图书馆、研究型图书馆、图书情报、远读、档案、大数据。主要针对高校图书馆的转型研究,如数字人文资源建设、数字人文馆员、数字人文素养[8]、数字人文教育等以及档案、古籍等文献的知识服务和可视化分析。

  (2)国外数字人文研究热点的转移

  2003—2013年,发文量较少。该年段内的热点关键词(中心性≥0.05)有:digital library,TEI,HPC,humanity,XML,art,semantic web,metadata,e-Research,repository,digital philosophy,infrastructure,attribute relationship graph,cloud computing。主要涉及:1)数字图书馆、高性能计算、云计算、知识库等基础设施建设研究[9]。在e-Research环境下,大量的传统文献和特色文献被数字化,作为文献资源的主要保留地,数字图书馆自然而然成为数字人文最初的基础设施建设者,高性能计算、大数据技术等则成为数字人文基础设施的技术保障,与此同时,高性能计算作为文学分析的新方法,被用来检索和识别数字图书馆中大规模文本资源的主题、关键词和语言模式等[10]。2)电子文本编码研究[11]。TEI(文本编码倡议)是一种建立在SGML(标准通用置标语言)和XML(可扩展标记语言)基础上的语料库文本标记模式,用于制定电子形式交换的文本编码标准,提高电子文本的规范化和标准化,使编码语言处理的文本能够更加方便的传输和共享。3)人文与艺术研究。人文和艺术作为人类文明和文化的精髓,与数字技术和计算机技术相结合,进行数据化和数字化重构,从而挖掘新的研究方法、研究领域和范畴。4)语义网技术研究[12]。对人文资源进行语义描述和语义组织,从而实现人文资源的整合和共享,并在此基础上进行深层次的知识服务。

  2014—2016年,发文量明显增长。该年段内的热点关键词(中心性≥0.05)有:visualization,cultural heritage,digital library,big data,ontology,linked data,history,machine learning,community model,crowd-sourcing,social media,augmented reality,archive,humanity,text mining。主要涉及:1)历史、文化遗产等数字化重构和可视化研究[13]。将历史上的手稿、语言、音乐、舞蹈等数字化,并建设数字化的文化遗产馆藏,确保其长期保存和开放获取。这一研究过程涉及了语义信息架构、内容组织、文本挖掘、3D建模、自动索引、数字化重构、语音分析以及对可视化成果进行信息检索、信息增强、标注、注释等。2)本体与关联数据研究[14]。本体作为对文献资源对象进行语义描述的规范,能将无序的原始人文资源转换为结构化的数据,关联数据再将结构化的文献数据进行组织和加工,使其变成可以通过计算机统计并呈现可视化结果的数据平台。3)数字建模[15]和增强现实研究[16]。借鉴自然科学研究中先通过计算机模拟分析再实验的研究方法,在人文科学研究中,利用计算机技术和大数据建立数字化模型来模拟和分析各种人文现象。例如,传播研究领域采用社交媒体(如推特、互联网、物联网)搜集大数据来进行社会关系方面的研究,或针对某一人文研究设定的虚拟空间,通过虚拟视觉技术和增强现实技术来推演一个活动或者一个事件的进程。

  2017—2019年,发文量平稳增长。该年段内的热点关键词(中心性≥0.05)有:cultural heritage,corpus,crowdsourcing,GIS,visualization,metadata,evaluation,machine learning,digital library,big data,linked data,distant reading,natural language processing。主要涉及:1)语料库研究[17]。随着数字人文研究的发展,语料库研究队伍不断壮大,其研究内容也从早期简单的词汇、语法和词典,扩展到信息处理、深度翻译、社会语言、认知语言、抽象语言、话语分析等广泛领域。2)众包、大众协同、人机协同研究[18]。在大数据和人工智能时代,通过对知识的开源,让每个人都能参与到知识的产生、知识的发现、知识的组织和知识的服务当中,再通过人机协同、交互处理各种知识。

4 结论与思考

4.1 研究结论

本文通过CiteSpace软件,对2019年12月31日之前CNKI和Web of Science核心数据集中收录的主题为数字人文的相关文献进行计量分析和图谱可视化分析,得出以下结论:

  (1)文献计量表明:数字人文研究越来越受到国内学者的重视,且研究成果丰富,整体呈上升趋势,2017年起发文量明显超越国外,发展十分迅速。但国内外相关研究成果的总体数量仍略显不足,还需要更多学者的投入和关注。

  (2)作者合作图谱表明:国内外数字人文领域的科研队伍在不断壮大,但科研人员之间的学术交流不紧密,多以个人或小团体形式进行研究,缺少权威性的大型学术团队和领军人物。虽然,在检索外文数据库时去除了几条第一作者单位为中国地区的文献记录,但这几篇文献也仅是国内作者独撰或是国内少数作者合著,并未有与国外研究者合作,这也反映了数字人文作为一个跨学科新兴研究领域,还需要设立更多国内外重大研究专项(如重点基金项目),促进国内外研究者之间的交流与合作。

  (3)机构合作图谱表明:国内形成了以南京大学和武汉大学为中心的机构合作团体,研究成果显著,但是其他科研机构各自为政,合作较少。国外研究机构虽然总体发文量少,但是各机构之间联系紧密,跨界合作多,研究成果具有较高的科技含量。同样,由于缺乏国内外数字人文联合项目的支持,研究机构之间也缺少该领域内深层次的交流与合作,需要更多政策上的宏观引领,建立长效机制,保障科研机构对数字人文领域的关注度,逐渐形成主流研究方向,促进数字人文研究的科学发展。

  (4)关键词共现图谱表明:1)国内数字人文研究侧重在高校图书馆应用,如知识服务、阅读推广、文献数字化等;国外数字人文研究侧重技术发展,如文化遗产的可视化,以及自然语言处理、语料库建设、语义网服务等。2)国内数字人文领域的研究热点从人文精神探讨和人文科学数字化,到基础设施建设研究,再到高校图书馆转型、数字人文素养、数字人文服务研究进行转变;国外数字人文领域的研究热点从数字图书馆、高性能计算、云计算、知识库等基础设施建设、电子文本编码、人文与艺术、语义网技术研究,到历史、文化遗产等数字化重构和可视化研究、本体与关联数据研究、数字建模和增强现实研究,再到语料库建设、众包、大众协同、人机协同研究进行转变。可见,国内数字人文研究主题比较单一,需要进一步发展,不断开拓新的研究方向,国外在数字人文领域的研究范围更广,更能体现数字人文跨学科、跨领域的特点。

4.2 研究思考

本文通过知识图谱直观地展现了国内外数字人文研究领域作者、机构的合作关系,并通过关键词共现挖掘研究热点,不足之处是样本数据只包括了主题为“数字人文”或“人文计算”的相关文献,忽略了未实际命名“数字人文”的研究成果。但也从侧面说明,数字人文研究机构传播力不够,只有涉及该领域的学者才会去了解数字人文,除了提高“数字人文”标签的使用度以外,还应在核心期刊多展现数字人文的研究成果,提高数字人文的普及率。此外,学者的数字人文理念也不够深入,数字人文研究思维还需要进一步提高,要从开放思维、量化思维不断向着关联思维、跨学科思维和协同思维转变。

  数字人文作为跨学科领域,涉及文学、社会学、历史、计算机科学等,深刻地影响着人文科学的发展,也自然地与以知识组织为主要功能的图书馆相契合[19]。数字人文与图书情报都是有关信息的学科,图书馆学作为数字人文产生的基础科学和主要应用领域,应从内涵、研究对象、研究方法和实践中始终保持与数字人文研究协同发展[20]。

  目前,国外已有图书馆专聘数字人文馆员以支持数字人文研究,并在图书馆内建立了数字人文研究中心,加强图书馆与其他科研机构的交流与合作[21]。虽然上文图谱分析显示,国内十分注重高校图书馆数字人文建设,但大多是一些探索性研究。国内的图书馆,尤其是作为科研支撑的高校图书馆,应当在深入研究的基础上,加紧建立数字人文中心或明确提供数字人文服务的相关机构,通过与学院紧密合作,研发人文数据库和基础性应用软件,改善数字人文研究平台。此外,聘任专职数字人文馆员,并加大对数字人文研究项目的资助力度,鼓励科研人员积极参与国际会议和项目,创新数字人文研究内容、研究方法和研究范式,推动我国人文科学的进步。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论