文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

数字人文背景下的东盟信息资源重构与利用

时间:2023/11/9 作者: 图书馆界 热度: 17695
覃 熙,李佳辉,苏瑞竹

  (广西民族大学 a.图书馆;b.管理学院,广西 南宁 530006)

1 数字人文:资源重构技术

数字人文从最早的“人文计算”产生以来发展至今,无数学者对其内涵外延作了研究和论证,业内统指人文学者运用计算思维,将研究对象通过计算机软件以可关联、可计算和可视化的方式进行知识重构,便于开展统计分析和信息挖掘。研究者通过这种思维方式,发现人文学科中蕴藏的特征和规律以及隐藏的新知识,为研究对象的发展趋势作出判断提供依据。

  传统的人文研究范式是对基础性材料进行思辨、归纳、解释的定性分析模式以及线性、深度、细读的阅读,“人文计算”将数理统计的研究方法引入人文领域,对海量的不同文本进行综合定量分析。而“数字人文”,在“人文计算”的基础上,增加包含了信息组织可视化,将信息转变为图形从而生成二次知识。美国伊利诺伊州立大学教授John Unsworth认为,“数字人文”是高效计算和人文沟通的一种建模方式,将人文知识的发现、标注、比较、引用、取样、诠释以及呈现等过程都通过计算机技术改变了其模式。作为新兴的研究手段,数字人文被大量运用于历史、考古、文学等学科领域,将学科知识进行单元细粒度化、语义化,为人们提供了全新的研究视角和工具手段。刘炜等归纳了传统人文各领域的数字化特征,将“六经”,即《诗经》《尚书》《礼》《易》《乐经》《春秋》对应当代人文研究体系的“语言学”“政治学”“社会学”“哲学”“艺术”和“史学”,当数字技术进入这些领域时,学科研究的深度和广度得到很大拓展。因此数字人文不仅是一种学科研究范式、一种人文计算的工具集合、一种研究意识共同体,从更简单的表象上来看,它就是一种知识重构的技术集合。由于其知识的关联度大大增加,知识的语义描述扩展为多个维度,从而呈现出更加丰富的表现结构。

  数字人文技术把没有形体的数据、文字、概念和故事变成画面,通过人类最发达的视觉系统,帮助缺乏数字直觉的学习者加深理解和体验,开展数据背后意义的抽象思考。目前,学界通过数字技术进行知识重组的研究日渐丰富,研究者通过文本分析工具研究语言现象和规律、分析哲学的概念语义,结合多地图叠加技术展现各种学科知识在时间上的演化过程以及空间分布,挖掘历史人物的行踪轨迹和人物关系。我们乐于发现数字技术为人文学科带来的计算结果,如通过武则天称谓的词频变化统计、朝代分布、文献分布和地理空间聚合分布等多个观察维度,能够得出历史上人们对武则天的客观评价;通过法律语言学的分析方法鉴别《布谷鸟的呼唤》的真实作者与《哈利·波特》的作者J.K.罗琳是同一人;通过对《左传》里的事件、人物信息进行结构特征的计量算法,用可视化结果分析《左传》里的人物在同一事件中出现的概率、人物关系特点以及人物地位表述。多媒体映像技术可对艺术和历史进行史料的解释和重建再现。例如,用全息影像展示清明上河图;利用应用数据库《3D实景莫高窟》展示“数字敦煌”“虚拟洞窟”等;通过历史地理信息系统,实现古代道路和城市复原以及语言民族变迁调查地图的形成。数字技术的魅力不仅可应用在学术上,还可以通过其可视化的知识表现形式应用于政治决策。19世纪,英国护士和统计学家Florence Nightingale,为一些不太能理解传统统计报表的公务人员制作了一种色彩缤纷的图表,即历史上著名的“南丁格尔玫瑰图”,用以揭示军医院季节性的死亡率,得到当时的国家政府高层包括军方人士和维多利亚女王对医事改良的支持。

2 东盟信息资源建设现状

2015年,我国发布《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,“一带一路”正式进入全面实施阶段。东南亚航线是“21世纪海上丝绸之路”的第一段,东南亚多国与中国海陆相连。自2003年起,中国与东盟各国建立了和平稳定的战略伙伴关系;2011年,中国—东盟中心正式成立,着力促进中国与东盟各领域合作。从政府到科研机构,从高校到企业,对东盟贸易、投资、教育、文化、旅游、信息媒体等全方位的研究日益深入。各类信息服务机构为东盟的研究开展了大量信息保障工作,目前已有多个东盟信息资源收集整理数据平台并各具特色。

2.1 国内数据基础保障能力提升

东盟信息资源保障体系的构建,是新时代中国自主创新道路实施创新驱动以及“一带一路”建设的重要支撑,经过多年的探索和实践,我国构建了多个东盟信息资源保障中心和平台。例如,中国社会科学院亚太与全球战略研究院建设的“东南亚研究网”,其中收录了2008—2016年国内出版的部分东南亚研究学术著作以及各类期刊公开发表的东南亚研究文献,同时链接了如文莱政策和战略研究所、老挝国家经济研究中心、缅甸战略和国际问题研究所、柬埔寨合作与和平研究所、越南中央经济管理研究所、泰国朱拉隆功大学社会研究所、菲律宾发展研究所、印尼经济研究中心等30多所东南亚研究机构的官网。社会科学文献出版社构建的“一带一路”数据库,设置九大功能子库,从研究、实践、资讯等方面服务三大主流用户。广西社会科学院东南亚研究所、云南社会科学院东南亚研究所、社会科学文献出版社以及台湾东南亚学会、台湾政策研究中心亚太研究小组等,这些学术机构均收藏了大量的东盟文献信息资源。围绕“中国—东盟信息港”的建设,多家具备数字产业优势的平台开发了专门的公司,发挥大数据分析处理的平台特色带动了不少数字经济专项的开发。此外,还有围绕大湄公河次区域经济合作开发的各类数据库,如中尺度行政区划地理信息系统数据库(GMS_AdmBnd)等。国内多所院校以及香港、台湾地区的不少大学均设立东南亚研究机构,在东盟文献信息资源(特别是东盟语种文献)建设方面也形成了区域地方特色。此外,我国关于东盟研究的成果丰富,在期刊、会议、报告、报纸、图书、学位论文以及各类平台开放。

2.2 国外数据来源日益广泛

发达的互联网为我们提供了海量的东盟国家发展统计数据。联合国商贸易统计数据库是目前全球数据量最多、最权威的国际商品贸易信息资源库,收集了 6 000 多种商品、近17亿个数据,数据最早可回溯至1962年;全球可持续发展指标数据库结合全球可持续发展峰会确立的17项总目标和169项子目标以及相应的SDG指标数据库,数据涵盖社会、经济、环境三大领域;服务贸易数据库涵盖近十多年来200个经济体服务进出口的服务数量;世界发展指标数据库包含200多个国家和18个地区的社会、经济、财政、自然资源和环境等各方面,共695种发展指数的统计数据;环境、社会和公司治理数据库将世界各国的温室气体排放量、人口变化和男女平等的进展程度等17种指标一元化;全球金融发展数据库收录136个国家的外债与金融流程数据资料,涵盖217个参数的统计数据;国家统计局也做了六大洲多个国家的统计网站的链接,亚洲部分涵盖29个国家,其中东盟国家有7个,发布包含GDP、CPI、人口普查、粮食产量等多种统计指标国家数据。

  探寻东盟国家的文化资源,有些国家电子书资源相对丰富,如泰国的移动电子书网站,印尼的Gramedia的电子书平台、Wayang Force综合类书籍与杂志等。一些东盟国家的机构知识库以及高校的学位论文库相对健全,如新加坡国立大学学位论文库、泰国朱拉隆功大学学位论文数据库等。东盟各国及地方政府网站或facebook的官方账号,地方新闻媒体、综合门户网站、社会团体网站、论坛等是当地政治、经济、社会、文化、科技以及政府信息发布的集中平台,如越南河内市政府官网,泰国马哈沙拉坎府facebook账户,泰国的《民族报》《泰国日报(英文版)》《暹罗日报(泰文版)》、泰联网等网站,缅甸的旅游信息网、果敢论坛,新加坡南安艺文社、菲律宾华裔青年联合会Kaisa Para Kaunlaraan等。自中国—东盟自由贸易区成立以来,东南亚国家之间民间的“微”交流愈加频繁,社交平台上出现了难以计数的公众号,如“泰语泰国”“大缅甸”“缅甸今日”“泰国中文网”“老挝快讯”“醉美缅甸”“泰国妞”等,都属于实时信息来源。

2.3 东盟信息资源建设的新挑战

“十三五”期间,东盟基础资源的建设在资源深度加工和整合、数据库的建设与组织、保障平台的建设与维护等方面都加大了创新力度,东盟信息资源保障的能力和水平显著提升。但随着数字人文的兴起,研究人员对数据有着更丰富和更深层的诉求,而当下,东盟信息资源建设仍然是以数据集散建设模式为主,这种传统知识组织形式下的数据材料之间缺乏有意义的关联,如时序性、地理信息以及其他元素之间的数据支持,数据粒度大且分散,没有形成多维度的关联组织和精细化的计算分析,使用者只能通过零散的原始数据进行孤立分析,难以发现数据所包含的深层问题。目前,东盟信息资源建设取得的成就只是一种建设式的改变,而不是重构式的改革。面对复杂变幻的信息技术环境和日益增长的用户信息需求,东盟信息资源供给不平衡、不充分,信息资源组织方式单一,个性化和集成化服务程度不高,信息资源开发利用不足与无序滥用的现象亟待改善。

  随着国际竞争局势的加剧,国内对东盟国家发展的研究需求提高,数字人文技术的出现带来了全新信息环境的形成以及科学研究范式的转变,也为东盟信息资源保障体系带来了改革契机,东盟信息资源的组织方式和保障机制都有待重新界定和设计。数字人文技术的出现促进了科技手段与传统人文学科的融合,也引发了信息资源保障体系建设利用思路的转变,“十四五”发展规划对我国数字资源保障建设提出新的战略要求,东盟信息资源重组的发展方向是知识关联、定量分析和深度挖掘。我们有必要研究如何扩充信息的知识表达,把异形数据、大颗粒度的信息进行内容关联和聚集,建立东盟数字资源服务堆栈,实现东盟信息资源的存储、重构、挖掘和知识发现,以满足信息价值深度挖掘和再创造的用户需求作为出发点和归宿,支撑我国“一带一路”信息资源保障任务顺利推进。

3 东盟数字资源堆栈的搭建

利用数字分析技术对东盟信息资源进行组织和重构,需要搭建一个以用户响应机制为出发点的集数据抓取处理、资源语义重构性描述、认知计算功能三位一体的数字资源堆栈,包含数据栈、语义栈、用户栈,每一层面都运用下一层的能力,我们讨论信息从堆栈底层向上直至用户需求响应的实现理念,提出数字人文堆栈平台的思路。平台设计采用Python编程技术结合Hadoop架构作为基础,对数据流进行控制和可视化展示,以实现数字人文堆栈模型(见图1)和数字人文平台架构体系(见图2)。

  

  图1 数字人文堆栈模型

  

  图2 数字人文分析平台架构体系

3.1 数据栈

数据的处理是资源堆栈搭建的重要根基。以定量二维表格式为代表的结构化数据,储存于关系型数据库当中,这类数据的存、取、用技术成熟。常规做法是利用DBMS驱动对结构数据源进行ETL操作(提取、转换、载入)。这部分数据较为规范,可使用Sqoop工具,根据中介数据结构在数据源采集数据时确保数据类型得到准确处理,形成格式统一且能够直接利用的元数据,存储在Hbase元数据库当中。

  而文本、影音、短视频等无法使用数据二元结构逻辑表现对信息进行表示的这类数据可归纳为非结构化和半结构化形式数据。例如,东盟各国语种媒体资料这类非结构化数据,则专门需要通过NLP(自然语言处理)技术,识别文本中的关键信息元。使用Avro工具对这部分信息元进行JSON字符串或二进制编码进序列化处理,将提取的元数据保存在Hive数据库当中。

  非结构化的数据,没有严格的格式限定,对信息在堆栈当中的描述是有利的,信息可以在堆栈当中自由流入以及更新。利用自然手段对非结构化数据有针对性地挖掘,根据用户自建模式来检索信息。非结构化数据不再是信息资源的附加描述,当中也包含着丰富的可关联、可统计、可视化资源,能够对数据进行多维度描述。

3.2 语义栈

信息在数字系统中是数据结构和控制结构的组合,堆栈建设信息元的存储和利用需要深度清洗、转换、重排、载入等操作,以满足信息的准确重组和推理。用户可提取Hbase中的数据进行深度清洗,再将元数据载入Hive数据库当中,用于信息统计业务。数据集的错误需要在被采集时进行了纠正和重塑,Hbase中的元数据主要是满足信息实时业务的利用。

  信息推理是语义栈的重要职能,海量数据集在这里进行算法学习,得到目标数据在特定领域里的训练模型,实现信息推理。TensorFlow作为深度学习的框架,除了能够提供各类预测算法,还提供了强化学习的算法。强化学习算法能够让具有决策能力的智能实体,通过感应外界环境的变化而激发自身作出决策。当前,自然语言处理技术也得到深度学习助力,解决了语义匹配当中语义相似度的问题。

  选择和利用好适当的工具可以提高数据载入的工作效率,节约数据准备时间,有利于数据有效进入用户响应环节。

3.3 用户栈

用户栈的建设前提是要做好用户对东盟信息资源重构的需求预判。东盟信息不仅是资源集散地,更是为国家战略提供智力支持的重要材料。信息的重构并不是将原有的数据消除或是新建,而是当源数据集的表现方式不能满足用户需求时,用户栈需要将数据分析形成二次信息元数据自行重组利用,实现系统人机交互。数据集内的数据意义在堆栈当中是可以进行重复利用的,并且可以随用户使用不断完善和扩充,形成优质的数据集。

  信息重构的重点,不仅有数据处理技术,还有用户响应机制。用户是知识的开发者,他们通过文本和时空数据集成,用专业的研究方式进行知识发现,形成新的知识组织形式。便于用户易懂易用的图形化展示工具可呈现数据之间的关联和规律,让抽象的信息具体化,有助于研究者发现信息包含的知识,展示高质量的数据内容可提升信息交互的高率性、可靠性、专业性。在Python编程框架对数据的可视化提供丰富的工具支持,使用Matplotlib绘图库,能够轻松绘制多种类型的二维图表,也可利用mpl_toolkits.mplot3d工具库实现三维图表绘制。在Superset平台可以使用SQL语句连接数据库对大型数据实时展示提供快速切片,构建合理的仪表盘。

4 东盟信息资源重构后的开发利用

东盟数字资源堆栈搭建成型后,用户进入资源平台,面对的既是已经组织成型的数据结构,也是一个多维度人机交互使用的信息系统。在这里,用户不仅是数据获取方,更是二次知识的开发者,数据以各类知识元形式排列,由用户进行重组重构,发现新的知识和规律,并上传平台进行二次知识共享。

4.1 数据统计分析

用户根据需求,自行围绕东盟十国信息资源形成主题建制,数据栈已经围绕年份、国家、领域等时间、空间、发展维度描述进行变量编码,并提供开放式结构便于用户进行数据统计以及相关性分析。例如,关联性分析、数据过滤、矩阵散点、用户画像、三维聚类、特征筛选、回归分析、帕累托图等分析可视化,协助用户全面观察研究领域的历史数据。数据栈提供的算法可以计算东盟各国之间的差距与关系,深层次挖掘东盟各国的发展与变迁,同时对信息的来源、行业领域、数据特征等多种维度进行关联,利用趋势推理技术发现不同维度数据之间包含的关系。例如,东盟十国的GDP以及相关商贸、航运等行业的发展指数,与人口总数、就业失业人数共18个字段的数据资源进行交叉融合,以三维聚类散点图方式进行组织重构,得到东盟十国经贸人口发展概况的对比散点图,能够实现1个界面18个维度的东盟各国综合指数分析(见图3)。

  

  图3 东盟十国经贸人口数据交叉重组和三维聚类分析

4.2 文本分析处理

东盟数字资源堆栈能够满足用户对文本的粒度化知识分析,提供文本资源全文阅览和统计分析的功能。堆栈具备的提炼关键词、过滤降噪、分词、词性分析、专有名词识别、知识图谱、情感分析、自动摘要、主题识别、生成故事流等知识重组技术,可提供知识图谱服务。以“越南自卫反击战”词云图为例,不同的字体大小和位置展示了其关键词和高频词(见图4)。又如,用户在某国皇室人物及关系地位进行文本研究时被冗长的人名和复杂的地位关系所困扰,专有名词识别技术可以将文本导出形成人物关系知识图谱,以此节约用户的理解耗时。

  

  图4 “越南自卫反击战”词云图

4.3 地理空间信息的有效揭示

具备地理空间观察视角的用户可以通过研究数据在地图上进行分布、组合与变迁动态的重构,能够通过从空间上反映出的东盟各国经济、文化、社会发展和变迁,推断其在历史上的文化流变与经济发展的关系。东盟数字资源堆栈储存了东盟各国主要城市的人口、经济发展指标、文化建设、疫情概况等数据资源,用户可以利用地区分布图、地图散点图、连接地图和三维地区柱状图等知识组织工具自行进行观测。例如,用户想了解东盟十国和周边重要国家人口增长率可利用地球仪进行呈现,因为其视觉效果具有较好的对比性和直观性(见图5)。

  

  图5 国家人口增长率地理时空数据图

4.4 时序分析

东盟数字资源堆栈预判用户应用需求,将数据的时间属性进行存储组合设计。用户可以利用时序散点图、极坐标图、热力图、动态图、周期图、多系列三维柱状图、不同颜色形状结合观测的主题河流图、自变量与因变量的回归分析、基于数据算法的预测分析、跨库数据的关联融合等工具进行时序观察,观测数据对象包含的规律、趋势等信息,如东盟国家二氧化碳排放量对比即是如此(见图6)。

  

  图6 东盟国家二氧化碳排放量前五名对比图

4.5 多源融合

东盟数字资源堆栈具备的异构数据和多源数据的融合、计算、推理和可视化功能,可满足用户以下两种需求:一是用户对不同维度的联合观测需求。这需要更大的数据量以及不同属性的碎片化数据重新进行有效组合,形成多维关联的综合知识图谱或者实时数据观测系统。例如,用户在追踪特定事件进展时,往往要对网页、微信、社交平台、手机应用、论坛、报刊、视频、问答、评论、广播电视等媒体进行碎片数据结构转换以及多源融合,并实现时间范围、媒体类型、情感属性、媒体类别、发布地区、精准度、信源等信息类别的自定义动态追踪,形成个性定制的可视化观测界面以及多维度动态信息语义分析。例如,“东南亚贸易”的多平台信息发布实时统计及资源统一入口(见图7),用户可以点击地图中高亮城市呈现对应地区、数据源的资源全文,在界面上对系统数据进行纠错降噪处理。

  

  图7 “东南亚贸易”的多平台信息发布实时

  二是影响因子分析。用户对研究对象进行多种维度跨库综合分析,以发现外在因素对研究事物发展的内在影响。例如,新冠肺炎疫情与经济研究数据的多源融合(见图8),研究对象是新冠肺炎疫情对经济的影响,用户可自行组织疫情基本信息、人口流动信息、经济影响信息3套基础数据,重构新冠肺炎疫情与经济研究数据库:1)疫情基本信息从每日疫情动态、疫情防控财政专项拨款情况、确诊病例分布、确诊病例活动轨迹、医疗救治数量统计等数据反映;2)人口流动信息包括各省份及城市的迁入迁出人口数据;3)经济影响信息由单月主要经济数据环比表、单月国内GDP、单月宏观经济数据等数据组成。在这个研究数据的提供过程中,用户需具备跨库数据多维关联的组织思路,同样的数据重组原理还可以运用于研究特定事件趋势及传播路径等领域。

  

  图8 新冠肺炎疫情与经济研究数据的多源融合组织思路

5 构建东盟信息服务保障体系的思考

基于在东盟信息资源重构工作中面临的实际问题和挑战,建设完善的东盟信息资源服务保障体系,可从以下几个方面展开。

5.1 注重特色建设,构建协同机制

研究单位和高校等信息服务机构提供的东盟文献信息资源需强调特色,避免重复建设,不仅为实现自身的独特服务优势,还有助于为后期的建设方向制订发展方针。东盟信息资源的组织与利用目前处于供需不平衡的阶段,资源组织单位之间要协同创新,建立稳定共赢的合作关系。组建跨学科、跨领域的研究团队,提升东盟信息资源的整合能力,建设以科研单位、高校图书馆为依托的东盟信息服务保障平台,形成统一发布数据组织成果的机制,为东盟研究和国家重大战略提供理性思考和精准服务。

5.2 提升数字思维,加强融合统一

提升资源组织单位以及研究者的数据思维和数据分析处理能力。习近平总书记在主持国家大数据战略第二次集体学习中强调,“善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功”。信息资源的组织提供者以及研究用户,对数据分析运用的思维能力决定了数字人文技术在其研究领域的发挥能力,因此,数据思维和数字人文研究范式的推广应加入信息素养培训体系课程中。同时,资源组织单位各行其政的现状亟须改善,提高数字融合意识,积极搭建交流平台,扩宽沟通渠道,从资源内容和数据结构上加强统一融合,为后期数据清洗提供良好的数据环境和基础。

5.3 以应用为导向,完善服务体系

信息资源最终是服务社会。2021年4月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》在“十三五”规划的基础上再次强调“加强公共数据开放共享”;而在“提高数字化政务服务效能”方面则提到要“加快构建数字技术辅助政府决策机制”,这是大数据在推进政府治理能力提升方面的重要作用。因此,东盟信息资源建设平台应贯彻应用导向机制,预判与完善用户的多元需求,增强人机交互与用户二次开发效能,形成更为专业的知识组织形式,为东盟信息资源组织平台的发展和完善提供决策参考。

6 结 语

本文将数字人文技术运用于东盟信息资源组织应用中。主要阐述:1)提供东盟信息资源数字人文堆栈搭建的思路,提出数据提供、语义聚合以及用户服务三个层级;2)介绍部分东盟信息资源数据的获取渠道以及数据处理经验;3)提出用户如何利用数据统计、文本分析、地理空间信息揭示、时序分析等可视化技术对信息资源进行重构的方法;4)为东盟信息资源服务保障体系提出建设性建议。

  然而,数字人文技术在东盟信息服务中的应用并非简单的技术问题,它与东盟信息保障机构的组织架构、研发团队的技术水平息息相关,这其中,哪些领域的信息资源更适合利用数字人文技术进行深度开发,也是我们今后进行进一步研究的方向。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论