文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

“互联网+”环境下多源东盟文献信息资源融合与揭示研究

时间:2023/11/9 作者: 图书馆界 热度: 18587
苏瑞竹,肖龙翔

  (1.广西民族大学管理学院,广西 南宁 530006;2.华中师范大学信息管理学院,湖北 武汉 430070)

1 引 言

“互联网+”是指把互联网环境下的创新成果与经济社会各领域深度融合,推动技术进步、效率提升与组织变革,提升实体经济创新力与生产力,发展一种经济的新模式。2015年7月,国务院发布《国务院关于积极推进“互联网+”行动的指导意见》,阐明互联网各种各样的创新成果和其他领域有机结合的重要性与必要性。该文件指出,加快推进“互联网+”发展,建立公共服务一种前所未有的全新模式,有利于进一步推动经济发展。

  “互联网+”也为图书馆的发展带来了机遇与挑战,可以积极地借助“互联网+”的技术进步与政策助力,将“互联网+”融入图书馆实际工作中,主动进行业务创新,通过“互联网+”驱动数字资源的互联融合,使图书馆服务逐渐向以融合为基础的服务生态系统转变。“互联网+”环境对图书馆多源东盟文献信息资源融合与揭示带来了新的机遇,充分结合东盟国家多种来源信息,对图书馆运用包括大数据在内的多种方法进行综合融合与分析,全面了解东盟国家各方面发展态势的方法策略并进行规划与设计,为科学决策提供更有利的情报支撑,以期服务于“一带一路”倡议。

2 多源东盟文献信息资源体系的建设、融合及其研究现状

2.1 多源东盟文献信息资源体系建设、融合现状

2.1.1 公共图书馆。中国国家图书馆为我国最大的图书馆,它的外文数据库收藏着大量的多语种、多来源的东盟文献信息资源,拥有多语言及多种来源的东盟文献资料库。

  此外,很多的公共图书馆对东盟信息资源的建设也愈加重视,如广东、广西、福建、云南等毗邻东盟、与东盟交流密切的省份,均充分发挥自身区位优势逐步建立东盟文献信息资源体系。例如,广西壮族自治区图书馆、云南省图书馆等公共图书馆都建有专门的东盟文献书库,广西壮族自治区图书馆还融合大量的信息资源制作了东南亚研究论文库和东南亚风情资源库。

  2.1.2 高校图书馆。东盟信息资源是东盟语言教育和研究的重要支持资源。东盟信息资源创建因语言限制、人才、处理难度等原因仍面临诸多困难。但是,通过高校图书馆的共享,许多高校在已有基础上,拓展东盟文献方面的信息资源,帮助学校师生开展教学和科学研究。例如,广西民族大学图书馆设有东盟文献信息中心,收藏了包括越南、老挝、柬埔寨等多个东盟国家的原版图书 50 000 余册。其中,诗琳通公主泰文资料中心、越南语文献信息中心等多个东盟文献信息中心构建了完整的东盟文献信息资源体系,在相关教育和研究机构中形成较大影响力。为推进资源共享,广西民族大学图书馆还利用阿帕比数字出版全流程解决方案对收藏的东盟纸质文献资源进行数字化,建成东盟原版图书库和东盟文献库。又如,暨南大学东南亚研究所建设的新加坡研究数据库也获得了广泛认可;CALIS资助建设的厦门大学东南亚及闽台研究数据库和暨南大学华侨华人文献信息专题数据库,也成为多语种、多数据源和东盟信息资源融合的代表性项目。

  2.1.3 东盟研究机构。“一带一路”倡议引导许多研究机构将研究重心转向东盟国家。这些机构将学术著作、学术期刊和其他出版物与已有的数据库相融合成为信息资源服务体系,为研究者提供信息支撑。例如,暨南大学东南亚研究所、厦门大学东南亚研究中心、广西大学东盟研究院等研究机构,充分利用了自身所具备的东南亚地区信息资源优势,在东盟的科研方面取得良好成绩;这些研究成果的收藏也丰富了本机构的东盟文献信息资源。又如,广西大学融合网络信息构建了中国—东盟全息综合数据平台。通过该平台的建设,可以实时、直观、形象、逼真地互动展现中国—东盟地区政治、经济、文化、地理、历史、资源等相关全息信息,面向各级专家领导、科研团队、数据加工团队、公众用户等提供专业的信息咨询服务,为中国—东盟研究院各类课题研究、日常教学、专题会议提供各个层次的研究数据和实用工具,从资源层面提升研究院的基础研究能力,为确保广西大学在中国—东盟研究领域在全国的领先地位奠定坚实的基础和技术保障。

  2019年9月,中国东盟信息港与广西大学国际学院联合成立中国—东盟信息港大数据研究院,其中,最重要的是6大数据平台:以区块链作为底层技术的中国—东盟金融合作大数据平台,澜沧江—湄公河流域生态与经济大数据平台、中新互联互通南向通道数据库建设、“泛南海合作”全息数据库平台、人工智能技术应用与“数字广西”大数据平台以及全球价值链与中国—东盟生产贸易链大数据平台,建立一个面向全国乃至整个东盟的国际网络信息资源系统。

  1995年,南海研究院图书馆开创了建设我国南海问题研究的南海文献数据库的先河,内容涉及国际上与南海问题有联系的各类英文资源以及清朝以来内地和港澳台与南海问题相关的文献资源,包括各个时期的各类地图、政府文件档案以及与东盟国家的往来书信资源,还有电话稿件等相关资源,更不乏各种会议记录、影像照片以及第二次世界大战以后我国关于接收西南沙群岛的一系列重要文献等,极大地支持了我国对南海问题相关合法权益的维护。

2.2 多源东盟文献信息资源融合研究

我国关于多源东盟文献信息资源融合的研究较少,在CNKI以“篇关摘”为入口,以“东盟信息*融合”为检索词查询到84篇论文,基本上是教育学、信息基础设施、金融、经济等方面的论文,没有一篇是研究多源东盟文献信息资源融合的。

  但是,有关多源信息资源融合的研究不少,如化柏林对多源信息融合的方法进行研究,他还与李广建利用多源信息融合技术开展竞争情报研究,他们的另一份研究则关注多源数据融合,用竞争情报方法加上主流的大数据方法,形成一个互补的组合,并使用多源信息融合理论与竞争情报、大数据等相关领域进行深度融合研究。这些研究成果对多源东盟文献信息资源的融合具有借鉴意义。

3 “互联网+”多源东盟文献信息资源融合

“互联网+”环境的到来,对图书馆提出了新的要求。图书馆传统的多源东盟文献信息馆藏已无法满足用户的需求,需要将文献信息资源进行数字化,并从各个渠道寻求更多资源来满足用户更高的信息需求,这就使图书馆对多源东盟文献信息资源融合的需求更为迫切。

3.1 多源东盟文献信息资源组成类型

多源文献资源的融合包括以不同方式、从不同渠道获得的各类资源,以统一的形式融合组织成易于使用的数据库。这些资源的来源主要有3个部分:融合的网站资源、本馆数字化的馆藏资源、整合的订购数字资源(见图1)。

  3.1.1 融合的网站资源。网络信息的蓬勃发展,使网站资源的重要性达到了前所未有的高度。聚合网站资源是指图书馆从东盟国家的网络上采集时事新闻、市场信息、经济信息资源。这些网络信息资源能精准地反映各东盟国家的政治、经济等多方面现状,将其聚合与分析可以为图书馆开展东盟信息服务和支持用户决策提供重要的信息资源基础。

  

  图1 多源东盟文献信息资源组成类型

  3.1.2 本馆数字化的馆藏资源。以文献资源建设为主要工作之一的图书馆,收藏东盟各种类型的书籍、报纸、原版音视频文献(光盘)以及其他相关资源。图书馆通过对本馆馆藏东盟纸质文献的数字化,聚合所购买的东盟原版音视频文献,形成数字化的东盟馆藏资源,极大地丰富图书馆的多源东盟文献信息资源体系。

  3.1.3 整合的订购数字资源。就目前而言,由于资金、馆藏政策、语言等多种条件的限制,单一的图书馆或若干个图书馆组成的图书馆联盟并没有建设完整而全面的多源东盟文献信息资源体系的条件与能力。因此,在需要东盟信息资源但无力建设的情况下,购买外部资源便是一个很好的方式。图书馆可以向数据提供商、咨询公司、情报研究所等机构购买有关东盟各个国家的专利数据库、政策数据库、论文数据库等数据库,利用这些数据库专业性、权威性、实用性为图书馆的有关服务提供帮助。

3.2 多源文献信息来源的类型

3.2.1 同型异源平台文献信息。东盟文献信息来源类型多样,像文献信息数据库、各种机构网站以及微博、博客、微信公众号等就是东盟文献信息的载体。信息的主体和形式分布在同一类别的信息平台中,但每一个都有不同的信息搜集渠道、信息处理系统和信息处理标准,使之服务的内容和用户各有不同。同一类型平台的不同形式或不同来源渠道的信息就是同型异源的信息。所购置的各类数据库信息以及机构知识库中有来自各种信息平台的信息,如微信公众号里的信息也属于这一类。同型异源的信息往往在各自的平台中对相关的权益人展开服务。

  3.2.2 异型异源平台信息。不同类型的东盟文献信息平台存在不同形式的信息,如东盟文献信息数据库主要是由图书、期刊等学术信息构成,非常系统;东盟微博为短文本形式信息;东盟博客则以篇章博文的形式产生长文本信息;同时还有一些平台的语音、视频等形式的信息。这些不同类型的平台及其不同形式的信息组合构成了异型异源信息。

  3.2.3 多语种平台信息。多语种平台信息实际上是东盟国家各自建立的本国语种的信息媒体平台发布的信息。虽然语种多样,但东盟国家发布的这些不同语种,内容类型多样的信息,是人们在互联网时代对东盟科技信息、经济信息、生活信息以及学术信息的需求和获取上不可忽视的信息源。

3.3 多源信息融合

多源信息融合,按照多源信息的不同类型,主要包括同型异源信息融合、异质异构信息融合以及多语种信息融合三种类型。跨界融合是“互联网+”的一个显著特点,它为信息源、供应商、用户等融合创造了条件。

  3.3.1 同型异源信息的融合。同型异源信息的融合,实际上是对这些信息的聚合,也就是针对同一类型的信息平台进行信息聚合。这里主要指对所购买的文献信息资源数据库以及对新媒体平台东盟信息的聚合。

  图书馆所获取的同一类型的东盟文献信息资源皆为不同来源,具有不同形式、不同标准和不同服务模式的不同书目资源提供者。在数据库方面,中文期刊的图书馆资源一般由中文数据库提供商提供,如CNKI、维普等,而外文期刊的资源取自外文数据,如EBSCO、ELSEVIER等。这些数据库资源存在着同型异源的特点。而各新媒体平台的信息资源如果单从同一类型的平台来说也有同型异源的特点。

  对不同来源的东盟文献信息资源,需要进行集中的整合与处理,通过统一字段格式、同类字段识别转化等方法将这些同型异源文献信息资源进行聚合分析,使这些同型异源的东盟文献信息资源可被统一的获取与利用,更好地为服务与决策提供支撑。

  3.3.2 异型异源信息的融合。由于“互联网+”的推动以及影响,单一的文献信息资源类型已经不能满足用户与决策者的需求。十大文献信息资源以外的资源如包括社交媒体数据等零次、一次文献,如微博、博客、微信公众号也开始成为图书馆信息资源建设研究与分析的新重点,东盟文献信息资源需求可以考虑从这些资源入手。在“互联网+”的全新挑战下,图书馆应当从不同来源和不同类型这两个角度对东盟文献信息资源进行全面系统的搜集和整理,也就是说对东盟文献信息资源的融合需要考虑异型异源信息的融合。

  图书馆在不同的条件下搜集论文资源、书籍、报刊、专利、东盟各国不同类型的政策资源和微信、微博等不同平台类型的异型异源文献信息资源,通过子字段拆分、融合分析等方法,进行统一整合,并对融合过的结果进行计量研究、关联分析,以便更好地反映东盟各国的发展态势,为东盟国家及其国家的用户提供良好的多层次和多种类的信息服务。对异型异源信息的融合,可提升东盟文献信息资源的多样性表达,同时使文献信息资源的丰富程度得到多层次提升,多样化的东盟文献信息形式还能吸引更多用户,有助于用户发现所需的文献信息资源,帮助用户提高获取文献信息资源的速度。

  3.3.3 多语种信息的融合。多源东盟文献信息资源,除了类型和来源不同,语言不同也是一大特征。由于东南亚国家联盟的特殊历史条件,东盟国家除了具有自己民族特色的本土语言,如马来语、越南语、泰语和菲律宾语以外,在一些地方还有法语、英语、俄语、日语、葡萄牙语等语种作为半官方语言。因此,东盟文献信息资源的语种包括本土语言和上述提及的非本土语言等多语种与东盟相关的文献信息资源。在实际采集东盟国家文献资源的过程中,图书馆会搜集以各种语言呈现的东盟文献信息资源。此外,由于某些语言的特殊性,除了少数专业人士,大多数图书馆员无法在短时间内了解大量的东盟文献和信息资源。为了融合这些多语言信息,需要使用翻译工具将多种东盟语言的信息资源自动翻译成中文,以便馆员进行文献信息的分类标引和分析挖掘,使融合的东盟文献信息资源服务平台能为用户提供东盟多语种文献信息资源服务。

3.4 多源信息融合层次

多源信息融合的实现,有着不同的采集和抽象层次,通常来说包括以下4层:基础层、数据层、特征层和决策层(见图2)。

  

  图2 多源东盟文献信息资源融合的层次

  3.4.1 基础层。基础层由网上采集到的东盟各国数据和对馆藏纸质资源进行数字化所形成的数字化的资源以及图书馆采购的各语种电子资源(数据库)组成,是数据融合的基础。

  3.4.2 数据层。数据层资源融合是指在采集到的原始数据层上直接进行融合,对各个信息源获得的未经处理的数据进行综合与分析,通常采用信息资源统一操作的融合方法。这个层次的信息融合实际上属于低层次、低维度的简单融合。

  在数据层整合东盟文献信息资源,意味着图书馆将直接整合分析东盟国家的各类数据,无需任何其他操作,可以最大限度地保证东盟国家相关数据的原始性,完整地掌握和分析相关数据。

  但是,这种融合需要面对大量、机械的数据处理,需要极强的对数据处理的能力要求。融合过程还要求数据具有相同的类型和格式。但图书馆所搜集到的东盟相关文献信息资源来源多样、复杂、异构,难以在数据层面整合东盟文献信息资源。

  3.4.3 特征层。与数据层融合不同的是,特征层的信息融合是一个中间步骤。特征层的融合第一步便是提取之前搜集好的有关数据信息的关键特征,根据这些特征对信息进行科学的组织和分类。通过提前进行特征提取,这一层次的融合对信息总量进行压缩,从而帮助用户在检索时根据自己的需要快速检索信息,同时,在浏览信息时,更利于用户理解与掌握。

  东盟文献信息资源在特征层信息融合所体现的就是从数据库内各个来源汇集的数据中筛选出它们各自的特征,并对这些特征的融合进行先关的包括分析和处理在内的一系列操作(见图3)。

  

  图3 特征层信息资源融合图

  特征层的信息融合可以筛除一些不需要的重复操作,精简信息处理步骤和计算量,对数据处理能力的要求不再那么高,更容易进行长时间的高效操作。

  图书馆通过对东盟国家相关数据的具体特征进行提取和分析,可以对来自各个数据源的数据进行一定的分析,融合结果可以直接为决策分析提供信息支持。为国家决策东盟国家有关事务提供科学依据。

  3.4.4 决策层。决策层的信息融合,是将每条文献信息源的数据从宏观和全局的角度进行整体协调。通过对不同来源数据提取的特征进行分析和融合,直接为决策提供支持。

  决策层的东盟文献信息资源融合,针对的是在对有关东盟国家具体问题进行决策时,对之前所提取的东盟不同类型文献信息资源进行特征分析。这可以直接结合决策定制展开,最大限度地分析多选决策方案的优劣,最大限度地协助决策者作出最科学的决策和合理的决定。另外,为了帮助用户以最快的速度作出决策,当用户获取决策层的信息时,还会有一些处理使后期的利用更加高效,这些处理涉及多语言机器的自动翻译、多源信息资源检索结果可视化显示等一系列功能。这些功能在一定程度上提高用户的检索效率,优化用户体验,辅助用户作出科学合理的决策。

4 “互联网+”环境下多源东盟文献信息资源揭示

为了使融合的多源东盟文献信息资源更好地服务于信息用户,对文献资源的揭示显得尤为重要,通过对文献资源在描述层、聚合层和应用层的处理与揭示,为多源东盟文献信息资源更好的服务呈现提供基础(见图4)。

  

  图4 多源东盟文献信息资源处理与揭示过程

4.1 资源揭示基础元数据化

要对多源东盟文献信息资源进行揭示,就必须采集东盟国家各种类型信息的元数据,对同一类型的同一来源和不同来源的资源,以用不同类型不同来源的资源进行元数据提取。将这些元数据进行标准格式转换,使文献资源揭示实现元数据化,标准化的元数据多源东盟文献信息资源揭示,能很好地描述所藏文献信息资源的特征,也可对少量多源东盟文献信息资源进行压缩、组织,为多源东盟文献信息资源的集中揭示提供基础。对数量庞大的文献资源进行压缩、组织,以利于之后的资源利用。

  元数据标准的制订决定了元数据化是否能高效有效地完成。目前,Dublin Core核心元数据是使用最多的国际性元数据解决方案,内容主要涵盖了资源标识符(Identifier)、标题(Title)、主题(Subject)、创作者(Creator)、资源类型(Type)、资源描述(Description)等15个核心元素。针对电子图书、网络资源、期刊论文、学位论文、电子连续性资源、图像资源、音频资源、视频和资源古籍文献等,中国国家图书馆也提出了对相应的元数据标准与著录规则。由于东盟文献信息资源来源的复杂性、文献信息语言的多样性以及著录人员缺乏东盟语言支撑,图书馆必须构建一个统一的元数据格式,以此作出一个详细且符合规范的描述来规范著录的格式,以便实现信息的共建共享。对不同的数字化多源东盟文献信息资源,无论是图书、报刊、特种文献还是网络资源,我们认为著录的元数据应以从Dublin Core核心元数据主要包含的15个核心元素选择部分元素为标准:资源标识符(Identifier)、标题(Title)、主题(Subject)、创作者(Creator)、资源类型(Type)、资源描述(Description)、日期(Date)、格式(Format)、语言(Language)、出版者(Publisher)。一方面,这些元数据基本上能揭示资源的主要特征;另一方面,也减轻信息组织者的语言负担。只有建立一致的元数据格式,才能进行之后的元数据记录。

  一旦确定图书馆的标准格式,就可以首先从数据库第一个单一元数据模型记录的各种信息资源类型搜集之前统一格式的元数据。通过元数据机制,将不同类型的书目载体转换成多源东盟文献信息资源,在下一周期部署工具,并统一处理资源。

4.2 资源组织方式机构仓储化

机构仓储化,是指建立一个统一的元数据存储体系,将经过搜集、标准制订、整合之后的元数据集中到一个仓储系统之中,实现机构仓储一体化管理(见图5)。

  对多源东盟文献信息资源而言,异型异源、同型异源及多语种等多种类型的文献资源经历了数据搜集、元数据标准制订等步骤之后,便可以进行元数据的整合与仓储化存储。在“互联网+”的环境下,如何更好地利用图书馆所搜集到的各类东盟文献信息资源,是图书馆东盟国家情报支撑的重要环节。

  

  图5 资源组织方式机构仓储化

  对于完成对多源东盟文献信息资源描述的元数据,图书馆必须在处理重复元数据后进行适当的研究、清理和规范。

  元数据存储系统,将多样化的元数据导入元数据存储设施中,为所有元数据提供统一的存储和集成,可以大大增加多源东盟文献信息资源的可用性和实用性。通过集成的检索平台,可以检索所有存储在元数据仓储系统中的数据,统一内存为统一使用恢复提供一个有效平台。

4.3 资源描述语义化

多源东盟文献信息资源的来源各异、形式多样,具有多元化、分布式、异构化的特点,在进行文献资源描述时,可对所有的元数据进行语义描述,通过语义关联数据增加资源的内部关联,促进图书馆多源东盟文献信息资源的深度聚合展示。

  多源东盟文献信息资源的开发利用,可借助知识单元的语义关联实现。语义化的资源描述,经过对多源东盟文献信息数据集中的数据进行资源描述、知识聚合等程序,最终应用于知识输出。

  规范的元数据格式是进行语义关联的重要基础,对海量的多源东盟文献信息资源的统一描述,需要在进行标准确定、特征提取、加工之后存储在元数据库之中。

  多源东盟文献信息资源描述,主要为揭示不同类型东盟文献信息资源的语义关联,实现知识层面的聚合。多源东盟文献信息资源的元数据关联聚合,主要通过元数据值匹配关联和相似性关联的方法实现文献资源的语义关联。对不同资源的同一元数据,可以通过元数据取值关联的方法,在相应的元数据项之中建立关联关系,如多源东盟文献信息资源的作者、主题等。针对不同的内容,可采用元数据语义相似性关联的方法,建立文献资源的语义互联关系,这种方法将元数据进行细化划分,再实现关联,是一种细粒度的知识组织方式。

4.4 情境智能设计,资源关联发现

通过元数据记录、仓储化管理和语义化描述以及最终的使用水平,可以改善东盟文献资源的利用。作为东盟相关决策的重要参考依据,图书馆必须提高信息资源利用效率,通过提供个性化和普遍的资源搜索服务来获得搜索结果的准确性。

  图书馆的不同访问用户,会有个性化的特点与要求,图书馆情景智能设计,就是通过对用户的需求分析、访问方式分析等类似判断操作,将最合理、最符合用户需求的资源提供给用户。

  而搜索结果的呈现方式,对多个图书馆来说,由于多源东盟文献信息资源可以相互关联,互为补充,可将结果整合为一个均匀的知识获取平台,当用户进行相关的操作时,采用改进的方法进行研究,以完善的过程分析,从多个东盟文献来源中提取相关信息,从图书馆中搜集、分析和链接,为用户提供更好的服务。

5 结 语

在多源东盟文献信息资源现状很难满足信息需求的情况下,将资源融合作为解决资源匮乏、资源利用率较低等困难的技术手段有着广阔的发展前景。本文在详细分析多源东盟文献信息资源的特点与建设现状的基础上,对科学有效的多源东盟文献信息资源融合技术路线进行一定的分析研究,通过多源东盟文献信息资源的信息整合与揭示利用,以有效满足用户的东盟信息需求为核心,希望可以解决一些现实工作中的问题,为多源东盟文献信息资源融合的发展提供一定的理论支撑。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论