(广西民族大学管理学院,广西 南宁 530006)
1 引 言
随着中国“一带一路”倡议的提出,沿线东盟国家间的合作持续扩大,各国间的优势互补,为彼此在“互联网+”的时代发展中创造了新的机遇,带来了切实的红利。东盟从古至今一直是中国天然且重要的合作伙伴,位于“海上丝绸之路”的关键地带,与中国有亲近的血缘、关联的商缘、互通的人文和融合的利益。近几年,国家陆续出台了一系列中国与东盟的合作机制与方案,如“打造中国—东盟自由贸易区升级版”“澜湄合作机制”等,在平等的文化认同框架下谈合作,吸引外资共建互利多元的跨境贸易,共创包容创新的人文科技新局面,极大地促进了中国与东盟十国多边关系的全面发展。随着国家“一带一路”倡议的继续推进,对东盟信息的需求也越来越高,只有更及时、全面、优质的东盟信息才能更好地服务于国家“一带一路”倡议的需要。2 东盟信息资源开发的必要性分析
2.1 服务中国东盟交流合作,全面对接国家战略
“一带一路”是综合性的国家级顶层合作倡议,持续时间长,随着国家层面经贸对话的深入和国际市场环境的变化,东盟各国间的交流必将会遇到诸多不可预见且不确定的因素,使各国对东盟经济、国防、外交、贸易、科技、产业发展等信息需求持续急剧增长,为东盟区域信息资源的深入研究提供了新的动力。开发利用信息资源,是我国信息化发展的战略重点之一。建设系统化、网络化、数字化的东盟信息资源保障体系是落实我国“科教兴国”和“可持续发展”两大国家战略的需要。同时,东盟信息资源是中国与东盟国家开展文化交流的物质基础,在维护民族文化多样性、保护世界文化遗产等方面也有重大意义。2.2 提升东盟信息资源效益,更好满足用户需求
在“一带一路”与中国—东盟自由贸易区建设的新时期,东盟贸易的发展、经济的繁荣、文化的交流,需要大量全面且优质的东盟信息作支撑,需要构建符合新时期要求的信息流,这些势必对我国图书馆东盟信息资源的开发与利用提出了更高的要求。随着信息资源不断增多,用户如何在海量的东盟资源中快速准确地获取优质信息,如何在相对分散的东盟信息获取渠道里集中进行有效查询,能否对用户查询的结果直接提供数据分析并呈现可视化结论,这些问题的解决应在大数据技术日益成熟的背景下,深度开发、利用网络信息资源,使网络信息资源服务于网络协同创新,从而促进知识创新和技术创新。作为国家重要的信息服务组成部分,图书馆要与时俱进,在与东盟各国的开放合作中,积极调整馆藏结构,科学地建设东盟信息的系统数据平台,提升图书馆东盟信息资源的利用率,为用户提供易获取的高价值信息资源及东盟相关的知识服务和战略决策咨询,服务好中国与东盟的经济文化建设。3 东盟信息资源开发现状与存在问题
目前,我国一些科研机构已经建立相关的研究中心,如广西社科院东南亚研究所、广西民族大学东盟学院、广西大学“一带一路”(中国—东盟)大数据研究院、暨南大学东南亚研究中心、厦门大学东南亚研究中心等。这些科研机构从政治、经济、文化等方面提供东盟数据资料和舆情追踪,为政府决策、企业投资提供决策参考。此外,许多毗邻东盟的公共图书馆,如广西壮族自治区图书馆、云南省图书馆,也充分发挥区位优势,开辟专门的东盟文献书库。高校图书馆通过共建共享,扩充自身的东盟信息资源,为本校师生的学习和研究提供强有力的支持。例如,广西民族大学图书馆的东盟文献信息中心,收藏了包括来自越南、老挝、柬埔寨等多个东盟国家的原版图书 20 000 余册,其诗琳通公主泰文资料中心、越南语文献信息中心等多个东盟文献信息中心构建了完整的东盟文献体系,在全国范围内具有较高的影响力。虽然东盟信息资源建设已初具规模,但建设的过程中也存在不少问题。3.1 资源更新速度缓慢,开发程度较低
现有东盟信息资源的开发程度相对不高,相关书目、摘要、全文、专题数据库等信息产品不足。已有的东盟信息资源持续更新需要资金投入,且编目信息录入由专业人员著录,需要一定的周期,这在很大程度上拖慢了东盟信息更新的速度。近几年,各类大数据平台提供了非常丰富的东盟信息资源,海量的网络信息以极快的速度进行更新,虽然这些网络资源多数是免费的,但信息种类繁杂、内容凌乱、连贯性较差,给图书馆的东盟资源建设带来了不小困难,影响了东盟资源建设的质量与效果。3.2 资源宣传推广不够,资源利用率不高
现有的东盟信息资源以纸质文献居多,电子文献少,且对资源宣传推广不够,很多资源处于“养在深闺人未识”的状态,未能体现资源应有的价值。数量庞大的网络信息资源虽然已有部分纳入东盟资源框架,但数据采集、筛选、有序化加工不足,网络信息资源检索结果重复、低质,特别是国外免费开放存取的网络资源,其检索、整合、开发和利用水平较低,资源建设忽略了资源挖掘和分析,知识关联无法揭示,资源粒度粗、质量不高,不利于用户对东盟信息资源检索和利用。3.3 资源种类采集不足,资源平台亟待建设
目前,东盟信息资源的种类有限,大多为书籍或连续出版物构成,时效性及信息种类难以满足需求。而网络信息资源是可变动、可增长、可持续发展的资源,对于海量剧增、实时变更的东盟网络信息资源,缺乏更智能的网络信息采集、数据挖掘系统与提供数据支撑和平台保障,将分散的网络数据资源进行重组、提取、重构、整合,科学地建设东盟信息资源,为读者用户提供便捷高效的“一站式”资源检索、发现和分析服务,从而有效提升东盟信息资源的利用价值,使东盟信息资源建设走上可持续发展道路。4 基于国家战略的东盟信息资源开发与利用平台设计
一方面,对东盟信息资源的开发长期以来多是依靠人工进行辨识、提取,资源利用率较低,更新缓慢,资源间缺少使用关联,用户难以实现便捷高效的查询,且国内与东盟国家有关的原版信息资源缺乏,在文本挖掘、材料利用上缺少有效手段;另一方面,在研究对东盟国家的舆情监控方面缺乏有效工具,无法对与我国相关以及各国动态进行聚焦和及时获取。在东盟前沿研究等方面一直没能取得突破,没有形成有效信息挖掘与情报分析的支撑能力,从而无法推动东盟信息研究工作的发展与进步。因此,在新时期“一带一路”倡议的需求下,建立东盟信息资源开发与利用平台是解决这些问题的关键。4.1 东盟信息资源开发与利用平台的整体构架
东盟信息资源开发与利用平台,是一个集东盟文献信息存储、资源采集、查询利用、舆情研究服务于一体的东盟信息与数据综合管理平台,它由4个子平台系统组成(见图1)。图1 东盟信息资源开发与利用平台的整体构架
整个平台以智能搜索引擎系统为基件,把用户的查询请求先分解成对应不同数据子系统的独立访问请求,再通过数据访问接口实时访问平台数据,最后将整合后得到的结果返回给用户。针对馆内资源数据或指定的网站,从平台发布统一的检索要求,将检索采集的要求转化为不同数据源的检索表达式,发到局域网和广域网上,通过去重和排序等操作对得到的检索结果进行整合之后,再即时返回呈现给用户,同时,将检索结果归入关键词组所属分类,为用户提供东盟信息一站式查询与发现服务。
4.2 东盟信息资源开发与利用平台的资源构成
第一部分的主要资源为原有的东盟数字化馆藏。印刷型的东盟文献引进时都通过了严格审查,将原有印刷型东盟文献信息进行内容采集,采用OCR识别,修改文本、合并图像、著录字段、标引分类等方式,把原有印刷型的东盟馆藏文献转化成数字文献,通过东盟文献管理平台,提供给用户检索使用,提升原有资源的利用率。第二部分的信息资源来自购买的东盟外文数据库。引进购买的在线东盟数据库的文献,虽然信息量比较大、更新速度也快,但费用相对较高。可将选择性购买的东盟数据库作为平台资源的补充。
第三部分为图书馆内自建的东盟特色文献数据库。选派图书馆内的专业工作人员对东盟文献进行整理、归纳、总结,提供二次、三次文献,将图书馆已有的东盟资源充分利用,发挥其更大的效益。
4.3 东盟网络信息资源与数据挖掘系统的功能设计
在如今的大数据时代,许多书刊、报纸都发布了电子版,会议材料、各种政策法规和规章制度都能在互联网上方便地查找获取,政府、企业、公司、科研院所的许多数据提供了免费的网络共享,门户网站上的东盟信息实时更新且质量高,但信息缺乏连贯性和系统性。开发东盟网络信息资源与数据挖掘系统,可以进行智能化网络信息采集,通过专业工作人员对采集到的东盟资源进行评价、过滤、著录、标引、入库、发布,最后添加到图书馆内自建的东盟数据库中,使整个东盟信息资源建设呈现可持续的及时更新与不断充实的状态。不知道过了多久,步凡晕晕乎乎睁开了眼,此时周围一片漆黑。他好不容易扶着墙撑起身体,费力地站了起来,然后用力晃了晃脑袋,想将那种眩晕的感觉甩出去。还好,又过了几秒钟,他终于清醒了,从衣兜里掏出手机,想拨打求助电话。然而,屋漏偏逢连夜雨,手机液晶屏幕的光芒只亮起了短短一瞬,就又彻底陷入了黑暗之中。该死的,手机没有电,自动关机了!
下面重点介绍东盟网络信息资源与数据挖掘系统的设计过程。
4.3.1 系统的框架结构图(见图2)。
图2 东盟网络信息资源与数据挖掘系统框架
4.3.2 前台系统的主要功能与模块设计。
(1)东盟网络资源库模块
此模块主要对具有国际影响力的东盟网站进行信息采集,如东盟国家权威报纸及主流论坛,以关键词为导向,定向搜集网络中热点或即时的新闻媒体、社会聚焦、生活资讯等信息。考虑到系统运行的可行与实用性,事先指定采集网站数量在一百以内。由于各网站有其相应的规则及保护措施,随着时间发展其对新技术的使用或者保护规则的变化,为保证采集的有效性,该模块需要随时进行技术上的更新。通过持续抓取特定网站中关于东盟的信息,不断更新建设东盟主题的专题库。
(2)东盟主题信息库模块
此模块以主题词为导向,把针对某一主题的相关类别信息集成到一起。通过设置不同的URL过滤策略,使其能够检索尽量少的网络空间,在相对较短的时间内采集到更多与主题相关的网页。侧重于追踪与分析东盟权威报纸全文库的国内主流媒体热门话题,对其国内互联网上公众的言论和观点进行判断和预测,资源库和主题信息库都设置有舆情聚焦的栏目。选取最新、最热的舆情专题在前台显示,每个舆情专题的显示页,会默认显示出该专题下被聚类的所有舆情,用户可选择时间段进行查询,采用Google翻译内嵌的方式将原文标题翻译成中文,并生成相应的舆情分析图。分析图有3种类型:该专题信息总量时间流量图、信息总量媒体分布图(见图3)和该专题言论属性分布图(见图4)。言论属性的舆情判断默认为中性。其正负面的判断是由人工提前所设定的正面词、负面词的情况来判定。
图3 信息总量媒体分布
图4 专题言论属性分布图
(3)语料库模块图
(4)检索模块
整合并共享已有的纸质文献、东盟数字资源及网络采集的东盟信息资源,实现数字化东盟信息资源的一站式检索。有一般检索和高级检索两种信息检索方式,对检索结果还可以进行条件排序和二次检索。检索结果从语种、国别、分类及时间等角度实现分面展示。对结果为采集的网络资源实现全文浏览,对已建纸质文献、东盟数字资源则实现全文定位跳转。
4.3.3 后台系统主要功能与模块设计。
(1)采集管理模块
设置了两种采集方式,一是定向关键词采集:先进行分类设置,再设定检索策略。在分类设置中设定关键词组作为采集导向,对定向网站按照关键词中标采集。二是全站扫描采集:由用户设定所针对的定向网站各栏目的分类,或将栏目指向到用户已设定好的专题分类中。对设置的网站列表文章全部收录,不跟关键词进行匹配。
具有采集分类管理功能,向指定采集的网站或者电子报纸媒体或者用户自定义命名的专题分类进行管理。对采集命中的文本数据,按照分类保存到数据库中,而包含过滤词的内容都不会被采集入库。
(2)内容管理模块
对采集回来的内容进行入库管理。以列表形式进行展现,可按照标题、正文、分类、时间进行组合检索。可将某个时间段的入库信息编目导出。非平台用户,可在前台留言索取需要的信息资源,管理员在此模块可看到索取信息的正文,并进行资源索取回复、提供、管理等操作。
(3)舆情聚焦管理模块
首先,对系统中所有采集的内容计算出热词,作为新闻热点分析和预测的依据。热词不同于关键词,可能是名词也可能是不规则用词,因此,在热词的发现过程中可能会出现常用词的误中,这就需要人工添加来屏蔽掉,从而在长期使用中不断提高预测的准确率。其次,按设定的时间范围进行热点话题的分析,主要分析东盟媒体及网民对本国及对中国的政治、经济、社会关注的话题。对采集的东盟权威报纸全文及论坛信息进行时间设定范围内的热点话题分析,并可按政治、经济、社会等分类分析,形成话题聚类及主题河,列出相关度高的新闻或帖子标题及全文链接,根据舆情信息情况转成可视化的分析图表。
4.4 东盟基础数据库
存储与科研院所等单位合作共建的全方位的东盟基础数据,如政治与外交局势,两国、多国冲突,合作情况数据;全球经济的GDP数据,贸易,投资等;各国军事支出,武器装备等;东盟中文量化数据;东盟各国的文化异常,诺贝尔奖获得情况,教育情况,失学率等。组织人员,对标准原文进行翻译,形成能为读者直接利用的二次文献,为中国—东盟双边贸易往来及科技发展提供智力参考。4.5 平台系统管理与数据维护子系统
有管理员设置、用户注册及完整全文浏览授权等管理功能。为东盟信息资源开发与利用平台中的子平台提供统一的底层结构连接与各项功能的维护与升级。4.6 系统功能实现的关键技术
4.6.1 数据远程传送与调用。JavaServer Pages(JSP)是一种动态网页开发技术,主要用于实现Java web应用程序的用户界面部分,是建立跨平台动态网站的首选方案。XML是可扩展标记语言,用在服务器与系统之间传递数据并进行数据描述。结合XML元素以及嵌入JSP操作和命令来编写JSP,可较好地实现异构数据源的共享。WebService是跨编程语言、跨操作系统平台的远程调用技术,使用XML来封装数据,依据Web Service规范实施的各种应用,可以在不借助附加的、专门的第三方软件或硬件的情况下,在不同机器上相互交换数据或集成。4.6.2 大数据采集。目前,大数据的数据采集主要有3个渠道,分别是物联网系统、互联网应用(Web和App)和传统信息处理系统。针对互联网应用的数据采集,通常使用网络爬虫来实现,爬虫可用Python或者Java语言来编写。本文的系统平台主要采用主题爬虫进行数据资源的采集,通过一定的策略筛选、过滤与采集任务主题无关的网页信息,仅留下切合主题的数据,从而大幅度减少过多无关数据导致的数据稀疏问题,提高爬获数据的质量。对采集到的东盟相关数据进行清洗、预处理等二次加工,实现东盟网络数据利用价值的更大提高。
4.6.3 舆情分析。“互联网+”时代,各国网民在网络平台上发表观点、表达情绪、交流思想、参与评价,网络民意的汇聚形成了网络舆论。政府和企事业愈发关注网络的舆情动态,通过舆情分析,可以真实感知社情民意,了解民众对社会事项的态度及情绪,得出供决策时参考的合理预测与建议,进而改进工作成效,提高服务效能。语义网络分析是通过筛选统计得到高频词,将高频词两两之间的共现关系作为基础,数值化处理词与词之间的远近关系,再以图形化的方式揭示其结构关系。本文的系统平台,通过分词加工、词频分析,提取浓缩民众关注点、情绪和认知的舆情关键词,再通过聚类分析,将关键词共现矩阵转化为语义关系网,展现各节点间的亲疏、远近及层级关系,揭示舆情问题间的潜在关联。最后对词汇进行情感分析,词汇的情感极性一般分为正性、负性和中性,着重分析含有情感成分的词汇,判断其极性及情感强烈度。计算每个语句情感词汇的总值,给出情感类别的判定。舆情研究倾向于将舆情主题的演变与网民情绪的变化联系起来综合分析。
4.6.4 数据可视化。大数据时代,人们工作与生活的每个角落都充斥着海量且种类繁杂的数据信息,时间呈现出碎片化,相对于文字或数据,人们更喜欢看图片或图表。利用图形化手段,将枯燥的数据可视化,能将信息更清晰生动的表达,实现更有效的沟通。本平台使用数据可视化工具,通过标准化或结构化的处理方式,挖掘原始数据的规律制作成数据表,建立适合的模型,可视化表述出这些数值,再选取合适的图形展示、修饰后传递给用户,使数据变得直观,方便用户进一步发现数据背后潜藏的问题和规律,实现“面向数据”转化到“面向问题”的情报分析。
5 结 语
在全球信息化及“一带一路”背景下,信息资源建设已被东盟各国纳入国家信息化发展战略予以高度重视。为推动中国与东盟国家双边经贸、科技合作与文化交流在深度和广度上更进一步的发展,本文以东盟信息资源开发与利用平台,特别是东盟网络信息资源与数据挖掘系统为重点研究对象,对其设计、构建、研发及相关技术等问题进行分析,期望对图书馆的东盟信息资源开发与利用实践提供有益参考。在大数据时代,结合各种网络技术手段,构建研发网络信息采集、数据挖掘及分析的系统平台,开展网络资源信息采集、数据挖掘、舆情分析,探索新的服务模式,为读者提供东盟知识服务和战略决策咨询,使东盟信息资源开发紧跟时代与社会发展步伐,促使资源自身的开发与利用得到持续的良性循环发展。
赞(0)
最新评论