(深圳信息职业技术学院图书馆,广东 深圳 518172)
2019年2月18日,中共中央、国务院印发了《粤港澳大湾区发展规划纲要》[1]。国家大力推动湾区文化以及湾区行业、产业信息融合不断深入的大背景下,各图书馆通过建设湾区信息资源库及创新服务方式,为读者提供更加丰富和全面的湾区信息资源服务。经过多年积累,粤港澳大湾区各级图书馆在湾区特色馆藏及电子资源数据、用户特征数据、资源及网站访问日志、用户检索及下载记录等方面都积累了丰富的资源数据量和特色资源评判基础数据。
这些数据是图书馆重要的信息资源,具有很大的发掘利用价值,通过对湾区资讯数据和行为习惯日志的整合分析可以发现隐藏在数据背后的规律、趋势和价值,进而为粤港澳大湾区图书馆资源共建共享和服务模式创新和对湾区未来发展趋势提供分析与预测,为实现更加智能化的信息服务提供数据支持。建设粤港澳图书馆数据平台的目的就是通过各级图书馆的业务及服务数据共建共享,汇聚粤港澳行业、产业及教育的相关数据,实现粤港澳特色信息资源的多元化采集、主题化汇聚和知识化分析、可视化展示。随着京津冀、粤港澳、长三角和东北等国家九大战略发展区域化进程日益深入,对具有区域发展时代特征的图书馆建设提出了新要求。本文将以粤港澳大湾区为例,进行区域数据平台协同构建的探讨。
1 粤港澳大湾区资源数据现状
粤港澳大湾区被认为是我国开放程度最高、经济活力最强的区域之一,在国家发展大局中具有重要战略地位[1]。粤港澳三地具有相同的地理环境和历史背景,而不同的政治、经济、科学、文化和教育制度使粤港澳三地的图书馆在文献资源收录、特色资源库构建上又各有特点。但是,湾区资源库由于业务系统各异的关系,存在以下问题(见图1)。图1 粤港澳大湾区资源数据现状
第一,信息孤岛问题。数据无法整合以提供标准化、准确的服务。在进行数据分析、报表填报时,都会重复地投入较多人力去搜集各系统数据,结果也不一定准确。
第二,数据格式问题。粤港澳行业、产业教育资源库共建共享的过程中,因为数据采集标准及格式不一致,数据的采集、筛选都可能达不到平台要求的标准,因不具备时效性而降低资讯内容对区域协同科技创新的指导性,不利于开展数据挖掘和进行湾区产业需求、湾区行业热点、创新创业指导等隐性知识挖掘。
第三,数据存储问题。云时代大数据的到来给我们带来了极大方便,可是随之而来的信息和网络安全的脆弱性问题也日益突显。由于粤港澳行业、产业及教育特色资源的保存较为分散,一旦出现数据存储的安全问题,因数据的唯一和独立性所造成的损失将无法挽回。根据美国FBI统计,每年因为信息和网络安全问题所造成的损失高达75亿美元,并且该数字还在上升[2—3]。而数据作为信息的表达形式,它的完整性与安全性问题决定了系统是否安全。数据备份技术的应用越来越广泛,但是数据备份设备、专业人员或委托数据备份公司提供的服务,都需要投入相当多的经费支持,因此,建立粤港澳行业、产业及教育文化资源共建共享平台,将数据进行汇总,有利于数据的统一保存管理和后续的知识挖掘及溯源。
2 粤港澳数据平台构建需求与目标
2.1 需求分析
在粤港澳大湾区社会发展背景下,图书馆馆藏资源内容将从传统通用馆藏,扩展到着眼于三地行业、产业和教育的资源库,广泛覆盖三地行业技能知识,行业标准规范、岭南文化资源等。建设粤港澳大湾区图书馆资源数据平台,制订统一的业务标准来汇聚、清洗、整合各业务系统数据,消除一直存在的数据孤岛问题。通过对大数据平台的挖掘分析,定义数据标准,有效地进行数据类目管理,让数据更直观、更精准地指导业务。同时,粤港澳大湾区资源数据平台可搜集分析湾区图书馆馆藏数据,形成各馆各地区的资源分析报告,为粤港澳大湾区构建网络化资源空间格局,推动湾区开放型区域协同创新共同体提供资源平台支持。建设粤港澳大湾区图书馆资源数据平台,以便筛选湾区数据形成数据分析报表,直观反映湾区已有行业、产业和教育文化现状,以便充分发挥粤港澳科技和产业优势,积极吸引和对接全球创新资源,建设开放互通、布局合理的区域创新体系[3]。2.2 建设目标
通过对粤港澳大湾区图书文献、研究成果、行业数据、标准规范等数据的搜集、整理及分析,确定数据平台的数据整合范围及规范,制订元数据标准,协同开发建设粤港澳大湾区图书馆大数据平台,实现信息资源的多元化采集及清洗、主题化汇聚、知识化分析、可视化展示,为图书馆依据《粤港澳大湾区发展规划纲要》实现服务战略决策提供数据支持。3 粤港澳数据平台架构及建设
3.1 平台架构
粤港澳大湾区图书馆资源数据平台,需依托湾区图书馆自动化系统、网站及资源系统、其他业务系统相关数据,通过数据导入、数据同步及采集等手段和工具,将所有数据进行清洗、转换和映射,统一存储在协同数据平台进行统一管理和维护,建设数据分析、个性化服务等系统,配以定制开发的算法,以数据统计分析及图形化展示的形式,为粤港澳提供多维网络化空间格局,汇聚湾区行业、产业、科技、教育及文化资讯资源,为构建粤港澳大湾区开放型区域协同创新共同体提供资源保障,促进信息、技术等创新要素跨境流动和区域融通,协同共建粤港澳大湾区大数据中心和国际化创新平台[4—5]。系统总体架构如图2所示。图2 粤港澳大湾区资源数据平台系统架构
3.2 数据集成
粤港澳大湾区图书馆资源数据平台需提供湾区图书馆业务系统数据到大数据平台的同步服务,增量定时同步、数据整合、数据清洗、数据统计等多种集成同步服务。(1)数据库类型支持问题。目前的主流关系型数据库类型有Oracle、MySQL、SQL Server、PostgreSQL、Sybase等,基于分布式文件存储的MongoDB数据库,支持大数据平台Hadoop的HDFS、HIVE以及阿里云数据平台等[5]。此外,协同数据平台还应支持Excel等结构化文件的同步。
(2)资源增量同步问题。粤港澳大湾区多源数据资源日新月异,协同数据平台应实现增量数据的自动实时同步。同步的数据包含数据正文、类别、日志及时间等信息,对资源库实时变化的数据同步上传至粤港澳大湾区协同共建大数据平台。
(3)数据传送安全问题。为保证信息安全可靠地同步传送,对传送数据原始明文,通过加密算法进行加密,且不依赖于操作系统和安全环境,尽量采用磁盘加密和驱动级加密技术,以免应用层加密带来的兼容性和二次开发问题。
(4)支持断点续传。避免因网络不稳定等原因引起的数据同步失败,在数据同步不成功的情况下,可以自动进行断点恢复续传,以避免数据的丢失和重复,保证稳定可靠的数据SSL加密传输。
3.3 数据标准统一
粤港澳大湾区图书馆的馆藏文献资源,既有传统馆藏,也有特色行业、产业资源库。粤港澳大湾区行业、产业及科技创新优势所积累的特色资源、行业标准、国际经验、资格体系等多维特色资源,经过多年标准各异的信息系统建设后,存在于各种不同业务系统中。这些业务系统由不同的软件开发商或者系统集成商提供,当需要将这些系统的数据进行集中治理的时候,就面临着业务部门间信息定义不一致的问题,从而影响对数据共享、理解、价值提取的过程。这就需要构建粤港澳大湾区资源数据平台时,首先建立统一的数据标准体系,利用国家、行业、企业等相关标准,对各类数据进行统一的标准化改造,在平台中形成统一的数据理解视图,并在统一标准化数据集成的基础上,实现数据质量的保证、提升和隐性知识挖掘,形成湾区特定行业领域内的资源整合和专题研究。数据统一标准管理需要从标准数据元库及同义词等关联信息库中,清晰描述数据标准分类、要素分类、业务分类,自动建立数据标准各类属性之间的约束、传递、映射、聚合关系。粤港澳大湾区参与协同构建资源数据平台的图书馆,其采集的数据包括国际、国家、地方以及企业在内的标准数据元,进行统一存储和管理,形成公共标准知识库,并对其进行日常维护和管理。同时,平台实现动态同步更新,提供查询和追溯功能,为参与协同构建数据平台的图书馆制订或扩展已有数据标准提供参考依据,以保障统一标准的实施[6]。
为协同湾区图书馆进行资源数据平台构建,需要制订基准数据规则,以便于进一步开展湾区行业、产业、科技、教育和文化资源数据标准化的调研、制订和集成开发。此外,数据索引库需支持对数据元分类新增、修改和删除等基本录入操作,自动生成维护日记信息。支持标准化模板,使资源平台协同构建方可以根据自己的业务需要定义模板内容,定制数据元的相关属性。
3.4 资源平台协同构建
3.4.1 内容构建。粤港澳行业、产业、教育及文化资源数据平台的协同构建,是大湾区发展的重要文献资源保障,其内容构建可以从三个方面进行。(1)统计经济指标,绘制粤港澳行业、产业分布图。即通过粤港澳大湾区图书馆馆藏经济类电子资源数据库,如国务院发展研究中心信息网、中国经济信息网、中国宏观经济信息网等大型经济类数据系统[7],统计粤港澳大湾区“9+2”11个城市的区域经济和优势产业集群分布情况。
(2)根据粤港澳行业、产业分布,清点湾区馆藏资源收录情况。对纸质图书、电子资源数据库、音视频多媒体资源等馆藏载体进行清点统计策略设计和资源文献协同汇总,得到粤港澳行业、产业及教育资源支持的资源数量、质量及结构分布情况。
(3)整合引进粤港澳行业、产业教育核心资源。首先,将已有粤港澳馆藏资源进行可索引、有清晰入口的行业、产业、教育及文化资源平台分类;其次,对湾区产业、制造业、服务业、科技教育、文化资源进行需求挖掘,结合粤港澳大湾区图书馆年度纸质图书、电子资源专项建设工作落地,完成资源内容的协同构建。
3.4.2 框架及技术构建。粤港澳大湾区图书馆资源数据平台框架和技术实现包括数据平台开发建设、数据汇聚清洗分类,数据索引存储计算、数据分析统计和非结构化文档存储服务。数据协同平台还需实现数据的压缩、备份,以保证数据安全可靠。
(1)数据平台开发建设。从框架结构层面来看,数据平台需要提供海量数据的汇聚、清洗、建模、工作流开发以及定时调度的服务。从技术构建层面来看,数据平台需要提供建表、SQL/MR编写、算法开发、数据挖掘等数据开发服务,助力湾区图书馆粤港澳数据平台建设。此外,数据开发平台可以提供工作流的开发与调度。一个完整的工作流需要完成数据导入、数据清洗转化、数据库语言编程、算法开发、结果数据导出等一系列步骤;对于需要定时执行的工作流,可通过配置调度时间周期,让工作流自动按时执行。工作流的按时调度是保证报表数据准确准时提供的前提条件。
(2)数据索引存储与计算。基于数据平台提供的海量资源数据存储与计算,需要对业务数据进行开发整理,根据粤港澳大湾区高科技创新领域、战略性新兴产业、先进制造业、现代服务业、湾区海洋经济等相关的湾区数据索引、建模、建仓,通过内置或者自定义算法进行相关数据知识挖掘[8]。
(3)协同数据的分析计算。通过将粤港澳大湾区行业、产业索引存储后的资源数据进行计算、整理、挖掘后,形成动态监测报告、发展预测报告、专题资讯报告等。这些协同数据的二次分析计算结果,能够同步至数据实时分析区,直接提供上层应用的查询服务或者内部直接查询服务。首先,协同数据的实时分析计算服务需要具有高性能、高可靠性、应用高兼容性、分布式线性可扩等性能。大数据平台提供海量数据的实时分析能力,百万级数据的秒级甚至毫秒级返回,能够满足湾区图书馆业务系统对数据查询性能的要求。其次,协同数据平台应该具有多级计算节点,以保证数据存储和应用服务的可靠性。任何一个磁盘的损坏,都不会造成数据丢失或者业务中断。且数据库接口应具备高兼容性,支持应用系统的迁移[9]。最后,随着粤港澳大湾区图书馆业务数据量的扩增,基于分布式的架构能够支持计算节点的横向扩展,支持性能的线性上升,足以支持粤港澳资源数据的可持续性积累和分析。
(4)非结构化资源存储。随着上层应用移动化和智能化趋势的发展,数据生成的类型正在发生变化。文档、视频、图像、音频等非结构化数据在各行各业累积数据中占比逐渐增加。据统计,目前超过80%的新增数据是非结构化数据,未来预测这个比例将达到90%以上。作为粤港澳大湾区主要资源数据之一的灰色文献,其非结构化数据达95%以上。其涵盖了行业、产业、科技文化相关的会议文献、科技报告、技术档案,以及不对外发行的企业文件、产品资料、贸易文件(包括产品说明书、相关机构印发的动态信息资料)和工作文件。而未刊登稿件以及内部刊物、交换资料等因其流通渠道特殊,数据存储单一,容易绝版,且涉及的信息广泛,内容新颖,见解独到,具有特殊的资源价值[10]。因此,粤港澳大湾区资源数据平台在设计上,应提供非结构化文档的存储与管理,如图书馆PDF、CAJ电子文档、图片以及一些办公文档的上传、共享、下载、删除等,并可通过开放接口访问的方式,对上层应用提供在线阅读等服务。
3.5 数据分析功能
在数据采集、清洗、汇总后,粤港澳资源协同构建平台应进行数据分析,实现最重要的知识加工挖掘功能,如提供湾区行业、产业教育相关的咨询分析、评估、动态监测、发展预测、专题数据等。为粤港澳大湾区完成数据协同的图书馆提供行业定制化的数据分析报告,辅助图书馆业务分析人员实现对常规业务数据的分析。例如,围绕粤港澳大湾区发展趋势和热点,对接全球创新资源,生成粤港澳创新创业专题研究报告、湾区科研基础设施资源报告、湾区产学研深度融合报告、湾区科技成果转化流程及案例汇总、湾区制造业结构报告、湾区专业人才培养方案等。还可通过自行设定时间轴,提供月度、季度、年度的报告分析服务和特定业务场景的数据分析服务,以及定制化的其他业务数据报表等数据分析服务。从多角度进行维度和思路分析,辅助图书馆业务分析人员挖掘数据背后的价值,用于提升图书馆湾区情报供给和数据分析能力。3.6 数据交互可视化
粤港澳大湾区资源数据平台,应实现数据交互可视化功能。可以按照图书馆业务分析的要求,对数据分析报表设置范围、提取条件,从而快速准确地捕捉湾区资源信息,生成分析报表,并以可视化形式直观展现重要数据,为湾区行业、产业、科技文化发展方向提供依据和支持。数据交互的可视化工具主要面向具备一定技术能力的业务人员,一线图书馆业务分析人员,通过分析软件完成数据的分析、查询、筛选。通过资源数据标签化的方式,改变传统的以查询、检索为主的分析模式,业务人员无须接触底层的物理表字段,就可以通过拖拉拽等可视化方式快速完成数据提取,从而方便发布自定义数据分析应用。粤港澳大湾区图书馆资源数据协同构建平台需要提供的数据可视化交互主要功能如下:(1)将数据转化为标签。根据粤港澳大湾区行业、产业的不同维度,资源数据平台提供标签自定义功能,通过标签体系进行湾区大数据归类提取。业务人员可以按需扩展、定制标签,支持在简单的数据标签基础上建立复杂标签模板,支持湾区行业、产业相关数据的求和、取平均值、同比、环比等数学函数计算,并提供折线图、柱状图和条形图等可视化数据展示。
(2)提供行业业务模板。资源数据平台的协同构建,应该规划设置湾区各个行业模板,便于业务人员快速根据模板生成相关粤港澳大湾区研究应用。在基本模板的基础上,能够自定义模板,产生数据应用的同时自动生成业务模板,通过模板共享,促进数据分析和应用,提高数据平台的知识产出效率和精准度。
(3)支持报表的发布和共享。粤港澳大湾区资源数据平台,需要支持发布独立的应用。并通过可视化界面,用拖拽的方式产生面向对象的应用,适用于粤港澳行业、产业、科技文化等各个业务场景。此外,平台支持报表发布,支持邀请成员组成工作群组,共同分析、共享研究成果。
3.7 标签画像体系
标签是通过对用户信息分析而得到的高度精练的特征标识,是画像最直观的解释[11]。通过“打标签”的方式为所有粤港澳资源数据平台用户生成画像,通过不断丰富标签来直观鲜活地描述用户相关活动特征。此外,对粤港澳资源数据使用的频度可以反映湾区行业、产业及科技相关发展热点,对生成湾区资源相关对象的标签画像也非常关键。将用户画像和资源画像、活动画像相结合,可以更好地圈出湾区发展趋势热点,推送给符合关注的人群,继而深化湾区研究的深度,契合湾区发展的方向。根据粤港澳协同业务的要求(如产业分析、创新创业、文化活动推荐、自定义内容推广等)来决定用户标签画像,即不同内容所需要的用户标签画像是不一样的,而这样的标签画像需要大数据管理平台提供相应的功能进行快速配置并产生,以驱动和提高内容匹配,提高粤港澳大湾区图书馆资源数据平台的协同构建作用。
通过标签画像体系,在数据清洗、转换,ID匹配等基础上,积累数据平台中的内容画像、用户画像和活动画像。在前期数据和算法模型框架下,根据任务处理的需求,形成实时快速或精准离线的计算任务,通过平台计算引擎进行处理后,产生不同层次要求的标签画像,将处理好的标签画像数据存储到与平台数据库对应的内容、业务和活动的标签画像数据中。因为产生的标签具有不同的层次,所以能满足湾区不同的行业、产业及科技文化资源需求。
3.8 智能推荐功能
粤港澳大湾区图书馆资源数据协同构建平台可依托智慧图书馆建设,设计提供个性化智能推荐功能,根据用户的兴趣关注点推荐符合需求的湾区资讯。智能化推送可以让用户更容易找到所需的湾区资源数据,减少用户在海量数据中检索查询的时间和精力,并且在用户感兴趣的领域进行资讯提醒,有助于提高数据平台的使用效益。此外,智能推荐功能,让有意向研究湾区的特定行业、产业、科技文化用户,集结成兴趣共同的群组,有利于创造基于特定主题的良好交流合集空间,使粤港澳大湾区资源数据平台为更多专业领域人群所用。4 结 语
粤港澳大湾区的建设发展,在国家发展大局中具有重要战略地位。协同构建粤港澳大湾区资源数据平台,是推进“广州—深圳—香港—澳门”科技创新走廊建设,探索湾区行业、产业、科技文化等资源要素跨境流动和区域融通的方法。本文从粤港澳大湾区资源数据现状的三个问题出发,分析了湾区图书馆协同构建平台的需求,制定了智能精准信息平台建设的目标。从数据集成标准、存储计算、分析交互和智能标签聚集等八个方面,给出搭建湾区数据平台架构的实施方案和可行性建议,以期为粤港澳大湾区资源数据平台协同建设,特别是图书馆牵头组织下的区域开放资源建设提供参考和借鉴,协同共建区域大数据中心和创新平台。
赞(0)
最新评论