(广西壮族自治区图书馆,广西 南宁 530022)
1 引 言
为深入贯彻落实中共中央办公厅、国务院办公厅《关于加快构建现代公共文化服务体系的意见》精神,“十三五”期间,文化共享工程拟依托国家公共文化数字支撑平台,在地级市(区)、县(区)构建区域性公共文化综合服务管理平台(以下简称“服务管理平台”),实现对基层公共文化服务网络设施及惠民项目的综合智能管理,实现基本公共数字文化资源的全域共建共享。服务管理平台将信息技术、数字技术、网络技术等现代科学技术和传播手段应用于公共文化服务体系建设,充分利用与集成文化共享工程等重点文化惠民项目基础设施与应用平台资源,构建标准统一、互联互通的公共数字文化服务网络,在基层实现共建共享,实现“一站式”服务,为公共文化服务体系提供强有力的数字化支撑,进一步提升公共数字文化资源的服务效能。
本文从技术层面对服务管理平台的构建进行研究,包括服务管理平台的体系框架和实现互联互通、“一站式”服务的关键技术路径。
2 服务管理平台的体系架构
实现公共数字文化资源的全域共建共享,是服务管理平台的基本要求。当前各省都普遍存在公共文化信息基础设施、数字文化资源建设发展失衡的问题。纵向来看,省、市、县级基础设施和数字文化资源建设发展水平失衡,县级的基础设施不足且老化严重,数字文化资源匮乏;横向来看,同级公共文化机构的发展失衡,图书馆、文化馆、博物馆等公共文化机构在基础设施和数字文化资源建设发展水平同样存在较大差异。服务管理平台,拟从硬件和数字资源的层面解决基础设施、数字文化资源建设发展失衡的问题。为此,服务管理平台将构建一个三层的体系架构,整合各公共文化机构的数字文化资源,为各公共文化机构提供标准统一、互联互通的“一站式”的公共数字文化服务。如图1所示。图1 服务管理平台体系架构图
从整体上来看,服务管理平台主要分为三个层次,体系框架可概括为“1+6+5”模式,主要包含1个平台:区域性公共数字文化云支撑平台;6个系统:统一用户系统、统一检索系统、智能推送系统、元数据收割系统、垂直搜索引擎系统、统计分析系统;5个服务平台:文献信息服务平台、知识创新学习平台、休闲娱乐服务平台、信息技术服务支持平台、数字资源智能订制与推送平台等。体系框架的三个层次如下:
2.1 最底层:区域性公共数字文化云支撑平台
云计算是一种以数据为中心的密集型超级计算模型,通过虚拟化技术把各层次功能封装为抽象实体,将IT相关的能力以服务的方式提供给用户,允许用户在不了解提供服务的技术、没有相关知识以及设备操作能力的情况下,通过Internet获取所需服务。云管理平台通过虚拟化技术实现软件应用与底层硬件的隔离,提高设备的使用效率,简化软件的重新配置过程。各公共文化服务机构通过云管理平台,自主申请计算资源(CPU、存储、网络等),安装系统和部署应用,消除各公共文化服务机构之间的基础设施差别,实现硬件资源的共建共享。
云计算系统需要并行为大量用户提供服务,必须具有高吞吐率和高传输率的特点,应引入海量数据分布式存储技术和海量数据管理技术,以保证系统的高可用性、高可靠性和经济性,为服务管理平台提供硬件支撑。
2.2 中间层:数据层
中间层通过元数据收割、垂直搜索引擎等技术,对区域内各类型文化机构的结构化数据和非结构化数据进行整合,实现数据资源的共建共享。服务管理平台,采用OAI-PMH元数据收割技术和Handle标码技术,实现对各类型公共文化服务机构的结构化数字资源自动收割、关联整合、智能定位和分布式云备份,采用垂直搜索引擎技术对各类型公共文化服务机构非结构化数字资源进行智能采集。同时,服务管理平台与全国公共数字文化支撑平台与中间层对接,使服务管理平台能够利用其丰富的资源。
中间层通过对各类型数据的收割、采集、整理,为服务管理平台提供数据支撑。
2.3 最顶层:应用层
服务管理平台的应用层包括五大平台(文献信息服务平台、知识创新学习平台、休闲娱乐服务平台、信息技术服务支持平台、数字资源智能订制与推送平台)。应用层通过中间层的数据支撑,分别实现五个平台的数字资源服务和管理,提供“一站式”的公共数字文化服务。3 区域性公共数字文化云支撑平台关键技术选型
虚拟化技术作为云计算的核心技术,在服务管理平台的数据中心构造过程中扮演着非常重要的角色。传统的应用模式中,IT资源互相之间不连通,无法根据业务的变化实现动态调整,利用率较低。云计算把IT资源都变成一个个池子,再基于这些基础架构的资源池上去建设应用,以服务的方式去交付资源。基于“池化”的理念,区域性公共数字文化支撑平台应搭建计算池、存储池、网络池和安全池,减少设备釆购数量,降低故障点,提高业务系统的可用性,提升整体数据中心的资源利用率。云计算模式安全风险集中,因此可将整个数据中心的网络设计分为两部分:后端是采用云计算相关技术、支持多架构融合的业务资源网,网络、计算、存储资源构建成虚拟的资源池;前端则是采用传统的模块化数据中心的结构。这样将前端服务和后端支撑相对分离,保障其安全性。
3.1 计算池
实现虚拟化关键在于,虚拟化层必须能够截获计算元件对物理资源的直接访问,并将其重新定向到虚拟资源池中。虚拟化层可通过纯软件的方法或利用物理资源提供的机制来实现这种“截获并重定向”,因此虚拟化系统可分为软件虚拟化和硬件虚拟化两种。Intel在服务器处理器领域市场占有率超过90%,其服务器处理器产品线广泛支持Virtualization Technology(VT)虚拟化技术,可采用通用的x86平台,在系统管理程序层支持下支持虚拟化,实现较高性能。
当前市场上常见的服务器虚拟化程序包括VMware vSphere、Microsoft Hyper-V、Xen、KVM等。VMwared在虚拟化市场占有较大份额,但VMware的闭源且按照CPU数量授权的特性,使得在大规模部署上存在一定隐患;而Hyper-V成熟度有待提高,虚拟Linux系统存在大量兼容性问题,使用场景受限;Xen是半虚拟化技术,非常依赖于Domain 0虚拟机,比较难以配置和使用,部署会占用相对较大的空间。
相比之下,KVM是基于Linux完全原生虚拟化扩展的x86硬件全虚拟化解决方案,通过可加载的内核模块支持广泛的虚拟机操作系统,比如Linux、BSD、Solaris、Windows等。在KVM架构中,虚拟机实现为常规的Linux进程,由标准Linux调度程序进行调度,每个虚拟CPU显示为一个常规的Linux进程,这使KVM能够使用Linux内核的所有功能。综合来看,KVM应该是最佳选择。
3.2 存储池
在存储系统中,同时支持SAN与NAS的统一存储业已成为主流。统一存储具有具备规划整体存储容量的能力,避免分别对数据块及文件存储支持相关的容量利用率方面的问题,存储资源池配置灵活以及积极支持服务器虚拟化等特点。由于机械硬盘已经逐渐成为数据中心的瓶颈,为改善核心数据库与应用系统的响应速度,应引入固态硬盘(SSD)技术,将应用程序中部分I/O压力较大的数据放置在SSD磁盘上;同时可以将部分SSD空间虚拟成存储系统缓存,大幅度提升整个存储系统的缓存命中率,尤其是在虚拟化架构下,效果更加明显;采用自动分层技术,存储系统后台自动调整数据存放位置,优化存储访问方式,提升应用访问效率。此外,还应采用同步镜像、异步备份等方式对数据进行保护,若有条件可以考虑实现数据异地备份。
3.3 网络池
数据中心是云计算的核心支撑平台,随着云应用的广泛部署,数据中心的通信模式和业务需求出现了根本性变化。这些变化具体包括:1)数据中心的网络规模和负载出现了指数级增长;2)主要的流量模式由传统“南北流量”转变为“东西流量”;3)更多时延敏感和数据密集型业务在数据中心内运行;4)一些虚拟化技术,如虚拟机实时迁移,需要网络提供更好的支持。这些变化对数据中心的交换机提出了更高的性能要求。结合数据中心网络未来的发展趋势,在接入层采用10GE交换架构,在核心层采用40GE/100GE交换架构成为一种必然选择。
在核心层交换机选择上,应采用数据中心级交换机产品。传统的园区网交换机一般采用“Crossbar+共享缓存”的交换架构,这种架构限制了设备的可靠性和性能。而数据中心级交换机产品将控制平面与转发平面物理分离,采用独立的引擎板和交换网板,同时采用CLOS多级交换架构,多块交换网板同时分担业务流量,可实现数倍于单级交换的能力,引擎切换时不影响转发,可实现零丢包,从而满足云计算数据中心高可靠性、高扩展性、低时延等需求。
另外,交换机参数还要考虑MAC表项。在云计算数据中心内部,虚拟化以及东西向流量导致更多的MAC表项,4K个Vlan远不能满足大规模云计算数据中心的需求,为此数据中心交换机必须支持Vxlan。Vxlan采用24bit的网络标识,用户可以创建16M相互隔离的虚拟网络,这使得大规模多租户的云环境中具有了充足的虚拟网络分区资源。
3.4 安全池
云计算模式下,以分布式计算和虚拟化为代表的技术得到广泛应用,导致传统的安全边界已经消失,数据在数据中心内部之间的交互增加,需要满足海量数据交互下的安全检测需求。同时,云计算模式下,用户可以按需用云端资源,合法用户可能会利用云端资源进行非法的操作,使得整个云计算环境的内部安全面临着重大挑战。为应对这些安全挑战,对于业务资源网,应构建大二层的网络环境,以满足虚拟化和资源的动态迁移需求,同时将安全策略部署在网络端口,确保安全策略得到落实;云管理平台上也应开启或部署安全虚拟设备套件,如可集成于VMware vCenter Server的VMware vShield、OpenStack中的Security Group等。对于前端管理网,可根据传统的信息安全等级保护的安全要求,在不同的区域边界部署安全策略,同时,针对于数据中心出口安全风险集中的问题,采取针对性的安全防御措施。
3.5 云管理平台
服务管理平台建设过程中,业务系统需要从传统的建设模式迁移到资源池模式的云计算系统里,将形成超大规模的数据中心或多数据中心平台。云管理平台需要对庞大的虚拟化计算资源进行智能化的自主管理,实现资源的集中化管理和业务系统的快速交付,不同硬件平台虚拟化系统的统一调用、管理和监控。云计算基础设施管理平台应具备以下功能:资产管理、资源管理、用户管理、云平台用户门户、云平台监控等。3.6大数据处理
服务管理平台在运行中会产生海量的数据,需要进行大量的计算,一个大数据处理的框架成为必然的要求。鉴于Google相关技术的非开源特性,从运行安全与实施成本考虑,建议选择Hadoop开发团队的技术。Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了分布式存储解决方案,它的架构建立在大量普通配置的计算机组成的集群上。而Map/Reduce为海量的数据提供了并行编程模型。
Hadoop有着优秀的数据处理能力,将其搭建在OpenStack上,可以实现私有云与大数据的协作,发挥协作效应,还可以有效地节省网络带宽。同时,虚拟化使得Hadoop部署更为简易,除了主要的NameNode,其他的DataNode完全可以使用OpenStack中Heat云编排功能,通过Cloud Formation实现定制集群,而虚拟化本身的安全与便捷,都可以大大减轻维护团队的运维压力。
4 服务管理平台数据层主要系统建设概述
4.1 垂直搜索引擎系统
垂直搜索引擎是针对某一个行业的专业搜索引擎,它相比通用搜索引擎,具有更专业、更准确的特点。管理平台中的垂直搜索引擎主要将公共文化服务机构的网站的非结构化数据,通过模板化的信息抽取技术,转换成结构化的数据,存入仓储。垂直搜索引擎通过网络爬虫对区域内各公共文化服务机构的信息资源进行采集和整合,为用户提供公共文化信息检索服务,其流程为:网络爬行—中文分词—索引—检索。
4.1.1 网络爬行。区域内的公共文化服务机构数量不多,且固定,因此可采用定向采集的策略,使用固定的URL库,对各公共文化服务机构的网站页面信息进行抽取。并且,由于其页面多为网站系统生成,网页结构固定,在网页信息抽取方法上,使用模板化的抽取方式比较简单、准确,维护量也不会太大难以接受。无论从内容还是复杂程度来说,一个简单的模板化爬虫就可以满足对区域内各公共文化服务机的非结构化信息或半结构化信息的爬取。爬取的网页保存到网页库中。
4.1.2 中文分词。中文分词是将一个中文序列切分成一个个单独的词的过程。中文分词的准确性,直接影响检索结果的查全率和查准率。目前,Lucene是个不错的选择,Lucene是一个构建具体的搜索引擎工具包,在网络上得到广泛的应用,成熟度高。它将构建一个完善的检索系统功能以Java类和接口的形式向广大开发者提供,为构建自定义的功能提供了强大的灵活性。通过实现Lucene的Analyzer接口,使用其自带的org.apache.lucene.analysis.cn中文语言分词器,可以实现不错的分词效果。
4.1.3 索引。经过分词处理,还需要通过预定义的元数据标准,分析网页的文档信息,生成网页的元数据,然后对提取的元数据信息建立索引。Lucene框架主要包括两个功能:建立索引和检索索引。使用Lucene分析索引网页库的关键词和网页的文档信息,采用倒排索引技术,生成倒排表和索引词表。通过建立索引可以明显加快检索的响应速度。
4.1.4 检索。检索功能主要实现为一个接口。接口接收检索关键词,对检索关键词进行切词操作,然后在索引中进行匹配,将匹配的结果以XML流的形式返回。这个接口可以由统一检索系统调用。
4.2 元数据收割系统
元数据收割系统基于OAI-PMH协议,自动地定期收割各公共文化服务机构的结构化数据,将其存入仓储,并通过Handle标码技术实现数字资源的智能定位。OAI-PMH协议提供了一个基于元数据获取的独立于具体应用的互操作框架。在OAI-PMH框架中有两个级别的参与者,分别是数据提供者DP(Data Providers)和服务提供者SP(Service Providers)。DP以OAI-PMH方式发布元数据,而SP以OAI-PMH为基础获取元数据来提供增值服务。SP通过收集器(harvester)发布OAI-PMH请求,向DP的仓储中获取元数据。DP响应和处理OAI-PMH协议的六种请求(6个OAI-PMH命令动词),将元数据发布给SP的收集器。OAI-PMH协议通过这样一个相对简单的框架实现了元数据共享。
基于全球统一标码(Handle)的标码技术是起源于互联网、应用于物联网的一种标识符号。它赋予互联网上的各种对象文档、图像、多媒体等一个唯一、合法、安全和永久的标识,通过这个标识可以实现对被标识对象的解读、定位、追踪、查询、应用等功能。可选取区域内基础设施和网络条件较好的公共文化服务机构节点作为SP(同时也是DP),其余节点作为DP。SP部署收割服务器,包含注册功能模块、日志统计分析模块、元数据检索模块。收割服务器通过设置收割策略,对各公共文化服务机构发布的元数据进行定时智能的收割,通过Handle标码技术实现数字资源的智能定位。
4.2.1 收割策略。元数据收割系统在SP的管理系统中提供对收割策略的定制。收割策略包括收割状态、收割时间和周期。收割状态分开关闭和开放,决定是否对其进行收割。收割周期可以设置收割的频率,一般设置为24小时,即每天进行一次元数据的更新。收割时间指开始收割的时间点,各收割轮次尽量避免设置为同一时间,减轻收割服务器的压力。
4.2.2 服务智能定位。收割的元数据对象是分布式的,可能存在URL因为数字对象物理位置改变,IP更换、系统迁移、网站改版或文件目录调整导致资源无法访问的“死链”问题。解决这个问题可采用与国际接轨的,全球统一标码(Handle)的标码系统(HandleSystem),对各类文化资源依据国际标准逐一进行注册,注册系统与全球注册系统建立对接,负责数字资源地址的解析服务。
4.3 智能推送系统
智能推送系统通过支撑平台的Hadoop架构和数据挖掘工具,以用户系统的数据智能分析用户的行为,从而推送符合用户需求偏好的信息。4.3.1 数据准备。对服务管理平台进行数据挖掘,首先要做数据准备,分三个阶段:1)数据集成。要采集不同的公共文化机构不同系统的用户数据显然难度较大且效率低下,因此,服务管理平台采取从五大平台和统一检索、统一用户功能模块产生统一的用户数据,保存到用户行为数据库的办法来完成数据集成。2)数据选择。从用户行为数据库中选取相关数据或样本,为知识发现的目标搜索和选择有关的数据,这里不包括同模式数据的转换和数据的统一和汇总,只需能辨别出需要分析的数据集合即可。3)数据预处理。检查数据的完整性及一致性,消除噪声等。对数据进行清理和充实等预处理工作,包括对数据编码,数据库中字段的不同取值转换成数码形式,这将有利于搜索。
4.3.2 数据挖掘流程。将数据准备完成后,将进行数据挖掘。传统的数据挖掘流程为:1)确定挖掘目标,即确定要发现的知识类型。2)选择算法,即根据确定的目标选择合适的数据挖掘算法。3)数据挖掘,即运用所选择算法,提取相关知识并以一定的方式表达。4)进行结果表达与解释,即通过现在的可视化技术,完成模式评估(对在数据挖掘步骤中发现的模式/知识进行评估)以及知识表示(表示相关技术,呈现所挖掘的知识)。
鉴于服务管理平台的数据内容来源于多个公共文化机构,数据属性之间相互独立性大,可以采用朴素贝叶斯算法来进行分类,数据处理可以下放到Map/Reduce中计算完成。例如Hadoop的k-means算法的处理过程主要有两部分:第一部分是初始聚类中心,并把数据集样本分为一定大小的数据块,以便并行处理。第二部分及时启动Map和Reduce任务进行算法的并行化处理,直至产生聚类结果,将处理结果写入HDFS,也可放入存储集群,以供查询层使用。
图2 数据挖掘简易流程图
4.4 统一检索系统
统一检索系统将垂直搜索引擎采集的数据和通过元数据收割系统收割的数据整合,并提供一站式检索服务。为了提升用户检索体验,提供智能化、专业化的检索,应引入领域本体(Ontology)。本体可以是一个表现为树形结构的知识库。如顶层类可以是“公共文化”,之下可以有“戏剧”,“戏剧”又可包含“桂剧”“壮剧”等,类似于图书馆使用的分类法,但本体还要构建推理规则。引入本体,是在用户输入检索关键词,进行切词后,由本体的推理扩展模块进行扩展,然后将扩展的结果发给垂直搜索引擎和元数据收割系统进行匹配。经过扩展的结果,并不是简单的原始关键词,而是经过推理的关键词集合,更能准确专业地表达用户的检索意图,因而检索的结果也更符合用户的需求。
4.5 统一用户系统
用于给各系统提供用户认证服务,使用户平滑使用平台的各种服务。目前,对于统一用户系统,市场上已经有了很多成熟的产品。其主要功能是用户管理、安全认证、访问控制、单点登录服务和日志审计。通过统一用户系统,为用户访问本管理平台的各个应用平台提供方便的登录认证服务。4.6 统计分析系统
统计分析系统分别对硬件资源、数字资源进行统计分析,并使用数据挖掘工具产生更丰富的、关联指向性更强的报表提供给文化部门作为决策辅助信息。在硬件资源方面,通过对区域性公共数字文化支撑平台的日志进行统计分析,掌握硬件资源的利用情况,及时发现基础设施的瓶颈,进行有针对性的资源扩展,降低盲目的投资。在数字资源方面,通过元数据收割系统和垂直搜索引擎的日志,统计分析数字资源总量和资源访问统计。5 “一站式”服务的主要功能与呈现形式
5.1 文献信息服务平台
各类型公共文化服务机构现有的信息系统多为独立系统,系统平台各不相同,建设的数字资源也结构不一,为典型的“信息孤岛”群体。服务管理平台采用元数据收割技术和标码技术,实现对各类型公共文化服务机构结构化数字资源进行自动收割、关联整合、智能定位、分布式云备份;采用垂直搜索引擎技术对各类型公共文化服务机构非结构化数字资源进行智能采集,通过统一检索技术实现同构数字资源和异构数字资源的“一站式”服务。
5.2 知识创新学习平台
通过自建和购置,整合优质数字资源和聚集行业资深专家学者,建立以高质量深度数字资源内容研发和系统知识切片为核心,融合先进的用户行为分析的数据挖掘,为用户提供针对性个性化服务,进行精于在线学习体验设计和学习体验设计的系统与个人的B2C在线知识创新学习平台。内容包括写作、外语、美术、音乐、舞蹈和进城务工技能、农业种养技术等,发挥系统构建学习型社会、促进人的素质提高的作用。5.3 休闲娱乐服务平台
以舞台艺术、电影电视、展览图片、音乐歌曲、有声读物、动漫连环画等资源为基础,提供片花、票务和评论等服务,通过检索、推荐等应用方式,建立弘扬正能量,寓教于乐,提高个人修养的休闲娱乐服务平台。5.4 信息技术服务支持平台
服务管理平台通过统计分析系统和云管理系统,在信息技术服务支持平台实现数字资源的使用反馈统计,平台运行数据的可视化,并提供对业务培训的技术支持。5.5 数字资源智能订制与推送平台
数字资源智能订制与推送平台通过数据分析各类型公共文化服务机构的相关数据元素,建立统一标准和模型,并利用数据挖掘工具,生成知识数据库,形成区域内公共数字文化资源关联的可视化模型,实现信息交互功能和数字资源的个性化定制与智能推送,同时为相关文化主管部门制定发展规划,有针对性地提高资源利用率提供决策参考。6 结 语
“互联网+”时代的到来,使得信息资源的存在和传播方式发生了根本改变,人们不仅能够更为便捷地获取知识,而且获取文化资源的公平性和文化服务的多样性也得到了彰显。区域性公共文化综合服务管理平台的成功构建,必将会是形成一个知识信息的集散中心、一个特色资源数据的共建共享平台、一个文化信息的互动窗口,也必将会带来一场文化服务模式的变革。建设区域性公共文化综合服务管理平台,利用数字化资源、智能化技术、网络化传播,加强公共数字文化资源整合开发,推进文化资源数字化,拓宽公共数字文化资源服务渠道,推广一站式服务,建设全域共享、互联互通的公共数字文化服务平台,将极大改变目前公共文化发展不均衡的问题,特别是西部地区和贫困地区基层公共文化单位服务能力不足的现状,从而更好地发挥公共文化单位在构建现代公共文化服务体系、推进文化大发展大繁荣、实现中华民族伟大复兴中国梦历史进程中的作用。
[]
[1]刘国乐,何建波,李 瑜.Xen与KVM虚拟化技术原理及安全风险[J].北京:保密科学技术,2015(4).
[2]王晓庆.基于云计算的南京财经大学数据中心建设研究[D].南京:南京邮电大学计算机学院,2013:40.
[3]晓 杉,王 琨,顾华玺,等.云计算数据中心光互连网络:研究现状与趋势[J].北京:计算机学报,2015(7).
[4]李 虎,来庆涛,王维铁,等.云计算基础设施的建设与研究[C]∥电力行业信息化优秀论文集2014—2014年全国电力行业两化融合推进会暨全国电力企业信息化大会获奖论文,2014.
[5]垂直搜索引擎[EB/OL].[2015-12-25].http:∥baike.baidu.com/link?url=nCIHEUyVNHB1SaDQPdYtrA1jG-Ruc5iuIDwwbEFnI_6NtofN60ptlAFqmcEP78ZySNwlALCHWSY-CnGCGsLhnp4_.
[6]李 进.基于本体的垂直搜索引擎研究[D].长春:长春工业大学,2013.
赞(0)
最新评论