文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

数字图书馆的存储之路

时间:2023/11/9 作者: 图书馆界 热度: 18951
张 媛

  (长安大学图书馆,陕西 西安 710064)

1 引言

数字图书馆是一种馆藏以数字化格式存储可以利用电脑访问的图书馆,与传统图书馆相比,最大的不同之一在于存储方式。传统图书馆存储的是纸质资源,这一模式使它的规模必将受物理空间的束缚。数字图书馆存储的是电子版化的纸质资源,更便于读者检索浏览,所以越来越受到读者的喜爱。

  随着电子图书、期刊、论文、多媒体等各类资源的不断丰富及海量增长,数字图书馆的存储规模也在不断扩大,如何更有效地管理这些资源,值得深入探讨。

2 数字图书馆的建设阶段——DAS存储技术的应用现状

数字图书馆初期建设工作仅停留在对馆藏资源的数字化加工及全文检索等方面,数据容量并不是很大,一般的服务器容量就可以满足需求,并不需要使用大容量的存储设备。随着读者对信息资源需求的增长,购买现成的数字资源成为必然趋势,靠单台服务器来存储显然无法胜任,DAS就这样率先登上了图书馆的历史舞台。

  DAS(Direct Attached Storage)即直接外挂存储,是最先被采用的网络存储系统。在图1中,I/O请求直接从服务器发送到存储设备,存储设备通过SCSI电缆或FC光纤直接和服务器相连。这种直连方式,解决了单台服务器的存储空间扩展、高性能传输需求的问题,并且单台外置存储系统的容量已经从不到1TB发展到了2TB,随着大容量硬盘的推出,单台外置存储系统容量还会上升。由于早期的网络比较简单,而DAS的初始费用也比较低,所以直连式存储很快得到了发展。

  

  图1 DAS系统架构

  目前DAS架构在图书馆中的应用不是很多,一般用于数据量不是很大的应用中,从趋势上看,DAS仍然会作为一种存储模式,继续得到应用。

3 数字图书馆的发展阶段——NAS和SAN存储技术的应用现状

随着网络及学科建设的发展,各图书馆的数字应用不断增多,这种单服务器单存储的DAS架构已不能满足多服务器设备共享的需求,而且剩余容量的再分配困难、可扩展性差、连接距离有限及无法集中管理存储等弊端进一步凸显,于是相继出现了NAS和SAN等其他存储技术。

3.1 NAS存储技术应用现状

NAS(Network Attached Storage)即网络连接存储,主要用于网络文件共享。在图2中,存储部件通过RAID控制器做好RAID组并根据需求分配大小不同的逻辑卷,简单地配置IP地址后,局域网中的用户即可通过TCP/IP协议与存储部件建立连接并通过文件存取协议如NFS、CIFS等共享存取逻辑卷中的数据。这种连接方式支持各种操作系统,而且在不同的网络环境中使用时,无需对网络环境进行任何的修改,因此能满足特定用户的需要。

  

  图2 NAS系统架构

  目前NAS架构在图书馆中的应用并不多见,基于其文件存储的特性,很适合为图书馆的网站服务器和FTP服务器提供存储。对那些希望降低存储成本但又希望数据存储具有高性能和高可靠性,同时有一定系统扩展要求的图书馆来说,是一个很好的选择。

3.2 SAN存储技术应用现状

NAS系统成本较低,易于实现文件共享,但由于它采用文件请求的方式,会占用主机大量的CPU资源,文件操作的延迟相当严重,并且不适合那些不采用文件系统进行存储管理的系统,如某些数据库,所以SAN技术应运而生。

  

  图3 SAN系统架构

  SAN(Storage Area Network)存储区域网络,是一种将连接设备、存储设备和接口集成在一个高速网络中的技术。在图3中,SAN本身是一个独立网络,它与外部局域网的应用是分离的,存储数据流不会占用业务网络带宽,所有的数据在高速、高带宽的网络中进行传输。由于SAN存储实现的是直接对物理硬件的块级存储访问,极大地提高了存储的性能和升级能力,因此一面世就受到了极大追捧。

  目前常用的SAN解决方案主要分为FCSAN和IPSAN两大类,关于这两类架构的应用比较一直争论不休。FCSAN一直以它的安全、稳定、快捷著称,而IPSAN在保护现有网络的基础上为用户提供了跨广域网的数据交互和存储的能力,且有较好的兼容和扩展性,还有管理与维护方便等特性,因此也广受关注。就图书馆的应用而言,虽然IPSAN也有一定应用,但大多仍使用FCSAN架构。

4 数字图书馆的整合阶段——存储虚拟化技术的应用

DAS、NAS、SAN不同架构的应用,使数字图书馆的存储系统形成一个个数据孤岛,如何在现有的环境下对现有设备进行整合,成为许多数据中心急于解决的问题,而存储虚拟化技术的出现使这一问题迎刃而解。

  

  图4 SV系统架构

  SV(Storage Virtualization)存储虚拟化,是通过虚拟卷映射、流数据定位、数据快照、虚拟机等技术实现异构存储设备的统一管理以及存储位置无关性而提出的,目的在于屏蔽存储管理中的一系列复杂问题而向用户提供简单透明统一的存储访问模式。在图4中,存储虚拟化将底层存储设备如DAS、NAS、SAN等异构的存储系统虚拟化成一个大的存储池,进行统一管理;根据服务器层各服务器需要按需分配存储空间,屏蔽存储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现了异构存储系统的集中管理。此外,存储虚拟化技术在简化系统管理及增强存储平台的可靠性方面也表现突出。

4.1 提高硬件资源的使用效率

经费紧缺使图书馆的设备淘汰更新换代比较慢,很容易造成一个数据中心有不同品牌的服务器和不同架构的存储。不同品牌产品的兼容性问题使设备的使用效率低下。存储虚拟化不仅可以整合异构平台,充分利用原有设备,解决数据容量增长扩充、硬件升级时面临的成本限制问题,而且能实现按需分配存储资源,合理利用数据存储空间,极大地提高各种硬件系统资源的使用效率。同时,存储虚拟化可以提供数据分层存储,将不同读写速度的存储介质分为不同级别,比如,热点数据保存在存取速度快的物理设备中,这样就充分保障了硬件设备效率最大化,使图书馆的现有设备达到物尽其用的效果。

4.2 简化系统管理的复杂度

不同厂商、不同架构的存储设备的配置不同,不同品牌的服务器安装不同操作系统连接存储设备的配置也不同,设备越多,管理难度越大。存储虚拟化技术使整个服务器、存储系统的平台管理变得集中、简单;同时,设备集中化和标准化不仅使图书馆技术管理员减少不必要的麻烦,还为实际运行环境带来更多的价值,各种设备的配置管理、数据安全管理、业务连续性管理、容量管理、运行管理、性能管理等等都可以集中化。从此,数字图书馆的设备管理人员可以从每年的设备维护、管理、扩容、系统升级的烦恼中解脱出来。

4.3 增强存储平台的可靠性

在图书馆的实际应用中,可能出现更换存储基础设施等情况,存储设备必须离线,导致业务间断。存储虚拟化不仅提供硬件资源的集中管理,还允许故障设备在线更换,保障数据不间断读取,实现业务的不间断运行。另外,传统的数据集中管理易造成设备I/O负载过重,并存在单点故障的危险,而通过存储虚拟化可以实现I/O负载均衡,提高存储效率,降低设备性能的局限性。

  目前,部分图书馆已实行了存储虚拟化,大多仍处于调研观望阶段。随着服务器、桌面虚拟化在图书馆的应用不断增多,服务器集群、数据快照、模板备份等对存储的需求随虚拟化规模线性增长,每年中外文数据库的数据更新量更是惊人,光CNKI期刊全文2011年的数据量就有1.6T,各馆自建的特色数据库每年的更新量也不容小觑。数据量每年呈T级别增长,加之DAS、NAS、SAN存储架构的异构,存储虚拟化必将成为数字图书馆在存储有效使用管理方面的一剂良药,也将是大势所趋。

5 数字图书馆的共建共享阶段——云存储技术的发展与展望

存储虚拟化有效地整合了图书馆异构平台下的存储资源,极大地提高了管理和使用效率,但各馆每年投入在新增数据量存储的价格成本依然很高,从各图书馆购买的资源来看,具有较高的重复率。有效地共建共享图书馆资源才是节约成本、提高使用效率的根本方法。

5.1 云存储技术的发展

云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等手段,将网络中各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。通俗意义上讲,云存储系统中的所有设备对使用者都是完全透明的,任何一个经过授权的使用者都可以通过接入网络与云存储连接,对云存储进行数据访问。

  

  图5 云存储系统模型

  在图5中,云存储系统整体架构可划分为4个层次,自底向上依次是存储层、基础管理层、应用接口层以及访问层。存储层是云存储系统最为基础的部分,而存储虚拟化则是存储层的核心,因此云存储具有存储虚拟化的所有优势。基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。它通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能;内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。应用接口层是云存储最灵活多变的部分,各数字图书馆可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。访问层是云存储最终向用户提供的服务,任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。

5.2 云存储技术展望

云存储与存储虚拟化相比更强调的是服务,这与图书馆向读者提供服务的理念一致,因此云存储更适合未来数字图书馆的发展需求。目前宽带网络的发展更促使基于云存储的图书馆联盟的成立成为可能,这更有利于图书馆间共建共享数字资源。

  在图6中,数字图书馆1、数字图书馆2和数字图书馆3是位于同一城市的云图书馆,而数字图书馆4和数字图书馆5则是位于不同城市间的云图书馆。不管是居于城市A的用户乙还是居于城市B或城市C的用户甲都可以访问这五所数字图书馆中的资源,实现不同区域图书馆间的资源共建与共享。

  

  图6 基于云存储的图书馆联盟系统架构

  构建基于云存储的图书馆联盟不仅使同一区域资费紧缺的图书馆间可以共建共享资源,而且使不同区域的较先进的图书馆带动落后图书馆共同发展,是不同区域图书馆间的强强联手,最大的受益者莫过于广大用户。

6 结语

数字图书馆的存储经历DAS的建设阶段,走过NAS、SAN的发展过程,开始迈向存储虚拟化的整合时期,必将进入云存储的共建共享时代,让我们图书馆界的同仁们共同关注。

  [1]数字图书馆[EB/OL].[2012-08 -12].http://zh.wikipedia.org/wiki/数字图书馆.

  [2]唐章林.从DAS到虚拟存储——从近十年的发展解读数字图书馆建设的未来之路[J].新世纪图书馆,2010(3):39— 42.

  [3]李 昊,张林龙.高校图书馆数字资源网络存储技术研究[J].现代情报,2010(5):144—147.

  [4]谭生龙.存储虚拟化技术的研究[J].微计算机应用,2010(1):33—38.

  [5]张 艳,潘吴斌.基于云存储的图书馆海量数字资源存储研究与设计[J].图书馆学研究,2012(15):31—35.

  [6]马晓亭,陈 臣.数字图书馆云存储应用系统研究与实现[J].图书馆理论与实践,2012(5):8—13.

  [7]杜海宁.基于云计算的图书馆海量数据存储研究[J]. 图书与情报,2010(3):99—101.
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论