科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道数字图书馆建设的关键技术

数字图书馆建设的关键技术

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

随着信息技术革命的到来,图书情报事业已进入以宽带网络和多媒体技术为标志的数字图书馆时代,数字图书馆的出现对于正在不断产生的浩瀚的信息资源的整理、管理、提取和服务,具有十分重要的作用。

作者:存储时代 2007年9月24日

关键字: 存储管理 数字 数字图书馆

  • 评论
  • 分享微博
  • 分享邮件

随着信息技术革命的到来,图书情报事业已进入以宽带网络和多媒体技术为标志的数字图书馆时代,数字图书馆的出现对于正在不断产生的浩瀚的信息资源的整理、管理、提取和服务,具有十分重要的作用。因此,数字图书馆研究和发展成为当前的一项重大课题。

在数字图书馆概念出现之前,图书馆的发展主要表现在电子图书馆、数字化图书馆等的发展。电子图书馆主要指以电子形式存贮、传递并提供服务的图书馆,如图书馆建立的电子阅览室、OPAC(Online Public Access Catalogue)检索等,它强调图书馆借助于计算机技术在一定范围内向读者提供服务。而数字化图书馆则主要侧重于馆藏的数字化,将数字化的书刊文献上网提供给读者使用。可以看出,电子图书馆主要侧重于图书馆的电子化检索,而数字化图书馆的重点则在馆藏的数字化。电子图书馆和数字化图书馆的建设难度、使用的方便程度都远远不如数字图书馆,但它们是数字图书馆的基础,是建设数字图书馆必不可少的前期准备工作。

1.数字图书馆的概念

有关数字图书馆的定义在不同的书上有不同的表述方式,将这些定义概括起来,可这样定义:数字图书馆是利用计算机技术、网络技术、数字化技术形成的跨地区、跨国家的信息空间、信息系统,并以数字化方式将信息资源存储在具有海量存储能力的存储系统中,通过计算机和网络将信息资源传递给不同地域的用户,从而做到不受时间、空间限制的信息资源共享。简单地说,就是超大规模的、分布式的、可以跨库检索的海量数字化信息资源库。数字图书馆是一种使信息资源真正实现共享的图书馆,它超出了“馆”的概念,突破了传统图书馆的“藏书建筑”“信息服务和社会教育机构”,而是一个“系统”。“馆”的物理边界已被突破,现有的图书馆馆藏主要是书籍、杂志、报刊、技术报告等,数字图书馆将馆藏数字化,从而能充分高效地利用传统图书馆信息资源。同时人们希望利用因特网把所有的数字化的资源站点连接起来,例如:博物馆、展览馆、学术组织以及其他Web站点上千差万别的信息。因此,数字图书馆所研究的范围已远远超过传统的图书馆,它是一种内容丰富的数字化的信息资源库。

从数字图书馆的概念可以看出,数字图书馆是图书馆自动化发展的高级阶段,是利用现代化信息技术手段来提高图书馆的服务水平,使图书馆资源共享达到越来越高的程度。数字图书馆实质是把图书馆办成利用现代信息传播技术,使用计算机进行大范围、多方位存储、检索、筛选、评价以及查询、借阅、下载等一切利于读者的场所。

2.数字图书馆建设的关键技术

数字图书馆是一个宽带多媒体网络和海量信息管理系统,它所面对的存储对象和技术领域远远超出了目前传统图书馆的范围。存储对象包括数字化的图书、音像、新闻、美术、照片、雕塑、电影、软件、电子出版物、互联网内容、卫星数据、气象数据、地理数据、政府文件等各种各样的人文与科学数据,牵涉到大量的管理问题。因此,数字图书馆所涉及的技术领域很宽广,需要大量的技术突破作为支撑,对于其关键性技术我们有必要进行详细的研究。

3.馆藏数字化

利用当今先进的数字化技术建立数据库,将传统图书馆的馆藏转化为数字化信息,并储存在计算机存储设备里,从而提供更有效的快速检索和信息服务,特别是图书馆的一些珍贵的特色馆藏信息资源。为了保证所建立的数据库具有独特性和全面性,避免重复性建设,各图书馆有选择性地对具有学科特色、专题特色、地方特色、类型特色、语种特色、环境特色的馆藏文献进行数字化转化,特别是特有的资料、名人专著、名人字画、报刊、照片、文学艺术作品、录音录像等等。数字化技术是数字图书馆的核心技术之一,是信息组织、存储和检索的基础。馆藏文献的数字化的基本实现方式是进行扫描,扫描后存储为图形或文字,其中文字要通过OCR识别系统进行识别和校对。

4.海量信息资源存储

如何快速、有效地把包括历史资料在内的各种信息资源数字化后放入数字图书馆,是涉及到技术、标准、管理和法律等诸多方面的难题。技术标准对于数字图书馆建设是至关重要的。技术标准的草拟应该由信息产业界、图书情报界以及与相关的国内软件开发商共同参与,在讨论标准的同时开发一批建立在这些标准基础上的软件系统。数字图书馆所涉及的数据类型有文本、图像、语音等海量信息资源,存储这些海量资源信息要求存储设备有很大的储存容量。目前,广泛使用的存储技术有两种,即磁存储技术和光存储技术,与这两种存储技术相对应的存储介质是磁盘和光盘。磁盘和光盘这样的海量存储设备,为数字图书馆存储经数字化转换的传统书刊文献提供了足够的空间。当然存储和处理这些数据需要大规模数据库,这些涉及到数据集中与分布存储管理方法等问题。

5.分类与索引及检索

分类与索引是检索的基础,为了实现后续开发的可扩展性和快速检索的目的,我们必须制定一个统一的分类标准。数字图书馆定义的元数据规范能够覆盖包括电子图书在内的多种媒体类型,以及基于此规范的内容索引方法和分类方法。对于文本信息、图像信息、视频、音频等不同的数据类型,需要定义不同的分类体系和索引机制。为了支持海量数字化资源的自动分类和检索,需要研究基于内容的多媒体处理技术。同时要研究多种先进的检索技术:中文检索、图像检索、语音检索、智能检索,有些技术还涉及到大量人工智能技术的支持。例如:CBIR(Content Based Image Retrieval)融合了图像理解技术,从而可以从大量图像中进行有效的检索。搜索引擎技术是图书馆搜集信息和资料,以及读者查找信息的重要方法,特别是近年出现的动态检索技术是搜索技术的飞跃。

6.元数据技术

数字图书馆完成收藏信息资源时,必须对信息资源的收藏状态、查询需求和检索属性进行描述,这也就离不开元数据的信息描述、信息组织功能。元数据可以对馆藏信息的查询和检索属性进行著录,利用元数据对用户信息进行描述。通过利用元数据对用户信息资源进行描述,建立数据模型,分析评价数据模型,指导图书馆信息采集、用户服务等一系列工作。

7.数字资源的传输

作为今后主流的信息资源——流媒体(主要指视频、音频),由于它的数据量十分大,难以压缩,流媒体如果按照一般的文件传输方式来传输,将无法流畅、清晰地再现,很可能出现断断续续、画面停顿等现象,所以它的传输问题,是实现数字图书馆的关键技术之一。为了实现较好质量的流媒体实时播放,需要考虑媒体流传输的所有环节。其中,影响传输质量的3个关键的因素是:编码和压缩的性能和效率,媒体服务器的性能,媒体流传输的质量控制。

8.安全性问题

安全性包括版权保护和系统安全性的保护。版权保护是数字图书馆能够健康发展的前提。数字图书馆版权保护技术主要目的都是为了实现访问控制和使用控制。目前的版权保护技术主要分为三大类,即安全容器技术、数字水印技术、移动Agent技术。由于黑客和计算机病毒会直接影响数字图书馆的正常运行,系统安全的保护尤为重要,可采取如下措施:对系统进行加密;安装防火墙来隔离网络的不同部分;运行诊断程序以检测系统的安全问题;备份系统的信息以保证在系统遇到突发事件时可恢复等等。

结语

从以上分析可以看出,要建立完整而理想的数字图书馆,我们必须正确处理上面的关键技术问题。特别值得注意的是这几个关键技术之间内在的联系(例如,数字资源的传输技术中的压缩编码技术和存储技术就有关联),它们之间也存在相互制约,相互促进的关系。这些问题都事关数字图书馆建设的质量、效益和影响,必须引起我们的关注,以便找出解决这些问题的方案和策略,从而更有效地实现现有图书馆向数字化、信息化为技术特征的现代图书馆的转变。数字图书馆实现了图书馆的自动化、网络化、信息化、数字化,把相对封闭、功能单一、贮存印刷品为主、单纯借阅图书的传统图书馆模式向开放的、多功能的、存储载体多样化的、并能提供全方位服务的现代图书馆方向发展。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章