[摘要]本文就数字资源的定义,常用的整合方式与模式,国内外数字资源整合平台进行了概述,结合我校教学和科研的实际,对TPI数字资源整合平台在我馆的应用进行了研究和实践。
[关键词]数字资源,整合,教学,科研,高校
随着计算机技术、通信技术、网络技术等科学技术的迅猛发展,文献信息资源的数量以前所未有的速度剧增,文献信息资源的类型也已由单一的纸质文献发展成为纸质与电子、依托网络环境的数字图书馆、各种中外文数据库等共存的形式,它们彼此互为补充、共同发展。随着五年一次的国家教育部对高等学校进行本科教学水平评估工作的开展,学校在“以评促建、以评促改、以评促管、评建结合、重在建设”的目标指导下,各高校都在大力加强作为本科教学三大支柱之一的图书馆建设,特别是馆藏资源建设的力度尤为突出,年进纸质文献量不断增加。在强调纸质资源建设的同时,为了弥补资源的不足,也纷纷采购各种形式的数字资源,包括中外文的电子图书、电子期刊,以达到丰富馆藏、提高文献资源保障之目的。
在这样的一种环境下,电子图书、电子期刊、各种类型数据库的建设,就成为图书馆加强信息资源建设、提高服务质量的一项重要的途径。资金充足的图书馆,购买的电子图书与各种数据库较多,资金较少的也尽力购买多种电子期刊和电子图书来提升自己的服务水平。这些电子图书和电子期刊一方面弥补了纸质资源的不足,提高了读者文献信息检索的查全率,但同时也给图书馆的管理工作提出了问题。一方面,读者习惯了纸质资源的利用,缺乏对电子资源的利用知识,这就需要图书馆加强电子资源的宣传和使用培训力度;另一方面,在大多数图书馆的网页上,都是将各种数据库的名称进行罗列,让读者看起来眼花缭乱,感觉无从下手;再者,各数据库的使用与检索方法不尽相同,读者为获取某一主题的资料,需要在不同的数据库之间进行重复检索,来回切换,不仅花费大量时间,而且有可能漏检某些数据库,不利于达到查全之目的。因此,对馆藏文献资源进行整合是当前图书馆急需解决的问题。
一、数字资源整合定义
数字资源整合.是指依据一定的需要和要求,通过中间技术(数字资源无缝链接整合软件系统),把不同来源和不同通信协议的信息完全融合,使不同类型、不同格式的数字资源实现无缝链接。通过整合的数字资源系统,具有集成检索功能,是一种跨平台、跨数据库、跨内容的新型数字资源体系。
二、数字资源整合方法与模式
1基于OPAC系统的资源整合
根据整合对象的不同,可将基于OPAC系统的资源整合分为馆外整合与馆内整合。馆外整合的实质是实现本馆与不同的异构OPAC数据库的整合,当前较多地采用Z39.50协议来完成,通过执行Z39.50标准,将所要整合的图书馆的书目数据库先映像成自己专用模型,再根据本馆要求建立统一的检索接口。馆内整合是指实现OPAC书目信息与数字资源的整合,主要是在MARC记录里增加856字段一“电子资源地址与存取”字段(EIeCtronicLocationandAccess),主要是记录被著录的数字资源的存取地址和存取方式。
2基于数据源的整合
数据源整合是当前图书馆数字资源整合的主要模式,而且已经较为成熟。从实践的情况来看,又可以细分为两种子模式,即导航整合和平台整合。
(1)导航整合
导航整合主要提供按字母和主题的入口方式,这在国内外很多大学图书馆的网页上可以看到,也是国内文献探讨较多的模式。其较为彻底的形式如香港大学的图书馆主页,它将馆藏资源进行了最大限度的整合,读者可以通过书、刊、库三个入口(界面和检索方法相同)锁定目标资源。数据源整合对庞杂的资源进行合理有效的排序和整合,使资源能清晰有序地供用户选择检索。但导航整合仅适合于对资源状况缺乏了解的用户。导航整合的一个致命缺点在于,电子文献的URL会因为馆藏的调整、数据库的增减、刊名的变化等各种原因而失效,我们可以确定一种技术手段来检测其有效性,但却无法实现URL的自动转向。这直接导致导航整合的可用性下降。
(2)平台整合
平台整合是导航整合的进阶,它是检索界面的整合,在统一用户查询界面与信息反馈的形式下,共享多个网络资源的索引技术,为用户提供信息服务。整合后的检索界面没有自己的资源数据库,它是以代理的角色来接受用户的请求,并把查询请求转换成相应网络资源的检索方法和查询语言来获取信息。但是这一整合方式在给用户便利的同时,也包含着不可避免的缺陷。首先,由于中间层需要将请求“翻译”成各个数据库的检索语句,然后再截获各数据库的检索结果,这就必然造成检索效率的低下,用户需要等待较长时间。第二,由于有些数据库的检索语句经过加密处理,或者通过Session进行用户识别,因此不可能用中间层的方式整合所有的资源,如USP目前只能支持30多种搜索引擎和数据库。
3基于知识管理的数字资源整合
这种方式不仅仅提供各类文献数据库的检索,而且还利用Links机制建立起与多种学术信息源的链接,能实现不同类型、不同学科数据库的双向链接,拓展了文献之间的内在联系,实现了二次文献与事实性文献的整合和与原始文献全文的链接。利用知识组织原理和技术,对不同渠道、不同类型、不同学科、不同形式的知识加以整合,按数字资源的逻辑关系,组织成立体网状、相互联系的知识体系,以实现数字资源的有效组织和共享利用。
4OAI标准整合模式
OAI是指openarchivesinitiative,它的目标是发展和促进互操作标准,促进内容数据的有效传播。OAI最初是用来加强对电子印刷文挡的访问,以增强学术交流,以及要保证科学数据在将来也可以访问。与OAI原理相关的几个概念:
(1)数据提供者(dataproviders):维护一个或多个支持OAl—PHM,并把该协议作为揭示元数据的一种手段的Web服务器。它只在OAI系统中添加一个接口,把自己的元数据转换成DC,供serviceprovider使用,本身也可以提供其他服务。
(2)服务提供者(serviceprovider):向数据提供者发出OAl—PHM请求并且利用得到的元数据构建增值服务。(3)存储体(repository):由数据提供者管理的可以在网上访问的服务器,它提供服务提供者需要采集的元数据。(4)采集器(harvester):在服务提供者方作为从存储体中搜集元数据的一种应用工具。
三、国内外数字资源整合平台概述
1DIPS平台概述
DIPS平台是成都国图数字研发的一套数字文献处理平台软件,具备了各种文献资源、多媒体资源的数字化建设加工功能,能够有效管理这些资源并能通过互联网络环境发布利用这些数字资源。这一平台软件具体可以分三个子系统组,即资源的数字化加工子系统,数字资源的管理维护子系统以及数字资源的网络发布子系统。另外作为一个平台软件,其还提供了各种DIPS的辅助工具,有利于整合工作的开展。图1是DIPS资源整合的流程示意,DIPS平台系统和DIPS辅助工具作为一个有机的整体,承担着整合异构电子资源、建设专题特色数据库的责任。
2DSpace平台概述
DSpace平台是一个开放源代码的系统,用作组织或机构数字研究和教育资料的资源库,是HP公司和MIT图书馆经过两年的合作开发研制出来的。开发小组与MIT图书馆工作人员以及最初采用该系统的教学人员紧密合作,开发出了“广度优先”(Breadth—First)的系统,提供了数字资源库服务所需的各个基本特性。除了作为一种实时服务,DSpace还将成为数字资源库功能扩展的基础,特别用于解决数据长期保存的问题。如何长期的管理各类数字资料是资源整合的一个基础,虽然早已存在诸如文档管理系统这样的系统,但许多是商业化和专有的,所以高校和科研机构不得不依赖于供应商的生存和其系统的经济性。DSpace提供了运行机构数字资源库所需的基本功能,并且将成为未来解决长期保存和访问问题的发展基础。2002年11月4日,MIT图书馆首先采用该系统提供实时服务,并且根据BSD开放源代码许可协议公布了系统的源代码,希望能够促进形成一个围绕DSpace的开放源代码协会。DSpace吸收了相关领域很多早期的研究和开发成果,比如吸收了Kahn和Wilensky的分布式数字对象服务框架,以及Arms等在数字图书馆体系结构方面所取得的成果。DSpace目前还不支持复杂的对象传送,但未来版本将构建于Lagoze等目前在灵活可扩展的数字对象仓储结构(FlexibleExtensibleDigitalObjectRepositoryArchitecture,FEDORA)体系结构方面所取得的成果,以及弗吉尼亚大学的FEDORA原型之上。DSpace吸收的另一个重要成果是美国空间数据系统咨询委员会提出的开放档案信息系统(OA1S)参考模型。再有DSpace与南安普顿大学开发的EPrints系统有许多类似的特性,其用户界面特别吸取了EPrints用户界面设计和使用所积累的经验,特别是借鉴了EPrints的互操作性,DSpace目前可以通过元数据采掘OAI协议(OAI—PMH)部分实现互操作,以提供跨资源库的访问服务。
3TRSIIP(v2.0)平台概述
TRS资源整合门户(TRSIIPV2.0))是TRS成部分,TRS还有参考链接系统(TRSInfoLinker)。实现到与其内容关联的其他资源数据库中相关信息的链接。TRS关系数据库全文检索引擎可以在索引层提供ORACLE、SQLSenel"、DB2、Sysbase、Informix等关系数据库的全文检索和统一索引解决方案.TRSIIP2.0的主要特点可以归纳为如下几点:①用户个性化功能模块;②资源使用评估:统计某段时问内的IP访问排名前n位、特定资源的使用率和使用率最高的n个资源;③管理员工具:允许管理员配置每个用户电子收藏夹中可以保存的结果数量、用户检索历史中可以保存的检索词数量和允许访问的IP地址范围。
4SFX平台概述
SFX(SpecialEfectsCinematography)是新的网络电子资源无缝链接整合软件系统,实际上是一个基于开放的统一资源定位器(orenUP,L)标准的上下文相关的参考链接系统。作为学术信息网络环境中的导航与发现的工具,它能为学术信息用户传递强有力的链接服务。SFX在2001年由ExLibris公司推出,推出后受到国外信息提供商和图书馆界的高度重视,目前一批世界著名的信息供应商如ISI、UMI、UBSCO等已开始使用SFX技术和OpenURL协议。全球17个国家近200个机构选择了SFX和MetaLib的解决方案。
SFX可以把不同来源和不同通信协议的信息完全融合,使不同类型、不同格式的数字资源实现无缝链接,其技术为机构提供特制的链接,实现在异构的分布式信息系统之间无阻碍导航。它允许用户在数据库中点击一篇文章的记录,然后显示所有能够得到的与这篇文章相关的服务选项列表。该列表可以包括这篇文章在其它数据库的网上全文。SFX可提供的数字资源包括:全文数据库,文摘、索引、引文数据库,图书馆网上目录系统,其它WEB资源如电子出版系统、网上免费全文等。
5TPI平台概述
TPI系列软件是清华同方知网(北京)技术有限公司自主研发的、基于非结构化文档管理而开发的大型智能内容管理系统。USP全称为UnionSearchPlatform,是清华同方在TPI系统中提供的异构统一检索平台。它是一个可以同时调用多个数据库和搜索引擎进行资料检索的软件系统,可以帮助用户同时在多个数据库中进行检索,并得到返回结果,省去了用户逐个登录数据库、输入检索条件的麻烦。同样,USP也存在着中间件模式共有的缺点,如检索过程需要等待较长时间;不能对检索结果进行过滤和排序,用户需要在界面不一、数据重复的检索结果中进行再次选择,从而导致效率低下;并且有些数据库不能使用中间件模式进行整合,目前USP能支持30多种搜索引擎和数据库,并在不断的增加中,用户可以根据实际需求选择需要统一检索的数据库。USP由3个部分组成:用户注册及引擎配置模块、统一检索模块、检索结果显示模块.USP的主要特点有:①智能化的页面分析系统;②个性化的结果显示;③支持二次检索;④具有先返回先显示的快速显示特性;⑤检索结果有多种显示方式;⑥支持完全由用户配置的数据库分类检索功能。
四、TPI系统软件在面向教学科研的高校数字资源整合中的应用
TPI系统软件是一套集全文检索服务器、元数据标引工具、内容发布系统、实时信息采集系统(RIG)和异构统一检索平台(USP)等功能于一体的数字图书馆建设平台。在高校的教学和科研活动中,图书馆具有极其重要的作用,为教学和科研提供文献保障支持,因此对种类繁多的文献资源进行必要的整合,成为现阶段广大图书情报工作者的工作任务之一。结合当前我校教学科研及本馆数字资源的实际,通过TPI系统软件的应用,我们在以下几方面的应用问题进行了尝试,并取得了一定的成效。
1特色资源库建设
我馆使用TPI系统目前已经初步建成以下数字化资源:
①随书光盘数据库:将随印刷型文献发行的光盘资源进行整合,建立随书光盘数据库,通过校园网进行浏览、下载和使用,很好地解决了随书光盘的利用问题。
②钨钼题录文摘数据库:我校地处于钨钼资源丰富的赣南,建校时也是以有色金属开采、选别、冶炼教学与研究为主要特色的高校,为此我们对钨钼研究的文献进行整合,更好地为教学和科研提供文献保障。
③稀土题录文摘数据库:赣南具有丰富的稀土资源,对稀土文献资源的整合,有利于学校为地方经济建设服务。
④江西理工大学学术论文数据库:针对学校教职工研究、发表的学术论文也进行了整合,以便于更好地开展教学和科研工作。
目前,我们正着手考虑建立我校的学位论文数据库,旨在为今后的科研活动,提供参考。
2内容创建和获取
利用TPI电子图书制作工具,把图书、报刊、论文、公文等各类印刷型文献、文件,通过书页扫描、扫描图像处理、OCR识别处理、目录生成编改、书页压缩打包等工序,快速优质地生成电子“图书”。也可以把已有的各种电子文件,如WORD、PDF、HTML、PSD、TXT、PPT等格式的文件,转换成与电子图书统一的CAJ格式文件,或统一为PDF格式文件。利用元数据标引工具(MET),通过TCP/IP与FTS相配合,对元数据进行标引处理。利用分类工具(CFT),通过TCP/IP与FTS相连接,实现分布式数据加工和分类形成导航树。
3数据存储和管理
利用TPI系统在资源存储方面支持各种格式的文本和图片、视音频文件处理技术,完成数据存储。在资源管理方面,将数据库同时建立多种导航树,以便支持多种分类体系并存。导航树直接和分类结果一一对应,用户可以在WEB页面上直接按照导航树检索。支持角色管理和用户管理,方便地定义不同用户的权限,使得数据库操作同时具备方便性和安全性等特性。分布式检索系统把分布在不同地理位置的独立自主的多个TPI数据库服务器联结成为一个集群系统。各自独立的TPI系统可以建立自己的特色数据库,可以控制其他用户访问自己的资源。分布式检索系统提供跨服务器、跨平台的分布式检索,用户通过该系统可以极大地共享整个集群数据库中的信息,实现分布式、多层次、多类型、特色型的资源共享。
4数据查询访问
利用TPI系统中的全文检索系统实现单库检索、跨库检索、视图检索、二次检索、高级检索等检索方式,灵活使用and,or,not等逻辑操作,按更新日期排序、按相关度排序等排序方式,实现检索结果排重。全文检索基于分词策略,查准率和查全率高,实现中英文混合检索、渐进检索,支持SDK二次开发;系统中建立的数据库个数不限制;单个库记录个数4O亿条;单个库支持最大容量8192GB;跨库检索最大数255个;检索速度1秒/100GB;同时在线人数1000人。异构统一检索系统,利用网页分析技术和脚本分析、执行技术,把网络数据库中应用的JAVASCRIPT、VBSCRIPT、JSP、SERVLET等技术分别解析和消化,使得统一检索平台能够驾驭因特网中如此纷杂的网络数据库。可以同时登陆多个选定的数据库,优先接通并获得的检索结果优先返回,减少用户等待时间。提供初级检索和高级检索两种检索方式,支持二次检索。
5内容发布
利用TPI内容发布系统将加工好的数据发布到因特网上,使之可以被用户浏览和检索。发布提供多种发布模板:cnKI期刊风格、GOOGLE风格、EI风格、OCLC风格、图片风格等。支持用户基于数据库字段的个性化发布定制;支持多种数据库间数据记录之间的关联、跳转、校验、下拉选择;为数据库同时建立多种导航树,支持多种分类体系并存;支持为一条记录关联多个全文数据、或多种媒体数据的连接功能,该功能为发布多图片新闻、多附件通知等应用提供技术保障。
6权限管理
TPI系统权限管理包括角色管理和用户管理。角色管理允许用户变换角色,如从普通用户升级为管理员;用户管理可以实现基于IP、用户名和时间范围的管理,包括增加用户、删除用户、编辑内部用户、导入外部用户、停用用户、恢复用户等。这些权限管理可以为数据的产权保护提供可靠保障。
参考文献
[1]褚艳秋.高校图书馆文献信息资源的整合[J].锦州医学院学报,2006,(2)
[2]王爱丽.数字资源整合技术与模式研究[J].图书馆学研究,2006,(3)
[3]许鑫,苏新宁.高校数字资源整合平台研究[J].现代图书情报技术,2005,(9)
[4]张凤斌,肖荣荣.高校数字图书馆建设中数字资源整合研究[J].哈尔滨师范大学自然科学学报,2004,(6)
[5]于凤英,王召龙.浅谈图书馆数字资源整合[J].济南职业学院学报,2005,(6)
[6]林希森,肖荣荣.TPI在数字图书馆建设中的应用[J].图书馆建设,2005,(1) 职称论文发表网