你好,游客 登录 注册 搜索
背景:
阅读新闻

开放关联的书目数据——为图书馆打开数据网络的大门

[日期:2015-02-28] 来源:江苏大学科技信息研究所  作者:张人 [字体: ]

        摘  要:介绍了关联数据的概念提出、发布方式以万维网上关联数据集的规模现状,在阐释了图书馆书目数据演变历程、核心功能和图书馆界对书目数据认识的转变后,分析了国外图书馆将书目数据发布为关联数据的尝试。

1引言

        1945年7月,美国科学家万尼瓦尔·布什在《大西洋月刊》上发表的《诚如所思》(As We May Think)一文中提出了一种可以模拟人类记忆过程的机器——记忆扩展器(Memory Extender MEMEX)的构想。MEMEX是一台存储私人文档和图书资料的“个人图书馆”,在其中人们可以快速地对相关的信息进行联想式检索,进行信息的处理和整 合。“联想”的检索方式是MEMEX最基本的特征,用户可以通过“联想”在相关条目之间快速地切换:“当系统中的一个条目被检索到时, 只要敲击相应代码区域下的按钮, 相关的条目也会很快地被检索到。”[1]

        布什文中所提出的“关联”思想启发了科学家们创造超文本链接,并将一个个网页链接起来构建了万维网,而“MEMEX”的构想则成为数字图书馆的发端和前身。[2]随着网络技术的发展和数字图书馆的日益成熟,建立更多的关联成为万维网和数字图书馆的重要任务,而这些无处不在的关联将促进布什在半个多世界前所做的构想逐步转变为触手可及的现实。

2关联数据

2.1数据之间的关联

        互联网的创始人蒂姆·伯纳斯—李在《巨大全球图》(Giant Global Graph)一文中描述了其对网络的认识演变历程,他发现:“有趣的不是电缆,而是被电缆所连接的电脑……有趣的不是计算机,而是计算机中的文档……有趣 的不是文档,而是文档所表达的东西。”[3]网络正从文档之间的相互关联,发展到数据之间的相互关联,海量相互关联的数据将构成蒂姆·伯纳斯—李所设想的数据网络。[4]打破文档的禁锢,将文档中的原始数据释放出来,再在这些数据之间建立广泛的关联,将使得现有的万维网得以极大延展,将人们对于信息的检索、获取和利用从文档层面细化到数据层面。

2.2什么是关联数据

        关联数据指的是一系列在网络上发布并链接结构化数据的方法。[5]这一系列的方法中包括了语义信息的编码方法、发布方法和利用方法,这些方法合在一起便构成了语义网的一种简化实现[6]。关联数据的规范由国际互联网协会(W3C)维护,W3C推荐使用RDF作为关联数据的发布格式,并鼓励人们建立更多的RDF关联。以结构化数据为基础,经过语义化关联的关联数据将终结信息孤岛的现象,把现有的网络从一个分散的文件系统转变成一个分散的数据库系统。[7]

2.3怎样发布关联数据

        关联数据的创始人蒂姆·伯纳斯—李在其《关联数据》(Linked Data)一文中归纳了关联数据的四项准则:

  1. 使用URI作为任何事物的标识名称,不再仅限于对文档标识。
  2. 使用HTTP URI,使得人们可以参引这些全局唯一的名称。
  3. 当人们访问URI的时候,按照一定的标准(例如RDF或SPARQL)提供有用的信息。
  4. 提供对其他URI的链接,使得人们可以发现更多信息。

        只要数据满足了上面四个准则就是关联数据了。[8]准则1和2是强制性的规则, 关联数据的发布者可以给一切要发布到网络上的实体一个URI,并且这个URI是可以通过超文本协议(HTTP)访问的。准则3是元数据格式的推荐,W3C 推荐使用RDF作为标准的元数据格式,目前Schema.org的开发者谷歌、微软和雅虎公司则支持微数据(Mircodata)成为标准元数据格式。准 则4则是在网络上已有大量以关联数据格式发布的数据之后需要做的工作。任何数据都只要经过:1增加可通过超文本协议访问的URI标识,2转换为标准的关联 数据元数据格式,3创建与其他数据的关联,三个主要步骤便可以成为可以发布到数据网络中的关联数据了。

2.4广阔的数据海洋

        任何信息资源,不管其规模有多大,一旦成为封闭的孤岛,就会失去其投资与实际利用价值之间的平衡。[9]目 前,越来越多的机构、组织以及政府部门正在依循关联数据的发布准则,对外开放其数据并与其他机构所发布的数据进行关联。截至2011年9月19日,网络上 以W3C推荐的关联数据标准发布的关联数据集已经达到了295个之多,并且数据集的数量和数据集之间的关联都在快速增加着。[10]

 

图1关联数据集云图

        图书馆有悠久的信息资源管理和服务历史,在这场关联数据的运动之中,在未来的关联数据的无边海洋之中,图书馆将不再是一座孤立的岛屿,而是成为海洋中关键的一股浪潮,将同时是丰富的高质量数据提供者和由其他机构所发布的精彩数据的消费者。

3书目数据

3.1书目数据的演变

        书目数据是用来描述文献资源的数据,根据元数据就是“关于数据的数据”的定义,书目数据就是图书馆的馆藏资源的元数据。近现代以来,图书馆的书目数据经历 了几次变革:从账本式的图书目录发展为书目卡片,再从书目卡片发展成为支持计算机存储与检索的机读目录。书目数据的发展始终围绕着的是图书馆用户信息需求 的变化,每一次变革,归根到底都是因为旧的图书馆书目数据不再能很好的适应图书馆用户发现和获取信息的需求。

3.2书目数据的功能

          国际图联(IFLA)的《书目数据的功能需求》(FRBR)中将用户对于图书馆书目数据的功能需求总结为四项任务:查找、识别、选择和获取[11]。IFLA所提出的用户需求中,前三项任务与信息的发现过程有关,最后一项则与信息的获取过程有关,加上为了满足这四项任务所必需的信息描述,一起构成了书目数据的三个核心功能,无论书目数据怎样变革,这个项功能都是书目数据所必需具备的:

        描述:书目数据包含对资源的物理表现和内容的描述。

        发现:用户可以利用书目数据发现其所需求的资源。

        获取:用户可以利用书目数据获得资源的一个实体。

        美国国会图书馆在20世纪60年代开发了《机读目录格式》(MARC),正是因为MARC可以较好地实现这三项功能,而被全世界各国的图书馆普遍地采用直至今天。

        在一个不断网域化(Web-scale)的世界中,图书馆的书目数据的功能需求有了新的要求:“不仅需要能清晰地区别作品的概念和其物理表现,还需要能够清晰地标识作品实体以及和作品有关的其他概念。”[12]传统的图书馆资源描述,专注于采集与作品的概念和其物理表现有关的信息,严重依赖用文字作为标识符创建能够单独被理解的书目数据,这样的书目数据难以被关联利用。

        可以说,是图书馆给自己砌了一堵墙,在围城之内拥抱自己的书目数据,逐渐切断了与外界的沟通。如今,书目数据走向开放关联的努力正是为了打破这堵墙,让图书馆以开放、包容的姿态走向数据网络,这对图书馆的书目数据和图书馆人均是一个巨大的挑战。

3.3书目数据的潜力

         如果要将图书馆的书目数据以开放关联的形式发布到数据网络之中,图书馆需要把工作的焦点从获取和记录对图书馆资源的描述性信息转为在资源之间建立更多的 关联。图书馆书目数据的编目规则从《英美编目规则》第二版(AACR2)发展至资源描述和检索(RDA),其中体现了图书馆对其馆藏结构和书目数据结构的 认识改变:图书馆不再将书目数据限制为平面结构,不再人为地为资源实体“创造”各种指标和参数——而是将现实世界中的各种资源相互联系起来,组成一个多维 度的关系网。[13]建立在用“关系”将不同的“实体”相互关联的概念模型之上的书目数据与关联数据的理念是契合的,从而将图书馆推向了关联数据运动的浪尖。图书馆的分类法、词表和各种规范文档以及书目数据都具备发布成关联数据的潜质,世界各国的图书馆也在进行着这样的尝试。

4关联的书目数据

4.1国外图书馆的关联数据尝试

        英国国家图书馆、德国国家图书馆、联机计算机图书馆中心和美国国会图书馆等许多图书馆和图书馆组织在积极地进行开放关联数据的服务。

 bldatamodelbook

 

图2英国国家图书馆的图书关联数据模型

4.1.1英国国家图书馆

        开放关联的英国国家书目(Linked Open BNB)是英国图书馆正在开发的英国国家书目的一个版本,该版本的英国国家书目可以通过Talis平台以开放关联数据的形式被利用。

        英国国家图书馆的开放关联数据尝试尽可能地利用现有的本体词汇,并尽可能多地与已发布的关联数据集进行关联,在这样的思想指导下设计出了图书的关联数据模型(图2)[14]并提出了一套对现有MARC21格式的书目数据向关联数据转化的工作流程(图3)[15]

transform

 

图3英国国家图书馆的关联数据转化工作流程图示

        英国国家图书馆的开发关联数据服务,率先发布的书目数据选自于1950年以来出版的英国图书和期刊的英国国家书目中一个子集,目前已经发布了二百八十万条记录和一共89,733,617条三元组记录,并支持多种访问方式。[16]

4.1.2德国国家图书馆

        德国国家图书馆自2010年开始通过关联数据的方式发布其规范数据。2012年开始将其主要馆藏和期刊的书目数据进行转换。德国国家图书馆的关联数据可以支持图书馆专用协议(OAI、 SRU)访问,同时也提供公开访问方式。[17]

        德国国家图书馆选择的是分阶段地进行建模和数据转换,逐步地完善和扩展数据模型。书目数据并没有被完全地转换成RDF,只是选择了特定必须的与关联数据信息表示有关的元素进行建模和转换,尚未被转换的以字符串形式存在的值将在未来被逐步替换成URI。[18] 正在逐步建设的关联数据模型有一个重要的特点是根据资源类型的具体情况选择不同的本体词汇,提高了该模型的灵活性。以标题元素为例,如表1所示,根据资源的具体特性,德国国家图书馆的关联数据模型支持不同来源的本体词汇。

栏目内容 RDF元素
Kurztitel(短标题) bibo:shortTitle
Parallelsachtitel(并列标题) isbd:p1005
Einheitssachtitel oder Formalsachtitel统一标题或正式标题) dcterms:alternative

 

表1德国国家图书馆关联数据模型有关标题的部分(节选)

4.1.3联机计算机图书馆中心

        2012年6月20日,OCLC在升级WorldCat.org时,在其页面上添加了基于Schema.org的描述性标识,使得 WorldCat.org上的书目描述和OCLC之前的其他关联数据尝试成果VIAF、FAST、DDC之间实现了关联,同时也使得 WorldCat.org上公开的全部元数据资源都可以被网页爬虫访问,提升了搜索引擎在搜索索引和其他应用中利用WorldCat.org数据的效果。[19]WorldCat上的每一个条目都被嵌入了RDFa(RDF attribute)和Mircodata。

        OCLC的关联数据模型主要是利用了现有的Schema.org数据模型,同时在开发一个针对图书馆的扩展词汇集。[20]OCLC在不断地完善这个词汇集,用来配合由搜索引擎公司所建立的Schema.org数据模型,使之能够更好地满足图书馆的元数据实践需求。

4.1.4比较分析

        从上面列举出来的两个国家图书馆和一个图书馆组织的关联数据尝试中,可以看出这些图书馆和机构在将书目数据转换为关联数据方面采取了不同途径。

        本体词汇来源:英国国家图书馆尽可能多地利用了现有的本体词汇;德国国家图书馆则是逐步按照数据模型开发的需要增添新的本体词汇来源;不具有实体馆藏的联 机计算机图书馆中心则是直接采用了Schema.org的全套本体词汇,只在Schema.org不能满足其需求时才创建了一个图书馆扩展词汇集。

        与其他关联数据集的关联:英国国家图书馆创建了尽可能多的关联;德国国家图书馆则是随着其数据模型的不断完善而不断地建立新的关联;联机计算机图书馆中心只将其发表的书目数据和规范文档进行了关联,并未与其他机构发布的关联数据集进行关联。

        数据格式:英国国家图书馆认准了RDF/XML作为其唯一的数据格式;德国国家图书馆选择RDF作为元数据标准,但选择XML和turtle两种标识语言进行数据序列化:联机计算机图书馆中心则在RDFa之外还选择了Mircodata作为数据格式。

 

英国国家图书馆

德国国家图书馆

联机计算机图书馆中心

本体词汇来源

  1. Bibliographic Ontology
  2. Bio
  3. British Library Terms
  4. Dublin Core
  5. Event Ontology
  6. FOAF
  7. ISBD
  8. Org
  9. OWL
  10. SKOS
  11. RDF Schema
  12. WGS84 Geo Positioning
  13. RDA
  1. Bibliographic Ontology
  2. ISBD
  3. Dublin Core
  4. RDF Schema
  5. OWL
  6. FOAF

1.Schema.org

2. "library" extension vocabulary

实现关联的数据集

  1. VIAF
  2. LCSH
  3. Lexvo
  4. GeoNames
  5. MARC country
  6. MARC Language Codes
  7. Dewey.info
  8. RDF Book Mashup
  1. VIAF
  2. DBPedia
  3. LCSH
  4. REMEAU
  5. Dewey.info
  1. VIAF
  2. FAST
  3. Dewey.info

数据格式

  1. RDF/XML
  1. RDF/XML
  2. RDF/turtle
  1. Mircodata
  2. RDFa

 

表2英国国家图书馆、德国国家图书馆和联机计算机图书馆中心的关联数据项目比较

4.1.5美国国会图书馆

        2012年11月25 日,美国国会图书馆发布了《书目框架作为数据网络:关联数据模型和支持服务》报告,正式提出了将要用来替代MARC的新的书目数据模型BIBFRAME。[12] BIBFRAME目前还只是一份草案,但是作为MARC的替代者,BIBFRAME已经引起了国内外图书馆学界的关注和讨论。

4.2国内图书馆的关联数据研究

        刘炜对国内关联数据的研究与应用情况进行了扫描,目前国内图书馆界对于关联数据的研究尚不普及,现有的文献主要是对关联数据的介绍,只有少量涉及关联数据 技术实现的论文,现有的科研项目数量不多,大多是关联数据技术在各个领域应用的可能性探讨,并没有在图书馆实际运用关联数据技术的项目。[21]

5总结

        早在1945年,布什便在《诚如所思》一文中预示了未来的信息大爆炸,他构想出的MEMEX便是这样一台帮助人们面对单凭人类自身无法处理的复杂信息环境 的机器,以“关联”的方式帮助人们实现信息组织,以“联想”的方式帮助人们实现信息发现。如今的万维网和关联数据正是这样的技术,图书馆需要发布关联数 据,图书馆需要利用关联数据,图书馆人需要进一步研究和探索关联数据。

参考文献:

  1. Bush V. As We May Think[J]. The Atlantic Monthly, 1945 (7)
  2. 王之津, 李明珍. 情报学的不朽篇章———纪念《诚如所思》发表60 周年[J]. 情报理论与实践. 2005(1):1-5.
  3. Berners-Lee, T. Giant Global Graph [EB/OL].[2013-01-07]. http://dig.csail.mit.edu/breadcrumbs/node/215.
  4. Berners-Lee, T. On the Next Web[EB/OL]. [2013-01-07]. http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html.
  5. Bizer, C., Heath, T. & Berners-Lee, T. Linked Data—The Story So Far[J]. International Journal on Semantic Web and Information Systems. 5 (3): 1–22.
  6. 刘炜. 关联数据:意义及其实现[EB/OL]. [2013-01-07]. http://www.kevenlw.name/archives/1435
  7. Heath, T., Bizer, C. Linked Data: Evolving the Web into a Global Data Space[EB/OL]. [2013/01/07] http://linkeddatabook.com/editions/1.0/
  8. Berners-Lee, T. Linked Data[EB/OL]. [2013-01-07].  http://www.w3.org/DesignIssues/LinkedData.html
  9. 范炜. 走向开放关联的图书馆数据[J]. 图书情报知识, 2012(03):94-102.

        10. Cyganiak, R., Jentzsch, A. Richard Cyganiak and Anja Jentzsch[EB/OL]. [2013-01-07]. http://lod-cloud.net

        11. IFLA Study Group on the Functional Requirements for Bibliographic Records.Functional Requirements for Bibliographic Records : final report[EB/OL].[2013-01-07]. http://www.ifla.org/files/assets/cataloguing/frbr/frbr_2008.pdf

        12. Library of Congress. Bibliographic Framework as a Web of Data: Linked Data Model and Supporting Services[EB/OL]. [2013-01-07]. http://www.loc.gov/marc/transition/news/bibframe-112312.html

        13. 刘炜等. RDA与关联数据[J]. 中国图书馆学报, 2012(1):34-42.

        14. The British Library. British Library Data Model - Book[EB/OL]. [2013-01-07]. http://www.bl.uk/bibliographic/pdfs/bldatamodelbook.pdf

        15. The British Library. Linked Open BNB[EB/OL]. [2013-01-07]. http://www.bl.uk/bibliographic/datafree.html#lod

        16. Wilson,N. Establishing the Connection: Creating a Linked Data Version of the BNB[EB/OL]. [2013-01-07]. http://www.slideshare.net/nw13/establishing-the-connection-creating-a-linked-data-version-of-the-bnb

        17. German National Library. The Linked Data Service of the German National Library: Note regarding access[EB/OL]. [2013-01-07].

        http://www.dnb.de/SharedDocs/Downloads/EN/DNB/service/linkedDataZugriff.pdf

        18. German National Library. Modelling of Bibliographic Data[EB/OL]. [2013-01-07].  http://www.dnb.de/SharedDocs/Downloads/EN/DNB/service/linkedDataModellierungTiteldaten.pdf

        19. OCLC. Linked data at OCLC [EB/OL]. [2013-01-07]

        http://www.oclc.org/data.html

        20. OCLC. Experimental "library" extension vocabulary for use with Schema.org[EB/OL]. [2013-01-7]. http://www.essepuntato.it/lode/http://purl.org/library/

        21. 刘炜. 关联数据:概念、技术及应用[J]. 大学图书馆学报, 2011(2):5-12.





收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻       关联数据 
本文评论   查看全部评论 (2)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款