RDF——Web数据集成的元数据解决方案[1]

[入库:2005年8月18日] [更新:2007年3月24日]

本文简介:选择自 net_lover 的 blog

rdf——web数据集成的元数据解决方案 一. 引言
在现今的社会中,信息无处不在,从这些信息中获取对自己有用的信息并不是件容易的事。当然也有例外的,比如,在图书馆里你可以根据书名或作者名或关键字的信息找到藏书号,从而很容易找到所要的书,在音像店里你可以根据片名、主演等信息方便的找到自己所要的影碟。这两个系统有一个共同的特点——它们都是建立在元数据之上。
元数据是关于数据的数据或关于信息的信息。例如:书的文本就是书的数据,而书名、作者、版权数据都是书的元数据。元数据并不一定就是用来检索的,也可用于内部的管理,如图书馆系统可以为书定义被借次数这个元数据,以了解书的被借阅情况,确定是否要增加副本数。元数据的使用,可以大大提高系统的检索和管理的效率。
网络是个大的数据库,它里面包含的数据比起图书馆和音像店来可要复杂的多,五花八门,什么都有,但有一个问题——网络基本上没有元数据。那搜索引擎是怎么工作的呢?其实,搜索引擎中除极少数如yahoo!外,基本上都是采用网页的全文检索来提供检索服务,这就可想而之其查准率之低了。yahoo! 将其收集到的网站及网页分门别类加以索引和文摘(由人工完成),从而大大提高了查准率,这也是其流行的一个重要原因。但对如此浩瀚的信息海洋若都采用人工标引显然是不现实的,所以我们用yahoo!检索的时候查全率不如象altavista、infoseek这样的搜索引擎高,原因是其收录的网站网页数量有限。如果网络上的资源在创建之初就都使用元数据来描述其自身的信息,那不就可以省去人工标引的麻烦吗?是的,但是怎样用元数据来描述,这得有个标准, w3c提出的用于描述web资源的rdf(resource description framework 资源描述框架)就是这样的一个标准,rdf给出了web数据集成的元数据解决方案。
 
二. rdf简介
rdf的含义就是描述资源的框架(framework for describing resources),下面我们逐个来看这三个词的意思。
资源(resource):所有在web上被命名、具有uri(unified resource identifier 统一资源描述符)的东西。如网页、xml文档中的元素等;
描述(decription):对资源属性(property)的一个陈述(statement),以表明资源的特性或者资源之间的联系;
框架(frameword):与被描述资源无关的通用模型,以包容和管理资源的多样性、不一致性和重复性。
综合起来,rdf就是定义了一种通用的框架,即资源—属性—值的三元组,一不变应万变,来描述web上的各种资源。
下面我们来看一个简单的rdf的例子:
<rdf : description about='http://www.textuality.com/rdf/why-rdf.html'> (指明被描述资源的uri)
<author> tim bray </author> (被描述资源有一个叫author即作者的属性,其值是tim bray)
<home-page rdf:resource='http://www.textuality.com/'> (被描述资源有一叫home-page即主页的属性,其值指向另一资源)
</rdf: description> (结束标志)
 
三. rdf实现web元数据描述与交换的机制
3.1 rdf的两大关键技术
rdf有两大关键技术——uri和xml。uri是web资源的唯一标识,它是更常用的统一资源定位符url的超集,除了网页以外,它还可以标识页面上的元素、书籍、电视等资源,甚至可以标识某一个人。在rdf中,资源无所不在,资源的属性是资源,属性的值可以是资源,甚至与一个陈述也可以是资源,也就是说,所有这些都可以用uri标识,可以再用rdf来描述。那rdf怎样放在网络上让人使用呢?xml作为一种通用的文件格式承担了这个责任,它定义了rdf的表示语法,这样就可以方便的用xml来交换rdf的数据。
3.2 词汇集
我们可以看到,rdf只定义了用于描述资源的框架,它并没有定义用哪些元数据来描述资源。这正是其高明之处。因为显然描述不同资源的元数据是不同的,而如果要定义一种元数据集,包括所有种类的资源,这在目前还是不现实的,不但工作量巨大,而且即使定义出这样的元数据集,能不能被大家采纳还是个问题,因为对于图书馆这样已经用元数据描述其资源的系统,要放弃原来的元数据集采用一种新的元数据集,其工作量是可想而知的,估计实施过程中遇到的阻力会很大。
rdf采用的是另外一种方法,即它允许任何人定义元数据来描述特定的资源,由于资源的属性不止一种,因此实际上一般是定义一个元数据集,这在rdf中被称作词汇集(vocabulary),词汇集也是一种资源,可以用uri来唯一标识,这样,在用rdf描述资源的时候,可以使用各种词汇集,只要用uri指明它们即可。当然,各种词汇集的受欢迎程度可能不同,有的也许只是被定义它的人使用,有的却由于其定义的科学性为许多人所接受,如以类似图书馆卡片目录的方式来定义资源的词汇集dublin core,定义教育内容ims元数据,定义个人信息的v-card元数据等。既然词汇集是资源,当然可以用rdf来描述它的属性以及和其他词汇集间的关系,w3c为此特地提出rdf schema来定义怎样用rdf来描述词汇集,也就是说rdf schema是定义rdf词汇集的词汇集,但这个rdf schema可不是随便什么人都可以定义的,它只有一个,就是w3c定义的版本。例如:
http://mymetadata.vocab.org/author
---rdfs: subpropertyof --->
http://purlorg/dc/elements/1.0/creator
即表示某人自己定义的元数据author是dublin core的元数据creator的特殊形式。rdf schema正是通过这样的方式来描述不同词汇集的元数据之间的关系,从而为元数据交换打下基础。
3.3 实现机制
到这里我们就可以发现rdf是怎么来实现web上的元数据描述和交换的了:它使用xml语法,首先指定词汇集的uri,词汇集可以是多个,视需要而定,再使用指定的词汇集来描述资源,不同的词汇集间怎么联系呢?用rdf schema。
为了更加清楚的理解这个机制,下面我们来看一个用xml表达的rdf的例子:
<rdf :rdf
xmlns :rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns
xmlns:dc="http://www.purl.org/dc/" (词汇集1的uri)
xmlns:nm="http://www.metalab.unc.edu/xml/names/"> (词汇集2的uri)
 
<rdf :description about="http://www.metalab.unc.edu/xml" > (被描述资源的uri)
<dc:creator parsetype="literal"> (用词汇集1的元数据creator描述作者属性)
<nm:firstname> elliotte</nm:firstname>(用词汇集2的元数据描述作者的姓名属性)
<nm:middlenmae> rusty</nm:middlename>
<nm:lastname> harold</nm:lastname>
</dc:creator>
</rdf :description>
</rdf :rdf>
 
四. rdf的特点
4. 1易控制
rdf使用简单的资源—属性—值三元组,所以很容易控制,即使是数量很大的时候。这个特点很重要,因为现在web资源越来越多,如果用来描述资源的元数据格式太复杂,势必会大大降低元数据的使用效率,其实从功能的角度来看,完全可以直接使用xml来描述资源,但xml结构比较复杂,允许复杂嵌套,不容易进行控制。采用rdf可以提高资源检索和管理的效率,从而真正发挥元数据的功用。
4. 2易扩展
在使用rdf描述资源的时候,词汇集和资源描述是分开的,所以可以很容易扩展。例如如果要增加描述资源的属性,只需要在词汇集中增加相应元数据即可,而如果使用的是关系数据库,增加新字段可不是件容易的事情。
4.3包容性
rdf允许任何人定义自己的词汇集,并可以无缝的使用多种词汇集来描述资源,以根据需要来使用,使各尽其能。比如,在上个例子里描述网页资源时用dublin core 描述其作者属性,而在描述作者的姓名时又使用了另外一个专门描述人的词汇集来描述。
4. 4可交换性
rdf使用xml语法,可以很容易的在网络上实现数据交换;另外,rdf schema定义了描述词汇集的方法,可以在不同词汇集间通过指定元数据关系来实现含义理解层次上的数据交换。
4. 5易综合
在rdf中资源的属性是资源,属性值可以是资源,关于资源的陈述也可以是资源,都可以用rdf来描述,这样就可以很容易的将多个描述综合,以达到发现知识的目的。例如,在描述某书籍时指明其作者属性值是另一资源,我们就可以根据描述作者的uri来获得作者的信息,如毕业院校等,从而知道这本书是某一院校的毕业生写的,于是在表面上看来没任何关系的两者间建立的联系,而这种联系往往是知识发现的前奏。
 
五. rdf与若干web新技术
5. 1 rdf与资源发现(resource discovery)技术
rdf采用简单的资源—属性—值三元组来描述资源,试想,如果web上的资源都用rdf进行描述,由于rdf采用xml语法,这样就可以很容易的实现资源的自动搜索,而不需要进行人工进行标引,并且可以达到很高的查全率和查准率;另外,rdf描述可以很容易进行综合,产生表面不易观察出来的信息。所有这些都将对资源发现技术产生革命性的影响。
5. 2 rdf与个性化服务

本文关键:javascript,object
  相关方案
Google
 

本站最佳浏览方式为 分辨率 1024x768 IE 6.0(或更高版本的 IE浏览器)

go top