语义网
能理解人类语言的智能网络
简单地说,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。
简介
“语义网”是计算机和互联网界在描述下一阶段网络发展时所使用的术语。所谓“语义”就是文本的含义。语义网就是能够根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络。通过“语义网”,可以构建一个基于网页内数据语义来进行连接的网络,从而使网络能按照用户的要求自动搜寻和检索网页,直至找到所需要的内容。
在语义网中,网络变得聪明了,似乎被置入了某些推理能力。或许将来某个时候,具备人工智能的软件代理人会替你在线处理所有繁杂的商业和个人事务。
语义网是万维网的延伸,不仅可用自然语言表现网络内容,而且这些内容还可以被软件代理人(software agent)所阅读和使用。万维网的创始人蒂姆·伯纳斯·李将网络看做一种数据、信息和知识交换的万有媒介,可以说,语义网完全符合他的这一梦想。
语义网的第二个重要元素是促进生产力。一旦计算机知道您的参数并且它在网上有一个语义描述,它就能根据规则给你一个精确,私人化的结果。更加困难的是,您个人的爱好是一个从电脑返回的数据的过滤器: 找一个预算在3000元以下的旅行计划,如果这些都实现了,那我们可以宣布语义网时代已经到来了。
基本特征
1、语义网不同于现在WWW,它是现有WWW的扩展与延伸。
2、现有的WWW是面向文档而语义网则面向文档所表示的数据。
3、语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。
4、内容的可获取性,即基于本体论而构建的语义网网页目前还很少。
5、本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题。
6、内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等。
7、多语种支持。
8、本体语言的标准化。
体系结构
第一层
第一层:Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。第二层
第二层:XML+NS+XMLschema。XML是一个精简的SGML,它综合了SGML的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XMLSchema是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。第三层
第三层:RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。第四层
第四层:本体论 vocabulary。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。第五至七层
第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。
研究现状
我们知道,大部分科技创新和突破是对已有知识的重新组合和更新,具有对网络空间所储存的数据进行智能评估能力的语义网,必然会为新的科技创新提供无尽的资源。一旦这种技术被广泛运用,其产生的效益无可估量。因此,语义网从诞生之日起,便成为计算机研究的热点领域。
W3C组织(WorldWideWebConsortium)是语义网主要的推动者和标准制定者,在它的呵护之下,语义网技术羽翼渐丰。2001年7月30日,美国斯坦福大学召开了题为“语义网基础设施和应用”的学术会议,这是有关语义网的第一个国际会议。2002年7月9日,在意大利召开了第一届国际语义网大会。此后语义网大会每年举行一次,形成惯例。同时,HP、IBM、微软富士通株式会社等大公司,斯坦福大学、马里兰大学、德国卡尔斯鲁厄理工学院、英国曼彻斯特大学等教育机构都对语义网技术展开了广泛深入的研究,开发出了jena、KAON、Racer、Pellet、Protégé等一系列语义网技术开发应用平台、基于语义网技术的信息集成以及查询、推理和本体编辑系统。
中国也非常重视语义网的研究,早在2002年,语义网技术就被国家863计划列为重点支持项目,清华大学东南大学、上海交通大学和中国人民大学都是国内语义网及其相关技术的研究中心。东南大学的语义网本体映射研究有一定的国际影响,清华大学的语义网辅助本体挖掘系统SWARMS、上海交通大学的本体工程开发平台ORIENT都代表了国内语义网研发水平。
技术应用
语义网一开始就肩负着改造现有万维网的重任,它正在逐渐改变和影响我们现有的万维网。RSS、CC以及Powerset这些语义网支撑技术都让我们切实感受到了迎面扑来的语义Web之风,使我们普通用户享受到了语义网技术所带来的便捷,听到了它越来越近的脚步声。
RSS是目前最成功的以语义网支撑技术为基础的应用,是站点用来和其他站点共享内容的一种简易方式。用户只要安装rss阅读器,它就会自动收集和组织用户定制的新闻,按照用户希望的格式、地点和时间直接传送到用户的计算机上。目前国内外大型门户网站如新浪搜狐、网易等都支持RSS应用,标记为“XML”或“RSS”的橙色图标就是该网站支持RSS应用的记号。
知识共享(CC)版权识别是语义网技术的另一个现实应用。非营利性组织“知识共享组织”旨在为创造性作品提供灵活的著作权许可协议。2006年3月,中国大陆版CC发布。基于语义网支撑技术RDF的CC搜索引擎,能自动识别和理解作品版权信息,为用户合法使用具有不同级别的知识产权网络作品提供了极大方便,例如在线图片存储网站巴巴变(bababian.com)就已经集成了CC中国大陆版许可协议,“巴巴变”的用户可以选择知识共享中国大陆项目提供的许可协议,授权他人使用自己拥有著作权的图片作品。
刚问世就被称为“谷歌杀手”的Powerset,则是巴尼·佩尔(BarneyPell)追逐的一个关于自然语言搜索引擎的梦想。38岁的佩尔认为,Google只能通过关键字来搜索,不能分辨“儿童看的书”、“儿童写的书”和“关于儿童的书”之间的区别,而自然语言引擎却能够分析“功能词”,理解哪怕是最小的关键词的意思。他相信Powerset搜索引擎很快就可以推向市场,成为语义网的催化剂。
除了上述语义网技术的成功应用外,目前有希望的语义网应用研究还集中在Web服务、基于代理的分布式计算以及基于语义的数字图书馆等方面。
语义网虽然是一种更加美好的网络,但实现起来却是一项复杂浩大的工程。面对纷繁复杂的问题,人尚且难以决断,更何况计算机呢。况且,决定技术发展方向的是用户体验,而不是理论。要真正实现实用的语义网,还有很多难题亟待解决,有些暂时还看不到解决的希望。语义网的研究开发基本上还停留在实验室阶段,成熟的语义网技术商业应用产品并不多见,各大软件生产商对其应用还处于观望期。但是,随着对语义网体系结构、支撑技术和实现方法的不断突破,基于语义网支撑技术的相关应用会日趋成熟,在不久的将来,计算机一定能看懂并处理网页中的内容,伯纳斯·李所期盼的人们将更方便快捷地使用万维网发布和获取信息的理想,也一定会成为现实。
未来面临的挑战
1 第一代Web
WWW (World Wide Web),又称万维网,简记为Web,是构建在Internet上采用浏览器/服务器网络计算模式,访问遍布在Internet计算机上所有链接文件。1989年,在日内瓦欧洲粒子物理实验室工作的蒂姆·李发明了最初的Web。第一代Web发明了超文本格式,把分布在网上的文件链接在一起。这样用户只要在图形界面上点击鼠标,就能从一个网页跳到另一个网页,使得通过互联网浏览文档成为可能,这时的Web以HTML语言、URL和HTTP等技术为标志,以静态页面的平台形式来展现信息。2 第二代Web
第二代Web以动态HTML语言、ECMAScriptVBScript、ActiveX、API、CGI等技术为标志。它允许用户通过交互查询数据库并将数据库中符合要求的结果动态地生成页面,展示给用户。这极大增强了Web处理大规模数据的能力。Web由一个展示信息的平台真正变成了信息处理的平台,极大促进人们的信息交流与共享。3 第三代Web
Web是一个庞大的知识库,Web已经成为人类获取信息和得到服务的主要渠道之一。但是Web并非已经尽善尽美,仍然存在很多尚待解决的问题。
3.1Web信息无法被自动处理。当前的Web无论是静态的HTML网页,还是动态生成的网页,其目的都是供人阅读。以往的Web技术都忽略了计算机的处理作用,计算机在其中主要扮演了展现信息的作用,而没有理解和处理Web信息的能力。
3.2Web信息无法被有效利用。面对Web庞大的知识库,对信息的有效利用提出了巨大挑战。基于传统技术的搜索引擎已经无法应对Web这个日益庞大的知识库。以最强大的搜索引擎谷歌来说,它目前能搜索80亿之多的Web页面,但这仅仅占整个Web规模的25%~30%,也就是说还有大量的信息无法被搜索到。同时,由于计算机无法精确识别Web上的内容,当前搜索引擎返回的结果中,存在许多垃圾信息,搜索结果和质量并不令人满意。
由此可见,现在的Web只是定位和展示信息的作用,对信息的内容并不关心。而事实上,人们真正关心的是信息的内容。只有对信息内容的含义进行描述,才能实现智能化的Web服务。为此,蒂姆·李在2000年又提出了语义网。所谓“语义”,就是文本的含义。“语义Web”,就是能够根据语义进行判断的网络。简单地说,语义Web是一种能理解人类语言的智能网络,被人们称为第三代Web。在语义网环境下,Web上定义和链接的数据不仅能显示,而且可以被机器自动处理、集成和重用。只有当数据不仅可以被人而且可以被机器自动地共享和处理的时候,Web的潜力才发挥到极致。
根据Berners-Lee的设想,语义网是由一种分层的体系结构构成,如图1所示。这是一个功能逐层增强的层次化结构,由七个层次构成。
(1)URI和Unicode。URI是Web的核心概念之一,它能够唯一地标识Web上的任意一个资源,其思想是在需要的时候通过链接引用资源,因此不需要对资源进行拷贝或集中管理。Unicode是一种新的字符编码标准,它支持世界上所有的语言。无论在什么平台上,无论在什么程序中,无论使用什么语言,每个字符都对应于一个唯一的Unicode编码值。因此,它是语义网多语种支持的基础。
(2)XML、名称空间(NS)和XML Schema。XML提供文档结构化的语法,实现了文档结构与文档表现形式的分离,根据不同的目的同一个文档可以有不同的表现形式。XML名称空间是名称的一个集合,用于文档元素和属性名有效性的验证,由URI引用来标识。XML Schema是约束XML文档结构的语言。
(3)RDF(S)。XML实现了文档结构化,但文档信息并不包含任何语义。RDF数据模型提供简单的语义,RDF属性可以看作是资源的属性,同时又表达了资源之间的关系,因此RDF数据模型对应于传统的属性二值对,又类似于ER图。RDF Schema为RDF模型提供了一个基本的类型系统,其目的就是定义资源的属性,定义被描述资源的类,并对类和关系的可能组合进行约束,同时提供约束违例的检测机制。
(4)本体层。虽然RDF(S)能够定义对象的属性和类,并且还提供了类的泛化等简单语义,但它不能明确表达描述属性或类的术语的含义及术语间的关系。本体层就是要提供一个能明确的形式化语言,以准确定义术语语义及术语间关系。
(5)逻辑、证明和信任。除了本体层定义的术语关系和推理规则外,还需要有一个功能强大的逻辑语言来实现推理。证明语言允许服务代理在向客户代理发送断言的同时将推理路径也发送给客户代理。这样应用程序只需要包含一个普通的验证引擎就可以确定断言的真假。但是,证明语言只能根据Web上已有的信息对断言给出逻辑证明,它并不能保证Web上所有的信息都为“真”。因此,软件代理还需要使用数字签名和加密技术用来确保Web信息的可信任性。
(6)数字签名和加密。数字签名简单地说就是一段数据加密块,机器和软件代理可以用它来唯一地验证某个信息是否由特定的可信任的来源提供。它是实现Web信任的关键技术。公共密钥加密算法是数字签名的基础。
语义Web最大优点是可让计算机具有对网络空间所储存的数据,进行智能评估的能力。这样,计算机就可以像人脑一样“理解”信息的含义,完成“智能代理”的功能。使用语义Web 搜索引擎搜索的结果比Web更为精确。
语义Web提供了一种崭新的信息描述和知识表达的手段,而要在语义层次上实现信息的互操作,就需要对信息涵义的理解达成一致。语义Web采用了本体(本体论)的思想,本体描述的是具有共识的、概念化的事物,它对实现语义层次上的知识共享、知识重用发挥着核心作用。
语义Web具有一些基本特征:a.语义Web不同于现有Web,它是现有Web的扩展与延伸;b.现有的Web面向文档,而语义Web则面向文档所表示的内容和语义(独立于表示的语法);c.语义Web将更利于计算机“理解与处理”,并将具有一定的判断推理能力。
语义Web的目标是让Web上的信息能够被机器理解,从而实现Web信息的自动处理,以适应Web信息资源的快速增长,更好地实现人和计算机的交互与合作。近年来,无论在国际上,还是在国内,人们对语义Web及其关键技术和应用的研究正在如火如荼,语义Web的支撑软件与应用开发日益受到重视,语义Web被看作是新一代的信息基础设施,被人们称为第三代Web。
语义Web汲取人工智能、哲学和逻辑学等学科的研究成果,试图对Web上的信息和获取方式进行重大改进,解决目前Web存在的问题。虽然语义Web未来的发展难以预测,但人类应该对所有的可能做出努力。也许正如语义网领域内的一种说法,就算人类只能解决1%的问题,随着Web的普遍使用,也将会给社会带来巨大的效益。我们期待着语义网的美好明天将会早日到来。
相关产品
1、Freebase
2010年七月,谷歌收购了一家语义技术领先公司Metaweb。Metaweb运营着一个开放的语义信息数据库Freebase。Freebase和维基百科类似,不同的是,它完全专注于结构化数据及个人用户可行性操作。Google此前已和Freebase建立合作关系,引入Freebase的信息,在谷歌新闻里提供智能搜索结果。在完成对Metaweb的收购后,谷歌现在可以更充分地利用Freebase的工具和数据,尤其是在基本的Web搜索结果范畴。Freebase也是去年语义网十大产品之一,能被谷歌收购,正是其发展潜能的证明。
2、GetGlue
对GetGlue来说,2010年是个转折点。在GetGlue网上,用户在观看电视节目、阅读书籍、听音乐时候都可以“签到”。去年十一月,GetGlue改换品牌名称,并启用新网站。一夜之间,它从一个名为Blue Organizer的浏览器插件摇身变为名为“GetGlue”的目标网站。随后不久,它又推出了移动应用程序,用户在观看电视时或者在娱乐场所都能登录应用GetGlue。品牌变更给GetGlue带来良好的效应。今年,GetGlue的用户量呈现出强劲的增长势头,截至九月末用户人数已超过60万。3、Flipboard
2010年iPad的问市激起了应用软件界新一波的革新浪潮。Flipboard是一款专为iPad开发的杂志阅读应用程序。很少有创业公司能像Flipboard如此充分地利用触摸屏用户界面,为客户创造无与伦比的体验。原来Flipboard不仅外观精美,而且采用了语义技术。Flipboard收购了语义技术新创公司Ellerdale,其智能资料剖析算法在此之前已被应用于实时搜索引擎的创建及趋势追踪。Ellerdale公司的技术被Flipboard用于设计更具个性化的实时体验,能够为您选择重要的最新社会新闻,然后以您熟悉的酷似杂志的布局呈现出来。4、Hunch
Hunch最初提供问答(Q\u0026A)服务,今年八月它进行了重新定位,将自己定义为一个提供个性化服务的产品:是能向你展示你喜欢的电影、书籍、度假地点及其他类似项目的推荐引擎。该公司的目标是“将互联网上的每个人和每个目标进行比配,即使是一个产品、一项服务、一个人。”共同创始人Caterina Fake十月份透露,Hunch通过另一种搜索方式即决策树模型,为用户提供更多个性化信息。
5、Apture
Apture是一家提供语义语境搜索引擎服务的公司,它一直保持着强劲发展的势头(去年它也位列十大语义网产品之一)。今年八月,Apture推出了一款新插件Apture Highlights,能让用户深入了解在网络上任一网页上发现的主题。早几年前,当我们第一次关注Apture时,它还只是一家网络服务公司,要求发布者上传弹出式窗口链接时自我选择是否加载多媒体。随着八月份Apture Highlight的问世,Apture现已消除此项限制。一切均自动化,此插件几乎处处可用。
6、Facebook
四月份Facebook公布了一个大规模的新平台Open Graph(开放图谱),这成为语义网本年度最重大的新闻。Open Graph通讯协定的预期目标是让发布者能够将个人网页整合到社交图中去。实质上,现在每个网页都可以成为一个Facebook的社交图“对象”(社交图是Facebook对于人们在其网络系统中如何联系彼此所用的专业术语。)这意味着在所有社交网用户个人资料页、博客文章、搜索结果、Facebook个人主页信息流等等中的网页都可以被引用和相关联。Open Graph是一个涉猎广泛的平台,包括诸如“赞”按钮和为发布商提供的插件等。它还包括一个简单的、基于RDF的标记。这就要求发布者的每个发布项至少包含4个元数据属性:名称、类型、图像、网址,还有一些额外的属性,如:域名和描述,可能有选择地进行补充和说明。
7、谷歌 Squared
在网络搜索技术中人们梦寐以求的目标是能够以自然的语言提出一个简单的问题,并得到一个简单的答案。五月份,Google宣布将Google Squared添加到其搜索结果中。2009年推出的Google Squared为Google的搜索结果添加了额外的信息。Google通过两个层面将该功能添加到其传统搜索结果中:首先,简单的查询,如:凯瑟琳·泽塔-琼斯的出生日期,这将在搜索结果中引出有用的数据:通过点击基于Squared提供的结果的“显示来源”,来源列表会向您显示Google是如何找到这个答案的。其次,谷歌 Squared还被用于为Google工具条(2010年搜索巨头的另一创新)增加“不一样”的新功能:此功能提供了相关搜索,列出您可能感兴趣的清单,由您确定当前的搜索关键词。Google也通报了Rich Snippets功能上的增强,Rich Snippets功能同样也为谷歌的搜索结果增添了新信息——点评类数据。
2010年的热议主题之一是语义网技术越来越多的被Facebook和谷歌这类大型商业公司所用。美国领先的零售商百思买(Best Buy)是另一个在2010年凭借运用语义技术给人们留下深刻印象的大公司。具体来说,Best Buy采用了RDFa的语义网标记语言,从而向网页中加入语义。
BestBuy.com首席网站开发工程师Jay Myers今年早些时候接受读写网采访时说,使用语义技术的主要目标是提高BestBuy产品和服务的知名度。通过使用RDFa标记如商店名称、地址、商店营业时间和地理数据的数据,搜索引擎能够更容易的确定每个组件数据,从而将它们投入语境。Myers告诉我们,语义技术的使用,使得交易量增加,而他们也能更好的服务于客户。
9、Data..govuk
2010年一月,由女王陛下政府支持的Data.gov.uk发布非个人数据采集应用,可供软件开发商使用。半年后,美国政府推出了Data.gov,但是从一开始这个网站就拥有三倍以上的数据。发布时,Data.gov.uk已有近3000套数据集可供开发商用于混搭。到今年年底,数据集已超过4600。Data.gov.uk是链接数据库的亮点之一。组织或政府向网络上传数据时,以能够被再次使用和建立的形式进行上传。链接数据库仅是广泛语义网发展的一小子集。
10、英国广播公司世界杯网
2010年体育界的盛事就是被媒体广泛报道的世界杯。BBC2010年南非世界杯网站采用“动态语义发布”技术来提升加强其每日世界杯报道。该网站有700多个专题网页,都由一个语义发布框架所支持。它包含一个综合本体(即一个概念图),动态输出自动化元数据驱动网页。这是一个让人印象深刻的实证:一个大型的主流的网站是怎样增加意义及结构的?
参考资料
目录
概述
简介
基本特征
体系结构
研究现状
技术应用
未来面临的挑战
相关产品
参考资料