《語義網技術體系》簡要回顧萬維網的發展歷史及體系結構,系統介紹語義網的基本理念及技術體系,包括 RDF數據、Web本體、語義網推理技術和 RDF數據查詢技術等方面的基本概念和前沿研究;詳細闡述語義網應用中的基礎技術,包括語義網搜索技術、語義網本體匹配技術和語義網瀏覽技術,并介紹作者在語義網搜索、語義網本體匹配和語義網瀏覽方面的研究成果.
《語義網技術體系》適合于語義網及相關領域的研究人員語義網應用開發者以及想要深入了解語義網技術體系的讀者.《語義網技術體系》也可作為信息技術類學科的研究生與高年級本科生相關課程的參考用書.
前言
第1章 緒論
1.1 萬維網簡介
1.2 Web應用開發技術
1.3 語義網簡介
1.4 語義網應用
1.5 本書組織
參考文獻
第2章 RDF數據
2.1 RDF數據模型
2.2 RDF語法
2.3 RDFa
2.4 鏈接數據
2.5 鏈接數據平臺
2.6 語義網鏈接結構分析
參考文獻
第3章 Web本體
3.1 本體
3.2 RDFS
3.3 OWL
3.4 本體構建
3.5 本體維護
參考文獻
第4章 語義網推理技術
4.1 RDFS推理
4.2 描述邏輯簡介
4.3 OWL1DL
4.4 OWI2DL
4.5 基于規則的推理
參考文獻
第5章 RDF數據查詢技術
5.1 SPARQL查詢語言
5.2 RDF數據存儲技術
5.3 SPARQL查詢處理技術
5.4 基于規則的查詢應答技術
參考文獻
第6章 語義網搜索技術
6.1 實體搜索技術
6.2 關聯搜索技術
6.3 SPARQL查詢的生成技術
6.4 本體搜索技術
參考文獻
第7章 語義網本體匹配技術
7.1 本體匹配
7.2 語義網對象的共指消解
7.3 本體與關系數據庫間的匹配
參考文獻
第8章 語義網瀏覽技術
8.1 典型的語義網瀏覽器
8.2 語義網瀏覽器的基本功能
8.3 語義網瀏覽系統SView
8.4 語義網瀏覽技術的發展方向
參考文獻
第9章 總結與展望
附錄 常用縮略詞及中文譯名
第1章 緒論
本章首先回顧萬維網的發展歷史及體系結構,簡述萬維網應用開發技術;接著,概述語義網及其技術體系,并簡要介紹語義網應用現狀;*后說明本書內容框架是如何組織的。
1.1 萬維網簡介
1990年,蒂姆 伯納斯-李(Tim BrnersgLeee )在歐洲粒子物理實驗室(CERN)成功地實現了萬維網(World Wide Web,WWW 或 Web)的一個原型系統。按照蒂姆的*初設想,萬維網是一個包含互相鏈接的超文本文件的系統,這些文件可以通過互聯網(Internet)訪問。1993年,美國國家超級計算應用中心(NCSA)發布了一個稱為“Mosaic”的萬維網瀏覽器,它是**個能夠在同一窗口中顯示圖像和文本的瀏覽器。同年,CERN 宣布萬維網技術可以被任何人自由地使用,無需付費。1994年,萬維網聯盟(World Wide Web Consortium,W3C)宣告成立,它致力于開發高品質的技術標準,以引領萬維網充分發揮其潛力。從此,萬維網很快發展成為人類有史以來*龐大的信息系統,并改變著人類社會的方方面面。
在萬維網出現之前,歷***著名的超文本/超媒體系統為道格拉斯 恩格爾巴特(Douglas Engelbart)于1968年演示的在線系統(oNLine Sstemy ,NLS)。該系統首次向公眾展現了計算機鼠標、超媒體和屏幕上的視頻會議等多項嶄新技術。而超文本(hypertext)和超媒體(hypermedia)這兩個技術名詞是由西奧多 納爾遜(Theodor Nlsone )于1963年定義的。在20世紀60年代,隨著計算機文字處理系統的發展,誕生了多種標記語言,包括國際商業機器公司(IBM)的通用標記語言(General izedmarkup language,GML),它的基本思想是把文檔的內容結構與樣式分開,推崇描述型標記,提倡標記的嚴格性和使用的靈活性。標準的通用標記語言(standard generalized markup language,S-ML)正是以-ML為藍本制定的,于1986年成為國際標準化組織的一個標準(ISO8879:1986)。也正是在20世紀80年代,以 TCP/IP(傳輸控制協議/互聯網協議)為基礎的互聯網逐步形成并快速發展起來。
在發明萬維網時,蒂姆 伯納斯-李的出發點是將超文本嫁接到互聯網上,并提出一個互相鏈接的超文本文件系統的設想,這些文件可以通過“瀏覽器”來查看,為此,他設計了超文本標記語言(hypertext markup language,HTML)用來書寫萬維網中的文件。事實上,HTML是一個基于 S-ML的標記語言,可提供有限種標記,支持超鏈接并注重文本的呈現效果。為了統一地標識萬維網中的文件,蒂姆又提出了通用文件標識符(universal document identifier,UDI)。后來,UDI演變為統一資源定位符(uniform resource locator,URL),逐漸地 URL 被統一資源標識符(uniform resource identifier,URI)所替代。URI可以用來標識任何需要標識的資源。由于 URI被限制在 ASCII字符集的一個子集,因此國際化資源標識符(internationalized resource identifier,IRI)被提出來。IRI可以容納通用字符集(ISO/IEC10646),其中包括漢字、韓文和斯拉夫字母等。目前,絕大部分的IRI仍然是URI,因此本書是以 URI替代IRI來闡述相關技術。
為了讓互聯網用戶能夠按照一種規范的方式訪問萬維網中的文件,蒂姆及其合作者設計了超文本傳輸協議(hypertext transfer protocol,HTTP)。HTTP是一種建立在TCP之上的應用層協議,是一種請求/響應式的協議。通常,一個Web站點(簡稱網站)是指互聯網上的某個計算機系統,實現了 HTTP服務端接口,并提供諸多網頁,包括 HTML文件以及其他可訪問的文件,供互聯網用戶使用Web瀏覽器(簡稱瀏覽器)來查看。而一個瀏覽器不僅要實現 HTTP客戶端接口,而且能夠對接收到的網頁按照其格式呈現出來。至1990年年底,蒂姆 伯納斯-李在CERN實現了世界上**個瀏覽器(稱為“World Wde Wi eb”,后來改名為“Nextus”)和**個 HTTP服務器軟件(稱為“CERNhttpd”),并開發了世界上**個網站(網址:http://info.cern.ch),這也標志著萬維網的誕生。
作為互聯網上的一個分散式信息系統,萬維網具有跨平臺和開放等特性,并具備優異的易用性和易擴展性,這使得萬維網很快發展成為人類有史以來*龐大的超媒體信息系統。作為互聯網上**影響的一種應用,萬維網也反過來拉動了互聯網的發展壯大。緊接著,萬維網的商業化應用掀起了互聯網經濟的浪潮。
關于萬維網的原創設計及終極命運,建議讀者閱讀文獻(Berners-Lee& Fis-chetti,2000)。該文獻能夠幫助大家理解萬維網的本質,充分利用萬維網發揮效用。在該文獻中,萬維網創始人蒂姆 伯納斯-李不僅指出了在萬維網上找到商業和社會力量之間理想平衡的需要,而且還對萬維網當前狀態提出了一些批評意見。*后,蒂姆 伯納斯-李就萬維網的未來給出了他自己的計劃,并呼吁程序員、計算機制造商以及社會組織積極支持和參與,使其成為現實。
1.2 Web應用開發技術
根據萬維網體系結構(Jacobs&Walsh,2004),萬維網的基礎技術包括URI、HTML和 HTTP。其中,HTTP規范了瀏覽器和 Web服務器之間的交互行為,這樣萬維網用戶只需一個瀏覽器(比如 Mozilla Frefoxi )就能自如地瀏覽有關網站的內容,而網站建設者在安裝某個 Web服務器(比如 Apache HTTPserv-er)之后就可以輕松地部署一個站點,包括配置有關文件的 URI(俗稱“網址”),當然,網頁的制作通常會借助某個 HTML文檔寫作工具來完成。
早期,萬維網上的內容大部分是靜態的網頁。為了生成能夠反映用戶輸入的動態網頁,通用網關接口(C-I)技術就誕生了。它是 Web服務器與外部應用之間的交互接口,也打開了 Web應用的大門。Web應用通常是指在計算機網絡上可以使用瀏覽器訪問到的應用系統,通常會使用 HTTP、HTML和 URI等基本的Web技術以及數據庫管理技術。后來,以Java Srvlete 為代表的 Web應用服務器技術逐漸興起。與此同時,以Java Sric pt腳本語言為代表的客戶端技術為Web應用的用戶界面和人 機 交 互 帶 來 了 動 態 性。特 別 地,Ajax(asynchronous Java Sricpt and XML)技術能夠進一步增強Web應用的互動能力。
關于可擴展標記語言(extensible markup language,XML),它可以粗略地看作SGML(標準通用標記語言)的一個子集。S-ML 的基本思想是把文檔的內容結構與樣式分開,推崇描述型標記,提倡標記的嚴格性和使用的靈活性。需要指出的是,SGML是 一個元語言,可以用來定義特定的標記語言。事實上,HTML就是一個用SGML定義的標記語言。作為一個特定的標記語言,HTML只提供有限種標記,且注重于文本的呈現效果,難以滿足萬維網上數據表示和交換的發展要求。XML比SGML簡潔很多,并繼承了SGML的大部分優點,也是一個元語言,可以用來定義應用領域中所需的標記。目前,XML 已成為萬維網上數據表示和交換的一個重要語言。
伴隨著Web應用的發展,Web應用之間的互操作問題逐漸顯現。為解決這一問題,Web服務(Webservice)及相關技術被提出。Web服務是這樣的一個軟件系統,它有一個用 WSDL(Web services de******ion language)描述的接口,以便在互聯網上被其他程序或者Web服務所調用。通常,一個 Web應用可以被包裝成一個Web服務,而服務的調用大多采用基于 HTTP之上的 XML消息格式。隨著Web服務逐漸增多,Web服務的發現及組合技術逐漸受到關注。
萬維網的快速發展帶來了信息爆炸,如何幫助用戶快速地找到他們所需的信息則成為一個重要問題。很自然地,眾多 Web搜索引擎相繼出現,而基于關鍵詞的全文檢索很快成為一種常規的搜索模式。Web搜索引擎的基礎技術主要包括頁面獲取、索引和排序等,在這些基本技術日益成熟的同時,Web搜索領域的新技術層出不窮,比如 Web廣告模型、查詢擴展和語義搜索等。另外,Web上大量的數據來自背后的關系數據庫,這就引發了對于深網(deepWeb)數據的探究,從而也推動了包括 Web信息抽取和數據挖掘在內的 Web數據管理技術的深入發展。
1.3 語義網簡介
經典的萬維網是一個互相鏈接的超媒體文件系統,這些文件(文本、圖像或視頻)是供人們直接瀏覽的,而計算機卻難以理解這些文件中的內容,從而就難以復用和集成萬維網中的數據來提供更有用的信息服務。為此,W3C于2001年開始建立語義網(Semantic Web)行動計劃(http://www.w3。or/2001/sw/),共同開發一套技術規范,使得符合語義網技術規范的數據容易地被計算機所理解,讓不同的應用之間能夠更方便地共享和復用彼此的數據。也就是說,語義網是W3C進一步發展萬維網的一個愿景,它提供這樣的一個公共框架,使得數據的共享和復用可以跨越應用系統、企業和社區的邊界;而在傳統萬維網上只有文檔的交換和共享。圖1-1是 W3C給出的語義網技術棧。
圖1-1 語義網技術棧
語義網以資源描述框架(resource de******ion framework,RDF)作為基石。RDF是一個公共的數據模型,它以 RDF三元組(RDFtriple)作為基本的數據單元來描述資源的類型和屬性,而一個 RDF 三元組由主語(subject)、謂語(predigcate)和賓語(object)3部分組成。其中,URI(統一資源標識符)可以出現在三元組中的任何位置,而空白節點(blanknode)不能作為謂語,字面量(literal)只能作為賓語出現。URI用來標識任何需要標識的資源,包括信息資源(比如一個網頁)、現實世界中的事物(比如一本書)或者人們在社會實踐中形成的概念(比如書和作者)等;空白節點只能作為局部的資源標識,不具備 URI的全局標識能力;字面量通常用來表示基本類型的數據,如字符串、整數和實數等。
本體(ontology)在語義網中扮演著重要的角色。在哲學領域,本體論主要探討事物的基本特征及其分類體系。在人工智能及信息技術領域,本體論的概念被用在知識表示上,按照gruber(1993)的定義,一個本體是一個共享概念模型的顯式的形式化規約。在語義網中,RDF 數據中使用到的類型和屬性也需要給出一個明確的形式化規約,只有這樣,應用程序才能理解數據的含義。通常,某個應用領域中一組相關的類和屬性(統稱術語)稱為一個詞匯表(vocabulary)。W3C在語義網技術體系中采用本體來規約詞匯表。作為一個規約,本體需要通過某種語言表達。為此,W3C開發了 RDF詞匯描述語言 RDFSchema和 Web本體語言OWL。這樣,各個組織或機構可以使用 RDFSchema或 OWL 表示各自領域的本體,并發布在萬維網上以共享。領域本體中的類型和屬性可以用來描述相應領域中的事物及其聯系,形成 RDF數據。基于共享本體的 RDF數據不僅能夠實現語義的共享,而且使推理成為可能。事實上,RDFSchema和 OWL均定義了若干推理規則。例如,如果已知一個對象的類是“人”,又已知“人”是“動物”的一個子類,那么通過推理規則可以得知該對象也是一個“動物”,盡管這個事實可能在原始的數據中并未出現。運用推理技術使得信息提供者不必對所有信息全部羅列出來,應用