數(shù)據(jù)作為一種基礎(chǔ)性與戰(zhàn)略性資源得到了廣泛認(rèn)可,數(shù)據(jù)服務(wù)成為很多組織和機(jī)構(gòu)日常運(yùn)營(yíng)中必不可少的重要環(huán)節(jié)。當(dāng)下,數(shù)據(jù)質(zhì)量在理論越來(lái)越受到關(guān)注,不僅是制約數(shù)據(jù)產(chǎn)業(yè)發(fā)展的關(guān)鍵問(wèn)題,也是大數(shù)據(jù)應(yīng)用研究中繞不開(kāi)的重大問(wèn)題。《大數(shù)據(jù)質(zhì)量》匯集了國(guó)內(nèi)外數(shù)據(jù)質(zhì)量研究的經(jīng)典理論、技術(shù)和方法,以及新的前沿發(fā)展趨勢(shì);首先介紹了傳統(tǒng)數(shù)據(jù)質(zhì)量研究的各種代表性成果,并在此基礎(chǔ)上,分析大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量面臨的挑戰(zhàn),并詳細(xì)介紹基于大數(shù)據(jù)的數(shù)據(jù)質(zhì)量相關(guān)技術(shù)的實(shí)現(xiàn);*后,通過(guò)一個(gè)實(shí)際案例,提出一套完整的大數(shù)據(jù)質(zhì)量解決方案。
《大數(shù)據(jù)質(zhì)量》為大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū)之一,列入十三五國(guó)家重點(diǎn)圖書(shū)出版規(guī)劃項(xiàng)目。《大數(shù)據(jù)質(zhì)量》共7章。第1章敘述數(shù)據(jù)質(zhì)量的概況,列舉出數(shù)據(jù)質(zhì)量的影響和產(chǎn)生因素、數(shù)據(jù)質(zhì)量的定義及面臨的挑戰(zhàn)、以及數(shù)據(jù)質(zhì)量與信息質(zhì)量的關(guān)系。第2章介紹了與數(shù)據(jù)質(zhì)量有關(guān)的各種國(guó)際標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)。第3章討論了數(shù)據(jù)分類和數(shù)據(jù)模型,并針對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),給出了一些數(shù)據(jù)模型和質(zhì)量模型。第4章詳細(xì)闡述數(shù)據(jù)質(zhì)量的相關(guān)技術(shù),包括:數(shù)據(jù)集成、數(shù)據(jù)剖析、數(shù)據(jù)清潔和數(shù)據(jù)溯源,并給出它們?cè)诖髷?shù)據(jù)環(huán)境下的實(shí)現(xiàn)技術(shù)和方案。第5章詳細(xì)論述了數(shù)據(jù)質(zhì)量評(píng)估維度的選取,質(zhì)量維度的測(cè)量和評(píng)估方法,同時(shí),每一種常用的評(píng)估方法都給出具體的評(píng)估案例。第6章描述數(shù)據(jù)質(zhì)量的管理方法和質(zhì)量管理成熟度模型。第7章以位置大數(shù)據(jù)為例,詳細(xì)分析了位置大數(shù)據(jù)的來(lái)源、質(zhì)量問(wèn)題,評(píng)估模型和質(zhì)量控制,給出確實(shí)可行的數(shù)據(jù)質(zhì)量解決方法。
質(zhì)量是關(guān)于符合性的一種度量,即符合國(guó)際/國(guó)家標(biāo)準(zhǔn)或者符合使用者需求的程度。ISO 9000系列質(zhì)量體系是一個(gè)公認(rèn)的國(guó)際標(biāo)準(zhǔn),被全球110多個(gè)國(guó)家采用,既包括發(fā)達(dá)國(guó)家,也包括發(fā)展中國(guó)家。這一標(biāo)準(zhǔn)的執(zhí)行使得市場(chǎng)競(jìng)爭(zhēng)更加激烈,產(chǎn)品和服務(wù)質(zhì)量得到日益提高。
國(guó)際標(biāo)準(zhǔn)化組織制訂的國(guó)際標(biāo)準(zhǔn)《質(zhì)量管理體系基礎(chǔ)和術(shù)語(yǔ)》(ISO 9000: 2008)中指出:
產(chǎn)品質(zhì)量是指產(chǎn)品的一組固有特性滿足要求的程度。與通常的有形產(chǎn)品不同,數(shù)據(jù)常常被認(rèn)為是無(wú)形的,數(shù)據(jù)質(zhì)量的評(píng)價(jià)要困難很多。1980年以來(lái),學(xué)術(shù)界、工業(yè)界和國(guó)際組織針對(duì)數(shù)據(jù)質(zhì)量的測(cè)量、評(píng)估和管理提出了許多理論、技術(shù)和方法,卻缺乏一個(gè)廣泛認(rèn)可的標(biāo)準(zhǔn)。ISO正在開(kāi)發(fā)的數(shù)據(jù)質(zhì)量國(guó)際標(biāo)準(zhǔn)(ISO
8000),目前也只有20多個(gè)國(guó)家接受它。
除了數(shù)據(jù)是無(wú)形的之外,建立數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的又一難點(diǎn)在于數(shù)據(jù)具備資源性、產(chǎn)品性和服務(wù)性。數(shù)據(jù)的資源性是指數(shù)據(jù)類似于礦藏和原礦,強(qiáng)調(diào)的是可開(kāi)采性和可利用性;數(shù)據(jù)的產(chǎn)品性是指數(shù)據(jù)經(jīng)過(guò)加工后可以形成數(shù)據(jù)產(chǎn)品,進(jìn)入市場(chǎng)流通;數(shù)據(jù)的服務(wù)性是指數(shù)據(jù)能夠以提供服務(wù)的方式進(jìn)入市場(chǎng),使用者不需要購(gòu)買和擁有數(shù)據(jù),只是使用了數(shù)據(jù)服務(wù)。因此,從這三個(gè)大類的性質(zhì)來(lái)看,數(shù)據(jù)質(zhì)量的評(píng)價(jià)體系就存在很大差異,而且每個(gè)類別都會(huì)面臨不同的需求符合性。
數(shù)據(jù)作為一種基礎(chǔ)性資源和一種戰(zhàn)略性資源,已經(jīng)獲得廣泛認(rèn)可,數(shù)據(jù)服務(wù)業(yè)已廣泛開(kāi)展,各地?cái)?shù)據(jù)交易所紛紛成立;這時(shí),數(shù)據(jù)質(zhì)量就逐漸成為制約數(shù)據(jù)產(chǎn)業(yè)發(fā)展的關(guān)鍵問(wèn)題。此外,由于大數(shù)據(jù)自身特性,直接采用傳統(tǒng)的、面向結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量理論和方法來(lái)處理質(zhì)量問(wèn)題并不合適,數(shù)據(jù)質(zhì)量的研究在新環(huán)境下面臨著更大的挑戰(zhàn)。
數(shù)據(jù)作為一種特殊資源,其質(zhì)量應(yīng)當(dāng)符合真實(shí)性、合法性和可用性的基本要求。本書(shū)主要從數(shù)據(jù)的資源性來(lái)闡述數(shù)據(jù)質(zhì)量,在傳統(tǒng)數(shù)據(jù)質(zhì)量研究的基礎(chǔ)上,結(jié)合大數(shù)據(jù)的特性,闡述基于大數(shù)據(jù)的數(shù)據(jù)質(zhì)量相關(guān)技術(shù)的實(shí)現(xiàn),并通過(guò)一個(gè)實(shí)際案例,提出一套完整的大數(shù)據(jù)質(zhì)量解決方案。
本書(shū)共7章。第1章敘述數(shù)據(jù)質(zhì)量的概況,列舉出數(shù)據(jù)質(zhì)量的影響和產(chǎn)生因素、數(shù)據(jù)質(zhì)量的定義及面臨的挑戰(zhàn),以及數(shù)據(jù)質(zhì)量與信息質(zhì)量的關(guān)系。第2章介紹了與數(shù)據(jù)質(zhì)量有關(guān)的各種國(guó)際標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)。第3章討論了數(shù)據(jù)分類和數(shù)據(jù)模型,并針對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),給出了一些數(shù)據(jù)模型和質(zhì)量模型。第4章詳細(xì)闡述數(shù)據(jù)質(zhì)量的相關(guān)技術(shù),包括:
數(shù)據(jù)集成、數(shù)據(jù)剖析、數(shù)據(jù)清潔和數(shù)據(jù)溯源,并給出它們?cè)诖髷?shù)據(jù)環(huán)境下的實(shí)現(xiàn)技術(shù)和方案。第5章詳細(xì)論述了數(shù)據(jù)質(zhì)量評(píng)估維度的選取,質(zhì)量維度的測(cè)量和評(píng)估方法,同時(shí)每一種常用的評(píng)估方法都給出具體的評(píng)估案例。第6章描述數(shù)據(jù)質(zhì)量的管理方法和質(zhì)量管理成熟度模型。第7章以位置大數(shù)據(jù)為例,詳細(xì)分析了位置大數(shù)據(jù)的來(lái)源、質(zhì)量問(wèn)題,評(píng)估模型和質(zhì)量控制,給出確實(shí)可行的數(shù)據(jù)質(zhì)量解決方法。
本書(shū)可作為高等院校相關(guān)專業(yè)高年級(jí)學(xué)生和研究生的數(shù)據(jù)質(zhì)量課程教材,以及從事數(shù)據(jù)質(zhì)量研究和應(yīng)用的科技工作者的技術(shù)參考。
特別感謝國(guó)內(nèi)外數(shù)據(jù)質(zhì)量專著、教材和許多高水平論文報(bào)告的作者們,他們是黃偉、刁興春、曹建軍、黎建輝、樊文飛、Richard Y.
Wang、Yang W. Lee、Elizabeth M. Pierce、Danette McGilvray、John
Talburt、Carlo Batini、Monica
Scannapieca等教授。在本書(shū)中引用了他們的部分成果,使本書(shū)較全面地反映數(shù)據(jù)質(zhì)量各個(gè)研究領(lǐng)域的最新進(jìn)展。感謝李英姿、李永軒和周怡帆三位碩士研究生提供的支持。
本書(shū)由朱揚(yáng)勇教授和蔡莉副教授共同策劃并擬定框架內(nèi)容,并由蔡莉副教授執(zhí)筆,朱揚(yáng)勇教授審閱修訂。限于作者學(xué)術(shù)水平,錯(cuò)誤之處難免,懇請(qǐng)讀者不吝指教。任何意見(jiàn)和建議,請(qǐng)發(fā)至電子郵件: caili@ynu.edu.cn。對(duì)此,我們將深為感激。
蔡莉,副教授,云南大學(xué)軟件學(xué)院網(wǎng)絡(luò)工程系副系主任,中國(guó)計(jì)算機(jī)學(xué)會(huì)西南網(wǎng)路與MIS專委會(huì)委員,昆明市儀器儀表學(xué)會(huì)理事。在軟件學(xué)院工作期間,參與和主持省級(jí)和市級(jí)等教學(xué)和科研項(xiàng)目20余項(xiàng),總計(jì)金額為200余萬(wàn)元。同時(shí),在國(guó)際會(huì)議和國(guó)內(nèi)核心期刊上發(fā)表30余篇論文,多篇被EI和ISTP檢索。出版教材2部,擁有3個(gè)軟件著作權(quán)。2004年獲得IBM優(yōu)秀教師獎(jiǎng),2008年獲得IBM獎(jiǎng)教金,2014年獲得IBM產(chǎn)學(xué)合作專業(yè)綜合改革項(xiàng)目支持。
朱揚(yáng)勇,復(fù)旦大學(xué)教授、博士生導(dǎo)師,數(shù)據(jù)科學(xué)研究中心主任、上海市政府信息化專家委員會(huì)專家。致力于數(shù)據(jù)科學(xué)與技術(shù)、數(shù)據(jù)挖掘及其應(yīng)用等領(lǐng)域。主持過(guò)國(guó)家自然科學(xué)基金、國(guó)家863項(xiàng)目、上海市科委重點(diǎn)等多項(xiàng)數(shù)據(jù)挖掘領(lǐng)域的研究課題。
第1章 理解數(shù)據(jù)質(zhì)量
·1.1 數(shù)據(jù)質(zhì)量問(wèn)題
1.1.1 數(shù)據(jù)質(zhì)量帶來(lái)的影響
1.1.2 影響數(shù)據(jù)質(zhì)量的因素
·1.2 數(shù)據(jù)質(zhì)量概述
1.2.1 數(shù)據(jù)質(zhì)量定義
1.2.2 大數(shù)據(jù)時(shí)代數(shù)據(jù)質(zhì)量面臨的挑戰(zhàn)
·1.3 數(shù)據(jù)質(zhì)量與信息質(zhì)量
1.3.1 從數(shù)據(jù)質(zhì)量到信息質(zhì)量的發(fā)展歷程
1.3.2 數(shù)據(jù)質(zhì)量與信息質(zhì)量的區(qū)別與聯(lián)系
參考文獻(xiàn)
第2章 數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
·2.1 ISO8000國(guó)際標(biāo)準(zhǔn)
2.1.1 ISO8000的歷史與現(xiàn)狀
2.1.2 ISO/TS8000100系列概述
2.1.3 ISO/TS8000100主數(shù)據(jù)質(zhì)量
2.1.4 ISO 22745:2010概述
·2.2 地理信息質(zhì)量標(biāo)準(zhǔn)ISO19100
2.2.1 地理信息數(shù)據(jù)質(zhì)量
2.2.2 地理信息數(shù)據(jù)質(zhì)量評(píng)價(jià)
·2.3 統(tǒng)計(jì)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
2.3.1 國(guó)際統(tǒng)計(jì)數(shù)據(jù)標(biāo)準(zhǔn)概述
2.3.2 IMF、的數(shù)據(jù)公布通用標(biāo)準(zhǔn)(GDDS)
2.3.3 IMF的數(shù)據(jù)公布特殊標(biāo)準(zhǔn)(SDDS)
·2.4 科學(xué)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
2.4.1 科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范
2.4.2 科學(xué)數(shù)據(jù)質(zhì)量框架
參考文獻(xiàn)
第3章 數(shù)據(jù)分類及數(shù)據(jù)模型
·3.1 數(shù)據(jù)類型及分類
3.1.1 數(shù)據(jù)類型
3.1.2 數(shù)據(jù)分類
·3.2 結(jié)構(gòu)化數(shù)據(jù)模型
3.2.1 概念模型
3.2.2 邏輯模型
·3.3 半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)模型
3.3.1 XML語(yǔ)言
3.3.2 半結(jié)構(gòu)化數(shù)據(jù)模型數(shù)據(jù)和數(shù)據(jù)質(zhì)量(D2Q)模型
3.3.3 非結(jié)構(gòu)化數(shù)據(jù)模型四面體模型
參考文獻(xiàn)
第4章 數(shù)據(jù)質(zhì)量相關(guān)技術(shù)
·4.1 數(shù)據(jù)集成
4.1.1 數(shù)據(jù)倉(cāng)庫(kù)的基本概念
4.1.2 數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)
4.1.3 數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)
·4.2 數(shù)據(jù)剖析
4.2.1 數(shù)據(jù)剖析的方法
4.2.2 數(shù)據(jù)剖析實(shí)例
·4.3 數(shù)據(jù)清潔
4.3.1 數(shù)據(jù)清潔概述
4.3.2 臟數(shù)據(jù)的來(lái)源
4.3.3 數(shù)據(jù)清潔的原理與框架
4.3.4 數(shù)據(jù)清潔工具
4.3.5 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清潔
·4.4 數(shù)據(jù)溯源
4.4.1 數(shù)據(jù)溯源的基本概念
4.4.2 數(shù)據(jù)溯源的分類
4.4.3 數(shù)據(jù)溯源模型
4.4.4 數(shù)據(jù)溯源的方法
4.4.5 數(shù)據(jù)溯源的應(yīng)用
4.4.6 大數(shù)據(jù)溯源
參考文獻(xiàn)
第5章 數(shù)據(jù)質(zhì)量評(píng)估
·5.1 數(shù)據(jù)質(zhì)量維度
5.1.1 數(shù)據(jù)質(zhì)量維度定義
5.1.2 常用的數(shù)據(jù)質(zhì)量維度
5.1.3 其他的數(shù)據(jù)質(zhì)量維度
5.1.4 質(zhì)量維度度量
·5.2 數(shù)據(jù)質(zhì)量評(píng)估框架
5.2.1 DQAF框架
5.2.2 AIMQ框架
5.2.3 DQA框架
·5.3 數(shù)據(jù)質(zhì)量評(píng)估方法
5.3.1 定性評(píng)估
5.3.2 定量評(píng)估
5.3.3 綜合評(píng)估
·5.4 數(shù)據(jù)質(zhì)量評(píng)估案例媒體信息可信度質(zhì)量評(píng)估
5.4.1 背景概述
5.4.2 媒體信息可信度評(píng)價(jià)指標(biāo)體系
5.4.3 媒體信息可信度的綜合評(píng)價(jià)模型
5.4.4 實(shí)驗(yàn)過(guò)程及結(jié)果分析
參考文獻(xiàn)
第6章 數(shù)據(jù)質(zhì)量管理
·6.1 質(zhì)量管理
6.1.1 質(zhì)量管理發(fā)展歷程
6.1.2 全面質(zhì)量管理
·6.2 數(shù)據(jù)質(zhì)量管理概述
6.2.I數(shù)據(jù)質(zhì)量管理方法
6.2.2 數(shù)據(jù)質(zhì)量知識(shí)庫(kù)管理
6.2.3 MTT全面數(shù)據(jù)質(zhì)量管理
·6.3 數(shù)據(jù)質(zhì)量管理團(tuán)隊(duì)建設(shè)
6.3.1 任命首席數(shù)據(jù)官
6.3.2 建立數(shù)據(jù)質(zhì)量管理團(tuán)隊(duì)
·6.4 質(zhì)量管理成熟度模型
6.4.1 信息質(zhì)量管理成熟度模型
6.4.2 數(shù)據(jù)質(zhì)量管理成熟度模型
參考文獻(xiàn)
第7章 位置大數(shù)據(jù)中的質(zhì)量研究
·7.1 概述
7.1.1 位置大數(shù)據(jù)的來(lái)源
7.1.2 位置大數(shù)據(jù)的應(yīng)用領(lǐng)域
·7.2 位置大數(shù)據(jù)面臨的質(zhì)量問(wèn)題
7.2.1 GPS軌跡數(shù)據(jù)的質(zhì)量問(wèn)題
7.2.2 簽到數(shù)據(jù)的質(zhì)量問(wèn)題
7.2.3 手機(jī)定位數(shù)據(jù)的質(zhì)量問(wèn)題
7.2.4 智能公交IC卡數(shù)據(jù)的質(zhì)量問(wèn)題
7.2.5 OSM地圖數(shù)據(jù)的質(zhì)量問(wèn)題
·7.3 位置大數(shù)據(jù)的質(zhì)量評(píng)估模型
7.3.1 GPS軌跡數(shù)據(jù)的質(zhì)量評(píng)估模型
7.3.2 簽到數(shù)據(jù)的質(zhì)量評(píng)估模型
7.3.3 手機(jī)定位數(shù)據(jù)的質(zhì)量評(píng)估模型
7.3.4 OSM地圖數(shù)據(jù)的質(zhì)量評(píng)估模型
7.3.5 基于云平臺(tái)的位置大數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng)
·7.4 位置大數(shù)據(jù)質(zhì)量控制
7.4.1 位置大數(shù)據(jù)清潔
7.4.2 位置大數(shù)據(jù)質(zhì)量控制
7.4.3 OSM地圖數(shù)據(jù)質(zhì)量保證
參考文獻(xiàn)