本書分為六部分,共16章。第一部分(第1~4章)討論對數據質量和數據管理意義重大的一組術語,涉及數據的擴展定義、符號性功能、與數據和數據管理相關的角色、與數據管理相關的概念以及數據質量維度的概念。第二部分(第5章和第6章)描述創建DQAF的原因,概括框架的假設、定義和管理思路,并給出48種測量類型的簡短描述。第三部分(第7~9章)闡釋數據評估方案,涉及數據評估的目標與輸入、如何剖析數據、測量與數據質量改進項目的關系以及將持續測量用于維持數據質量的一般原則。第四部分(第10章和第11章)展示DQAF類別如何用于編制數據質量的需求,以便指定數據質量的聯機測量、控制和定期測量。第五部分(第12章和第13章)討論定義數據質量戰略的環境和方法,涉及數據質量戰略的概念與總體策略,還討論建立組織的數據質量戰略的12個指令。第六部分(第14~16章)詳細討論DQAF的框架,涉及聯機測量中如何收集與計算原始測量數據,如何產生測量結果,以及DQAF測量邏輯數據模型的測量類型共有的功能。
作 者 簡 介勞拉·塞巴斯蒂安-科爾曼(Laura Sebastian-Coleman),Optum Insight公司數據質量架構師,自2003年以來,一直在大型醫療保健數據倉庫從事數據質量方面的工作。Optum Insight專門通過提供分析、技術和咨詢服務來改善醫療保健系統的績效。勞拉已實現數據質量指標和報表,發起并推動Optum Insight的數據質量社區,促進數據消費者的培訓項目,并領導建立數據標準和管理元數據的工作。2009年,她帶領一隊來自Optum和UnitedHealth集團的分析師,研發了最初的數據質量評估框架(DQAF),這是本書的基礎。 作為一名活躍的專業人士,勞拉曾在麻省理工學院的信息質量會議、信息和數據質量國際協會(IAIDQ)以及數據治理組織(DGO)主辦的會議上發表論文。在2009年與2010年,她曾擔任IAIDQ會員服務總監。 加入Optum Insight公司之前,勞拉在商業保險行業從事了八年的內部通信和信息技術工作。她擁有IAIDQ頒發的IQCP(信息質量認證專家)證書,這是麻省理工學院的信息質量領域的一種證書,她在富蘭克林和馬歇爾學院取得了英語和歷史學士學位,并在羅切斯特大學(紐約州)取得了英國文學博士學位。
目 錄序言致謝作者簡介概述1第一部分 概念和定義第1章 數據131.1 目的131.2 數據131.3 數據表示141.4 數據事實201.5 數據作為產品201.6 數據作為分析的輸入211.7 數據和期望211.8 信息221.9 總結思考23第2章 數據、人員和系統252.1 目的252.2 企業或組織252.3 IT與業務262.4 數據生產者272.5 數據消費者272.6 數據代理272.7 數據管家和數據管家工作282.8 數據所有者282.9 數據所有權和數據治理 292.10 IT,業務和數據所有者,終極版292.11 數據質量項目組302.12 利益相關者312.13 系統和系統設計312.14 總結思考32第3章 數據管理、模型和元數據333.1 目的333.2 數據管理333.3 數據庫、數據倉庫、數據資產和數據集343.4 源系統、目標系統和記錄系統353.5 數據模型353.6 數據模型的類型363.7 數據的物理特征373.8 元數據383.9 元數據是顯性知識403.10 數據鏈和信息生命周期413.11 數據譜系和數據出處413.12 總結思考42第4章 數據質量和測量434.1 目的434.2 數據質量434.3 數據質量維度444.4 測量454.5 測量數據464.6 數據質量測量和業務/IT鴻溝474.7 有效測量的特點 484.8 數據質量評估494.9 數據質量維度,DQAF測量類型,特定的數據質量指標504.10 數據剖析514.11 數據質量問題和數據管理問題524.12 合理性檢查524.13 數據質量閾值524.14 過程控制544.15 聯機數據質量的測量和監控544.16 總結思考55第二部分 DQAF的概念和測量類型第5章 數據質量評估框架概念585.1 目的585.2 DQAF解決的問題585.3 數據質量期望和數據管理595.4 DQAF的范圍605.5 DQAF質量維度625.6 定義DQAF測量類型645.7 元數據的要求645.8 測量和評估分類的對象655.9 測量的功能:收集、計算、比較675.10 總結思考68第6章 DQAF測量類型696.1 目的696.2 數據模型的一致性696.3 保證正確接收用于處理的數據696.4 檢查接收到的數據的狀況706.5 評估數據處理的結果716.6 評估數據內容的有效性726.7 評估數據內容的一致性 736.8 對放置聯機測量的注釋756.9 跨表內容完整性定期測量766.10 評估整體數據庫內容776.11 評估控制和測量786.12 測量類型:綜合清單786.13 總結思考82第三部分 數據評估方案第7章 初步數據評估867.1 目的867.2 初步評估877.3 初步評估的輸入877.4 數據預期877.5 數據剖析877.6 列屬性剖析 897.7 結構剖析927.8 剖析現有數據資產967.9 從剖析到評估967.10 初步評估的可交付成果967.11 總結思考97第8章 數據質量改進項目評估988.1 目的988.2 數據質量改進工作988.3 改進項目中的測量98第9章 持續測量1019.1 目的1019.2 適于持續測量的情況1019.3 示例:醫療保健數據1039.4 持續測量的輸入1049.5 重要性和風險1069.6 自動化1069.7 控制1069.8 定期測量 1079.9 持續測量的交付成果1089.10 聯機與定期測量的對比1089.11 總結思考110第四部分 將DQAF運用到數據需求中第10章 需求、風險和重要性11410.1 目的11410.2 業務需求11410.3 數據質量需求和期望的數據特征11610.4 數據質量需求和數據風險11810.5 影響數據重要性的因素11910.6 指定數據質量指標12010.7 總結思考127第11章 提問12811.1 目的12811.2 提問12811.3 了解項目12911.4 了解源系統13011.5 數據消費者的需求13211.6 數據的狀況13311.7 數據模型、轉換規則和系統設計13411.8 測量規范過程13411.9 總結思考137第五部分 數據質量戰略第12章 數據質量戰略14012.1 目的14012.2 戰略的概念14012.3 系統戰略、數據戰略和數據質量戰略14112.4 數據質量戰略和數據治理14212.5 信息生命周期中的決策點14312.6 數據質量戰略一般注意事項14412.7 總結思考145第13章 數據質量戰略的指令14613.1 目的14613.2 指令1:獲得管理層對數據質量的承諾14813.3 指令2:把數據作為資產14913.4 指令3:應用資源來注重質量15013.5 指令4:建立數據的顯性知識15113.6 指令5:把數據作為可測量和改進的流程的一個產品15213.7 指令6:認識到質量是由數據使用者定義的15313.8 指令7:解決造成數據問題的根本原因15413.9 指令8:測量數據質量,監控關鍵數據15613.10 指令9:保持數據生產者對自己的數據質量(和有關該數據的知識)負責15813.11 指令10:為數據使用者提供所需的數據使用知識15813.12 指令11:數據需要和用途將演進—為演進作規劃15913.13 指令12:數據質量超越了數據本身—構建注重質量的文化16013.14 總結思考:使用現狀評估161第六部分 DQAF詳解第14章 測量功能:收集、計算、比較16514.1 目的16514.2 測量功能:收集、計算、比較16514.3 收集原始測量數據16614.4 計算測量數據16714.5 將測量結果與過去的歷史結果比較16814.6 統計16814.7 控制圖:統計過程控制的主要手段17214.8 DQAF和統計過程控制17214.9 總結思考173第15章 DQAF測量邏輯模型的功能17415.1 目的17415.2 指標定義表和測量結果表17415.3 可選字段17615.4 分母字段17715.5 自動閾值 17915.6 手動閾值18015.7 緊急閾值18015.8 手動或緊急閾值和結果表18115.9 其他系統需求18115.10 支持需求18115.11 總結思考181第16章 DQAF測量類型的各方面18216.1 目的18216.2 DQAF的各方面18316.3 本章的組織結構18316.4 測量類型#1:數據集的完備性—元數據和參照數據的充分性18516.5 測量類型#2:一個字段內的格式一致性18716.6 測量類型#3:跨表的格式一致性18816.7 測量類型#4:一個字段內默認值使用的一致性18916.8 測量類型#5:跨表的默認值使用的一致性18916.9 測量類型#6:用于處理的數據的交付及時性19016.10 測量類型#7:數據集的完備性—對于處理的可用性19216.11 測量類型#8:數據集的完備性—記錄數與控制記錄相比19316.12 測量類型#9:數據集的完整性—匯總數額字段數據19416.13 測量類型#10:數據集的完備性—將大小與過去的大小作比較19516.14 測量類型#11:記錄的完備性—長度19616.15 測量類型#12:字段的完備性—不可為空的字段19716.16 測量類型#13:數據集的完整性—重復數據刪除19816.17 測量類型#14:數據集的完整性—重復記錄的合理性檢查19916.18 測量類型#15:字段內容的完備性—來自數據源的默認值20016.19 測量類型#16:基于日期標準的數據集的完備性20216.20 測量類型#17:基于日期標準的數據集的合理性20316.21 測量類型#18:字段內容的完備性—接收到的數據丟失要處理的關鍵字段20416.22 測量類型#19:數據集的完備性—經過一個流程的記錄數的平衡20516.23 測量類型#20:數據集的完備性—拒絕記錄的理由20616.24 測量類型#21:經過一個流程的數據集的完備性—輸入與輸出的比率20716.25 測量類型#22:經過一個流程的數據集的完備性—數額字段的平衡20816.26 測量類型#23:字段內容的完備性—匯總的數額字段的比率20916.27 測量類型#24:字段內容的完備性—推導的默認值21116.28 測量類型#25:數據處理用時21216.29 測量類型#26:供訪問的數據的及時可用性21416.30 測量類型#27:有效性檢查,單字段,詳細結果21516.31 測量類型#28:有效性檢查,卷積匯總21816.32 測量類型#29:有效性檢查,表內多列,詳細結果21916.33 測量類型#30:一致性列剖析22116.34 測量類型#31:數據集內容的一致性,所表示的實體的不重復計數和記錄數比率22316.35 測量類型#32:數據集內容的一致性,兩個所表示的實體的不重復計數的比率22516.36 測量類型#33:一致性多列剖析22616.37 測量類型#34:表內時序與業務規則的一致性22916.38 測量類型#35:用時(小時、天、月等)一致性22916.39 測量類型#36:數額字段跨二級字段計算結果的一致性23116.40 測量類型#37:按聚合日期匯總的記錄數的一致性23316.41 測量類型#38:按聚合日期匯總的數額字段數據的一致性23516.42 測量類型#39:父/子參照完整性23616.43 測量類型#40:子/父參照完整性23716.44 測量類型#41:有效性檢查,跨表,詳細結果23816.45 測量類型#42:跨表多列剖析一致性23916.46 測量類型#43:跨表的時序與業務規則的一致性24016.47 測量類型#44:跨表數額列計算結果的一致性24116.48 測量類型#45:按聚合日期匯總的跨表數額列的一致性24116.49 測量類型#46:與外部基準比較的一致性24216.50 測量類型#47:數據集的完備性—針對特定目的的總體充分性24316.51 測量類型#48:數據集的完備性—測量和控制的總體充分性24416.52 總結思考:了解你的數據245術語表246參考文獻255