本書是數據集成領域的經典著作,由具有數十年從業經驗的資深數據集成專家撰寫,數據管理專家作序推薦!它為大數據時代的大中型企業管理企業內部大量的、復雜的應用系統之間的數據提供了解決方案,全面而深入地講解數據集成的工具、方法、技巧、解決方案以及最佳實踐。
本書分為四部分,共22章,高屋建瓴地闡述了在大型組織環境中,不同計算機系統之間傳輸數據,以及將異構數據進行集成所用到的技巧、技術和最佳實踐,內容涵蓋數據集成導論、批處理數據集成、實時數據集成和大數據集成等。
本書雖然介紹了各種數據集成問題的多種不同類型的技術解決方案,但讀者無需具備廣闊的技術背景就能理解,適合數據處理相關的項目經理、數據分析師、數據模型設計師、數據庫工作者以及數據集成程序員等相關技術人員及數據管理專業學生閱讀。
數據集成領域經典著作,資深專家數十年工作經驗結晶,數據管理專家作序推薦 深入講解大數據環境下大中型企業中不同應用系統之間的數據集工具、方法、架構、解決方案和最佳實踐
April Reeve
資深數據集成專家、資深信息管理顧問、企業架構師和項目經理,擁有數十年行業從業經驗,經歷豐富,曾服務于多家大型跨國公司,主要負責開發數據戰略以及管理開發和運行方案。她是數據轉換、數據倉庫、商務智能、主數據管理、數據集成和數據治理等數據管理領域的專家。目前,她作為企業信息管理實踐的咨詢顧問服務于EMC2咨詢公司。
譯者簡介
余水清
國家認證系統分析師、信息系統項目管理師、系統架構師、中國系統分析員協會(CSAI)專業顧問,領導和參與過多項大型軟件系統開發項目,擔任軟件設計師、系統架構設計師、項目經理等職位,涉及銀行、醫療、制造業等多個行業 。在信息系統、數據倉庫的設計、開發和部署方面擁有豐富的理論和實踐經驗。
潘黎萍
軟件工程碩士,高級工程師,從事企業級信息系統開發和管理十余年,精通數據倉庫、商務智能系統的設計和開發,研究領域包括數據集成方法、ETL、數據轉換、大數據應用和 April Reeve
資深數據集成專家、資深信息管理顧問、企業架構師和項目經理,擁有數十年行業從業經驗,經歷豐富,曾服務于多家大型跨國公司,主要負責開發數據戰略以及管理開發和運行方案。她是數據轉換、數據倉庫、商務智能、主數據管理、數據集成和數據治理等數據管理領域的專家。目前,她作為企業信息管理實踐的咨詢顧問服務于EMC2咨詢公司。
譯者簡介
余水清
國家認證系統分析師、信息系統項目管理師、系統架構師、中國系統分析員協會(CSAI)專業顧問,領導和參與過多項大型軟件系統開發項目,擔任軟件設計師、系統架構設計師、項目經理等職位,涉及銀行、醫療、制造業等多個行業 。在信息系統、數據倉庫的設計、開發和部署方面擁有豐富的理論和實踐經驗。
潘黎萍
軟件工程碩士,高級工程師,從事企業級信息系統開發和管理十余年,精通數據倉庫、商務智能系統的設計和開發,研究領域包括數據集成方法、ETL、數據轉換、大數據應用和智能分析系統開發。
譯者序
序言
前言
第一部分 數據集成導論
第1章 數據集成的重要性 / 2
1.1 數據接口的天然復雜性 / 2
1.2 購買供應商應用包的數量日益增加 / 3
1.3 大數據和虛擬化的催化劑 / 3
第2章 什么是數據集成 / 5
2.1 運動中的數據 / 5
2.2 集成為通用格式—數據轉換 / 5
2.3 數據從一個系統遷移到另一個系統 / 6
2.4 在組織內部移動數據 / 6
2.5 從非結構化數據中抽取信息 / 8
2.6 將處理移動到數據端 / 9 譯者序
序言
前言
第一部分 數據集成導論
第1章 數據集成的重要性 / 2
1.1 數據接口的天然復雜性 / 2
1.2 購買供應商應用包的數量日益增加 / 3
1.3 大數據和虛擬化的催化劑 / 3
第2章 什么是數據集成 / 5
2.1 運動中的數據 / 5
2.2 集成為通用格式—數據轉換 / 5
2.3 數據從一個系統遷移到另一個系統 / 6
2.4 在組織內部移動數據 / 6
2.5 從非結構化數據中抽取信息 / 8
2.6 將處理移動到數據端 / 9
第3章 數據集成的類型和復雜性 / 10
3.1 管理運動中的數據和持久化數據的異同點 / 10
3.2 批處理數據集成 / 10
3.3 實時數據集成 / 11
3.4 大數據集成 / 11
3.5 數據虛擬化 / 12
第4章 數據集成開發過程 / 13
4.1 數據集成開發生命周期 / 13
4.2 包含業務知識和專家經驗 / 14
第二部分 批處理數據集成
第5章 批處理數據集成簡介 / 18
5.1 什么是批處理數據集成 / 18
5.2 批處理數據集成生命周期 / 19
第6章 抽取、轉換和加載 / 20
6.1 什么是ETL / 20
6.2 概要分析 / 20
6.3 抽取 / 21
6.4 暫存 / 22
6.5 訪問層次 / 22
6.6 轉換 / 23
6.6.1 簡單映射 / 23
6.6.2 查找表 / 24
6.6.3 聚合和規范化 / 24
6.6.4 計算 / 24
6.7 加載 / 24
第7章 數據倉庫 / 26
7.1 什么是數據倉庫 / 26
7.2 企業數據倉庫架構中的層次 / 26
7.2.1 操作型應用層 / 26
7.2.2 外部數據 / 27
7.2.3 數據倉庫中的數據暫存區 / 27
7.2.4 數據倉庫數據結構 / 28
7.2.5 從數據倉庫到數據集市或者商務智能層的暫存 / 28
7.2.6 商務智能層 / 28
7.3 加載到數據倉庫中的數據類型 / 29
7.3.1 數據倉庫中的主數據 / 29
7.3.2 數據倉庫中的余額和快照數據 / 30
7.3.3 數據倉庫中的事務型數據 / 31
7.3.4 事件 / 31
7.3.5 調整 / 31
第8章 數據轉換 / 39
8.1 什么是數據轉換 / 39
8.2 數據轉換生命周期 / 39
8.3 數據轉換分析 / 39
8.4 數據加載最佳實踐 / 40
8.5 提高源數據質量 / 40
8.6 映射到目標系統 / 41
8.7 配置數據 / 41
8.8 測試和依賴 / 42
8.9 私有數據 / 42
8.10 校對 / 43
8.11 環境 / 43
第9章 數據歸檔 / 47
9.1 什么是數據歸檔 / 47
9.2 歸檔數據選擇 / 47
9.3 已歸檔數據可以恢復嗎 / 48
9.4 歸檔環境下數據結構的確認 / 48
9.5 靈活的數據結構 / 49
第10章 批處理數據集成架構和元數據 / 54
10.1 什么是批處理數據集成架構 / 54
10.2 概要分析工具 / 55
10.3 建模工具 / 55
10.4 元數據存儲庫 / 55
10.5 數據移動 / 56
10.6 轉換 / 56
10.7 調度 / 57
第三部分 實時數據集成
第11章 實時數據集成簡介 / 64
11.1 為什么需要實時數據集成 / 64
11.2 為什么需要兩組技術 / 64
第12章 數據集成模式 / 66
12.1 交互模式 / 66
12.2 松耦合 / 66
12.3 中心和節點模式 / 66
12.4 同步交互和異步交互 / 69
12.5 請求和應答 / 70
12.6 發布和訂閱 / 70
12.7 兩階段提交 / 70
12.8 集成交互類型 / 71
第13章 核心實時數據集成技術 / 72
13.1 令人困惑的術語 / 72
13.2 企業服務總線 / 72
13.3 面向服務架構 / 75
13.4 可擴展標記語言 / 77
13.5 數據復制和變化數據捕獲 / 81
13.6 企業應用集成 / 82
13.7 企業信息集成 / 82
第14章 數據集成建模 / 84
14.1 規范化建模 / 84
14.2 消息建模 / 88
第15章 主數據管理 / 89
15.1 主數據管理簡介 / 89
15.2 需要主數據管理方案的原因 / 89
15.3 購買的軟件包與主數據 / 90
15.4 參考數據 / 90
15.5 主和從 / 91
15.6 外部數據 / 93
15.7 主數據管理功能 / 93
15.8 主數據管理方案的類型—注冊表以及數據中心 / 94
第16章 實時更新數據倉庫 / 95
16.1 企業信息工廠 / 95
16.2 操作型數據存儲 / 96
16.3 移動到數據倉庫的主數據 / 97
第17章 實時數據集成架構和元數據 / 99
17.1 實時數據集成元數據簡介 / 99
17.2 建模 / 100
17.3 概要分析 / 100
17.4 元數據庫 / 101
17.5 企業服務總線—數據轉換和調度 / 101
17.5.1 技術中介 / 101
17.5.2 業務內容 / 102
17.6 數據移動和中間件 / 102
17.7 外部交互 / 102
第四部分 大數據集成
第18章 大數據集成簡介 / 106
18.1 數據集成及非結構化數據 / 106
18.2 大數據、云數據及數據虛擬化 / 106
第19章 云架構和數據集成 / 107
19.1 為什么云中的數據集成比較重要 / 107
19.2 公共云 / 107
19.3 云安全 / 108
19.4 云延遲 / 109
19.5 云冗余 / 110
第20章 數據虛擬化 / 111
20.1 恰逢其時的一項技術 / 111
20.2 數據虛擬化的商業用途 / 112
20.2.1 商務智能方案 / 112
20.2.2 集成不同類型的數據 / 113
20.2.3 快速向數據倉庫中增加或者原型增加數據 / 113
20.2.4 將物理上不同的數據一起展現 / 113
20.2.5 利用不同的數據和模型觸發交易 / 114
20.3 數據虛擬化架構 / 114
20.3.1 源和適配器 / 114
20.3.2 映射、模型和視圖 / 114
20.3.3 轉換和展現 / 115
第21章 大數據集成 / 116
21.1 什么是大數據 / 116
21.2 大數據維度—量 / 116
21.2.1 大規模并行處理—將處理過程移動到數據端 / 116
21.2.2 Hadoop和MapReduce / 117
21.2.3 與外部數據集成 / 117
21.2.4 虛擬化 / 118
21.3 大數據維度—多樣性 / 118
21.3.1 數據類型 / 118
21.3.2 集成不同類型的數據 / 118
21.4 大數據維度—速度 / 120
21.4.1 流式數據 / 121
21.4.2 傳感器和GPS數據 / 121
21.4.3 社會化媒體數據 / 121
21.5 傳統大數據應用案例 / 121
21.6 更多大數據應用案例 / 122
21.6.1 醫療 / 122
21.6.2 物流 / 122
21.6.3 國家安全 / 122
21.7 利用大數據的力量—實施決策支持 / 123
21.7.1 觸發行動 / 123
21.7.2 從內存以及磁盤中檢索數據的速度 / 123
21.7.3 從數據分析到模型,從流式數據到決策 / 124
21.8 大數據架構 / 125
21.8.1 操作型系統和數據存儲 / 125
21.8.2 中間數據中心 / 126
21.8.3 商務智能工具 / 126
21.8.4 數據虛擬化服務器 / 127
21.8.5 批處理和實時數據集成工具 / 127
21.8.6 分析型沙盒 / 127
21.8.7 風險響應系統/推薦引擎 / 127
第22章 移動數據管理總結 / 132
22.1 數據集成架構 / 132
22.1.1 為什么需要數據集成架構 / 132
22.1.2 數據集成生命周期和專家經驗 / 132
22.1.3 安全和隱私 / 133
22.2 數據集成引擎 / 134
22.2.1 操作連貫性 / 134
22.2.2 ETL引擎 / 134
22.2.3 企業服務總線 / 135
22.2.4 數據虛擬化服務器 / 135
22.2.5 數據移動 / 136
22.3 數據集成中心 / 136
22.3.1 主數據 / 137
22.3.2 數據倉庫和操作型數據存儲 / 137
22.3.3 企業內容管理 / 138
22.3.4 數據歸檔 / 138
22.4 元數據管理 / 138
22.4.1 數據發現 / 138
22.4.2 數據概要分析 / 139
22.4.3 數據建模 / 139
22.4.4 數據流建模 / 139
22.4.5 元數據存儲庫 / 139
22.5 結束語 / 140
參考文獻 / 141
第一部分
數據集成導論
第1章 數據集成的重要性
第2章 什么是數據集成
第3章 數據集成的類型和復雜性
第4章 數據集成開發過程
第1章 數據集成的重要性
1.1 數據接口的天然復雜性
一般企業計算環境總是由上百甚至上千離散并且不斷變化的計算機系統組成的,這些系統或自行構建,或購買,或通過其他方式獲得。這些系統的數據需要集成到一起,用于做報表或者分析,需要共享以進行商務處理;當舊系統被設立的新系統取代時,需要從舊系統格式轉換為另外一種格式。對于所有的信息技術組織來說,如何有效地管理系統之間的數據傳輸是需要面對的主要挑戰之一。
絕大多數數據管理都集中在存儲于數據結構中的數據,如數據庫和文件系統。只有極少數關注不同的數據結構存儲之間流動的數據。然而,組織內部的數據接口管理正快速成為業務和信息技術管理最主要的關注點。隨著越來越多的系統加入組織的應用系統組合中,系統之間接口的數量和復雜度也隨之迅速膨脹,接口之間的管理也讓人不堪重負。
傳統的接口開發方式很快導致復雜度變得難以管理。應用和系統之間接口的數量隨著系統數量的增加呈指數級增加。實際工作中,并不是每個系統都需要和其他系統交互,但是為了滿足不同的需求或者數據交換的需要,在系統之間卻會存在多個接口。因此,對于一個擁有100個應用的組織來說,可能有大致5000個接口。對于一個擁有1000個應用的應用組合來說,可能會有近50萬個接口需要管理。
如圖1-1所示,傳統的“點對點”的集成方案正是產生這種挑戰的原因。而借助一些數據管理最佳實踐的技巧,則可以讓組織的數據接口管理更為合理。如果組織在開發接口的時候沒有一個企業級的數據集成策略,那么很快就會發現接踵而至的管理大量接口的麻煩。