當大數據資源變得越發(fā)復雜時,僅靠更強大的計算機系統(tǒng)已無法解決問題。本書帶我們重新審視數據準備環(huán)節(jié),重點討論了其中至關重要但又常常被忽略的主題——標識符、不變性、內省和數據索引。此外,書中也涵蓋常見的與大數據設計、架構、操作和分析相關的內容,以及涉及法律、社會和倫理問題的非技術性章節(jié)。全書視角獨特,涉獵廣博,尤以醫(yī)學大數據分析見長,強調基本原理,不關注編程細節(jié)和數學公式,適合企業(yè)決策者、技術專家以及計算機相關專業(yè)的學生閱讀。
譯者序
第2版前言
第1版前言
作者簡介
第1章 引言1
1.1 大數據的定義1
1.2 大數據與小數據2
1.3 大數據在哪里5
1.4 大數據最常見的目的是產生小數據6
1.5 大數據是研究領域的中心話題6
術語表7
參考文獻11
第2章 為非結構化數據提供結構13
2.1 幾乎所有數據都是非結構化的、
不可用的原始形式13
2.2 詞匯索引14
2.3 術語提取16
2.4 構建索引19
2.5 自動編碼20
2.6 案例研究:宇宙中任意原子精確位置的快速定位(需要安裝一些軟件)24
2.7 案例研究(高級):一個完整的自動編碼器(12行Python代碼)26
2.8 案例研究:以詞匯索引進行文本轉換28
2.9 案例研究(高級):Burrows Wheeler變換30
術語表32
參考文獻43
第3章 標識、去標識和重標識45
3.1 什么是標識符45
3.2 標識符和標識系統(tǒng)之間的區(qū)別46
3.3 生成唯一標識符48
3.4 糟糕的標識方法50
3.5 注冊唯一對象標識符53
3.6 去標識和重標識55
3.7 案例研究:數據清理57
3.8 案例研究(高級):圖像標題中的標識符59
3.9 案例研究:單向散列函數61
術語表63
參考文獻69
第4章 元數據、語義和三元組71
4.1 元數據71
4.2 可擴展標記語言71
4.3 語義和三元組72
4.4 命名空間74
4.5 案例研究:三元組的語法75
4.6 案例研究:Dublin Core77
術語表78
參考文獻80
第5章 分類和本體論81
5.1 關于對象關系的全部81
5.2 分類:最簡單的本體84
5.3 本體:有多個父類的類86
5.4 分類模型選擇88
5.5 類混合91
5.6 本體開發(fā)的常見陷阱92
5.7 案例研究:上層本體93
5.8 案例研究(高級):悖論94
5.9 案例研究(高級):RDF框架和類屬性96
5.10 案例研究(高級):可視化類關系98
術語表102
參考文獻111
第6章 內省113
6.1 自我認知113
6.2 數據對象:每個大數據集合中最基本的元素116
6.3 大數據如何使用內省117
6.4 案例研究:時間戳數據119
6.5 案例研究:TripleStore 簡介121
6.6 案例研究(高級):大數據必須是面向對象的證明125
術語表126
參考文獻127
第7章 標準和數據集成128
7.1 標準128
7.2 規(guī)范與標準132
7.3 版本控制134
7.4 合規(guī)問題135
7.5 案例研究:標準化巧克力茶壺135
術語表136
參考文獻137
第8章 不變性和永久性139
8.1 數據不變性的重要性139
8.2 不變性和標識符140
8.3 數據產生數據142
8.4 跨機構協調標識符143
8.5 案例研究:可信時間戳144
8.6 案例研究:區(qū)塊鏈和分布式賬本145
8.7 案例研究(高級):零知識協調147
術語表148
參考文獻150
第9章 評估大數據資源的充分性152
9.1 觀察數據152
9.2 大數據的最小必要屬性158
9.3 附加條件的數據161
9.4 案例研究:用于查看和搜索大型文件的實用程序162
9.5 案例研究:數據扁平化164
術語表164
參考文獻169
第10章 測量170
10.1 準確性與精度170
10.2 數據范圍171
10.3 計數173
10.4 數據標準化和變換176
10.5 約簡數據179
10.6 理解控制181
10.7 沒有實際意義的統(tǒng)計意義182
10.8 案例研究:基因計數183
10.9 案例研究:早期生物特征和狹窄數據范圍的意義184
術語表185
參考文獻186
第11章 快速簡單的大數據分析必不可少的技巧188
11.1 速度和可擴展性188
11.2 適用于大數據的快速操作,并且每臺計算機都支持193
11.3 點積—一種簡單快速的相關方法197
11.4 聚類199
11.5 數據持久性方法(不使用數據庫)201
11.6 案例研究:爬升分類202
11.7 案例研究(高級):數據庫示例203
11.8 案例研究(高級):NoSQL205
術語表205
參考文獻209
第12章 尋找大型數據集中的線索211
12.1 分母211
12.2 詞頻分布212
12.3 異常值和異常215
12.4 封底分析216
12.5 案例研究:預測用戶偏好218
12.6 案例研究:人口數據的多模態(tài)219
12.7 案例研究:大小黑洞220
術語表220
參考文獻224
第13章 使用隨機數將大數據分析問題的規(guī)模縮小225
13.1 (偽)隨機數的顯著效用225
13.2 重采樣230
13.3 蒙特卡羅模擬法234
13.4 案例研究:中心極限定理的證明236
13.5 案例研究:發(fā)生一連串小概率事件的頻率237
13.6 案例研究:臭名昭著的生日問題238
13.7 案例研究(高級):蒙提霍爾問題239
13.8 案例研究(高級):貝葉斯分析241
術語表242
參考文獻244
第14章 大數據分析中的特殊注意事項246
14.1 數據搜索理論246
14.2 理論搜索中的數據247
14.3 巨大的偏差248
14.4 大數據的數據子集:不可加和不傳遞251
14.5 其他大數據陷阱252
14.6 案例研究(高級):維數災難254
術語表257
參考文獻258
第15章 大數據的失敗以及如何避免260
15.1 失敗很常見260
15.2 失敗的標準261
15.3 復雜性264
15.4 逐步走進大數據分析265
15.5 失敗之后272
15.6 案例研究:癌癥生物醫(yī)學信息學網格—遙遠的橋273
15.7 案例研究:高斯Copula函數277
術語表278
參考文獻280
第16章 數據再分析:比分析更重要283
16.1 第一次分析(幾乎)總是錯的283
16.2 為什么再分析比分析更重要285
16.3 案例研究:舊JADE對撞機數據的再分析287
16.4 案例研究:通過再分析證明287
16.5 案例研究:從舊數據中尋找新行星288
術語表289
參考文獻290
第17章 大數據再利用294
17.1 什么是數據再利用294
17.2 暗數據、廢棄數據和遺留數據296
17.3 案例研究:從郵政編碼到人口統(tǒng)計學基礎297
17.4 案例研究:基因序列數據庫的科學推斷298
17.5 案例研究:將全球變暖與高強度颶風聯系起來298
17.6 案例研究:用地質數據推斷氣候趨勢299
17.7 案例研究:環(huán)月影像恢復工程299
術語表301
參考文獻301
第18章 數據共享和數據安全303
18.1 什么是數據共享,為什么我們不共享更多數據303
18.2 常見的不滿303
18.3 數據安全和加密協議308
18.4 案例研究:火星上的生命313
18.5 案例研究:個人標識符314
術語表315
參考文獻317
第19章 合法性320
19.1 對數據的準確性和合法性負責320
19.2 創(chuàng)建、使用和共享資源的權利322
19.3 因使用標準而招致的版權和專利侵權行為324
19.4 對個人的保護325
19.5 許可問題326
19.6 未經許可的數據330
19.7 隱私策略332
19.8 案例研究:大數據的時效性333
19.9 案例:哈瓦蘇派的故事334
術語表335
參考文獻336
第20章 社會問題338
20.1 公眾的大數據感知338
20.2 用大數據降低成本和提高生產效率340
20.3 公眾的疑慮342
20.4 從自己做起343
20.5 誰是大數據344
20.6 傲慢和夸張349
20.7 案例研究:公民科學家351
20.8 案例研究:喬治·奧威爾的《1984》354
術語表354
參考文獻355