本書的整體行文是基于“說些歷史、話些故事、聊些技術、談些思考”這樣的思路展開的。全書共有13章,邏輯上分為四個部分:第一部分嘗試對“數覺→數→數據→大數據”歷史脈絡進行梳理并陳述社會各界迎接和擁抱“大數據”的若干事實;第二部分嘗試從技術實現和部署實施的角度厘清大數據技術流程,并從多個視角和層面闡述各個環節面臨的挑戰和機遇,重點敘述不同知識背景的研究群體針對大數據的態度、行動和思維方式;第三部分嘗試從管理策略、價值實現及思維方式三個角度厘清大數據落地應用涉及的技術和非技術問題,并從多個視角和層面梳理各個環節的要點和細則;第四部分在對互聯網的技術發展脈絡及國際經濟形勢進行梳理的基礎上,分析了在“互聯網+”概念被熱炒及全民總動員的當代大數據的潛在發展機遇和應用場景。
序
第一篇現象及感性思辨
第1章大數據溯源3
1.1引言3
1.2數覺及數的起源7
1.3模擬與數字計算10
1.4從數據到大數據15
1.5大數據時代19
1.6本章小結23
本章參考文獻23
第2章大數據現象25
2.1引言25
2.2政界大數據28
2.3業界大數據33
2.4學界大數據39
2.5本章小結44
本章參考文獻45
第3章大數據產業46
3.1引言46
3.2大數據產業環境49
3.2.1政策環境49
3.2.2應用環境51
3.2.3技術環境52
3.3大數據產業地圖53
3.3.1大數據產業地圖由來53
3.3.2大數據產業地圖明細54
3.3.3大數據產業地圖意義61
3.4大數據應用提示62
3.4.1大數據中文解析及提示62
3.4.2大數據應用場景及策略64
3.4.3大數據陷阱及應用提示65
3.5本章小結67
本章參考文獻68
第二篇技術及選型思路
第4章大數據支撐技術71
4.1引言71
4.2大數據流程73
4.2.1顯式挑戰74
4.2.2隱式困難76
4.2.3評估思路78
4.3基礎支撐技術78
4.3.1數據采集79
4.3.2數據存儲81
4.3.3數據建模82
4.3.4計算架構85
4.4高級支撐技術90
4.4.1云計算背景90
4.4.2云計算定義91
4.4.3云計算本質93
4.4.4應用提示96
4.5本章小結97
本章參考文獻98
第5章數據采集與整合99
5.1引言99
5.2大數據的數據源101
5.2.1數據分布101
5.2.2內部數據103
5.2.3互聯網數據105
5.2.4應用提示105
5.3內部數據及內部數據采集106
5.3.1目標任務106
5.3.2關鍵技術107
5.3.3ETL工具110
5.3.4應用提示111
5.4互聯網數據及互聯網數據采集113
5.4.1目標任務113
5.4.2關鍵技術114
5.4.3開源網絡爬蟲118
5.4.4應用提示120
5.5本章小結121
本章參考文獻123
第6章數據存儲與管理124
6.1引言124
6.2數據組織127
6.2.1集中與分布128
6.2.2SQL與NoSQL130
6.3數據存儲138
6.4云存儲141
6.5本章小結144
本章參考文獻145
第7章數據表示與理解146
7.1引言146
7.2度量方法149
7.2.1相似系數函數150
7.2.2距離函數152
7.3數據規范154
7.4特征工程155
7.4.1特征表示156
7.4.2特征提取156
7.4.3特征選擇175
7.5應用提示178
7.6本章小結181
本章參考文獻181
第8章數據理解與建模183
8.1引言183
8.2機器學習185
8.3非監督學習187
8.3.1KMeans188
8.3.2EM189
8.4監督學習192
8.4.1回歸192
8.4.2分類196
8.5本章小結226
本章參考文獻227
第9章知識發現與應用229
9.1引言229
9.2從機器學習到數據挖掘233
9.2.1統計與統計學234
9.2.2智能與人工智能235
9.2.3人工智能與機器學習237
9.2.4數據挖掘及技術路徑239
9.2.5應用提示245
9.3從數據挖掘到數據科學246
9.3.1從“驚奇”引發的科學之母246
9.3.2從“科學”引發的研究范式249
9.3.3從“數據”引發的數據科學251
9.4從算法到大數據方法論252
9.4.1演繹與歸納252
9.4.2因果與相關255
9.4.3定律與模型257
9.5本章小結260
本章參考文獻260
第三篇實施及理性思考
第10章大數據實施265
10.1引言265
10.2工程管理267
10.2.1思維層的應用模式梳理267
10.2.2開發層的工程實施路徑270
10.2.3運維層的平臺應用保障273
10.3技術管理274
10.3.1生產流程管理274
10.3.2技術流程管理277
10.3.3知識流程管理279
10.4商務管理282
10.4.1商業模式價值邏輯282
10.4.2大數據與商業模式283
10.4.3典型商業模式示例287
10.5本章小結290
本章參考文獻291
第11章大數據價值292
11.1引言292
11.2從數據到價值294
11.2.1數據的價值295
11.2.2信息的價值297
11.2.3知識的價值299
11.2.4應用提示300
11.3從閉環到開環302
11.3.1垂直應用價值302
11.3.2平臺集成價值303
11.3.3生態協同價值305
11.3.4應用提示305
11.4大數據評估306
11.4.1數據價值評估306
11.4.2數據質量評估310
11.4.3平臺價值評估312
11.4.4應用提示315
11.5本章小結321
本章參考文獻322
第12章大數據思維323
12.1引言323
12.2數據層325
12.2.1數據全采樣325
12.2.2數據交叉復用327
12.2.3數據云化存儲328
12.3分析層330
12.3.1相關重于因果330
12.3.2效率重于精度332
12.3.3離線分析+實時運行334
12.4應用層336
12.4.1數據質量溯源336
12.4.2服務和應用340
12.4.3開放和合作342
12.5本章小結345
本章參考文獻347
第四篇機遇及應用思索
第13章大數據機遇351
13.1引言351
13.2互聯網+356
13.3電子商務359
13.3.1電子商務概述359
13.3.2移動電子商務362
13.3.3跨境電子商務363
13.3.4應用提示365
13.4工業互聯網368
13.4.1基本概念368
13.4.2笑臉曲線368
13.4.3工業4.0371
13.4.4應用提示376
13.5互聯網金融380
13.5.1基本概念380
13.5.2面向投融資的互聯網金融381
13.5.3面向支付的互聯網金融384
13.5.4其他類型的互聯網金融387
13.5.5應用提示390
13.6本章小結392
本章參考文獻394
跋395