大數據系列叢書大數據導論周蘇王文編著清華大學出版社北京內容簡介這是一個大數據爆發的時代。面對信息的激流、多元化數據的涌現,大數據已經為個人生活、企業經營,甚至國家與社會的發展都帶來了機遇和挑戰,大數據已經成為IT信息產業中*具潛力的藍海。
“大數據導論”是一門理論性和實踐性都很強的課程。本教材針對信息管理、經濟管理和其他相關專業學生的發展需求,系統、全面地介紹了關于大數據技術與應用的基本知識和技能,詳細介紹了大數據與大數據時代、大數據的可視化、大數據的商業規則、大數據時代的思維變革、大數據促進醫療與健康、大數據激發創造力、大數據預測分析、大數據促進學習、大數據在云端、支撐大數據的技術、數據科學與數據科學家和大數據的未來等內容,具有較強的系統性、可讀性和實用性。
本書是為高等院校相關專業“大數據基礎”“大數據導論”等課程全新設計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經驗的軟件開發人員、管理人員參考和作為繼續教育的教材。
“大數據系列叢書”由多本既獨立又有豐富內在聯系的大數據時代思維、技術與應用的教材組成。《大數據導論》是其中的一本,也是入門篇。
2012年以來,由于互聯網和信息行業的快速發展,大數據越來越引起人們的關注,已經引發自云計算、互聯網之后IT行業的又一大顛覆性技術革命。人們用大數據來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。企業內部的經營信息、互聯網世界中的商品物流信息,互聯網世界中人與人的交互信息、位置信息等,數據量將遠遠*越現有企業的IT架構和基礎設施的承載能力,實時性要求也將大大*越現有的計算能力。盤活這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。
本書系統、全面地介紹大數據的基本知識,包括大數據與大數據時代、大數據的可視化、大數據的商業規則、大數據時代的思維變革、大數據促進醫療與健康、大數據激發創造力、大數據預測分析、大數據促進學習、大數據在云端、支撐大數據的技術、數據科學與數據科學家以及大數據的未來等內容,具有較強的系統性、可讀性和實用性。
人類正在迅速進入大數據時代,大數據的理念、技術與應用是理論性和實踐性都很強的“必修”課程。本書為高等院校相關專業,尤其是信息管理、經濟管理類專業開設“大數據”相關課程全新設計編寫,是具有豐富實踐特色的主教材。全書理論聯系實際,結合一系列了解和熟悉大數據理念、技術與應用的學習和實踐活動,把大數據的相關概念、基礎知識和技術技巧融入實踐中,使學生保持濃厚的學習熱情,提高學習興趣,加深對大數據技術的認識、理解和掌握。
大數據導論
數據與大數據時代1
1.1什么是大數據2
1.1.1天文學——信息爆炸的起源3
1.1.2大數據的定義6
1.1.3用3V描述大數據特征7
1.1.4廣義的大數據9
1.2大數據變革思維9
1.3大數據的結構類型10
1.4大數據的發展11
1.4.1硬件性價比提高與軟件技術進步11
1.4.2云計算的普及12
1.4.3大數據作為BI的進化形式12
1.4.4從交易數據分析到交互數據分析13第2章大數據的可視化19
2.1數據與可視化21
2.1.1數據的可變性22
2.1.2數據的不確定性23
2.1.3數據所依存的背景信息24
2.1.4打造最好的可視化效果25
2.2數據與圖形25
2.2.1數據與走勢26
2.2.2視覺信息的科學解釋28
2.2.3圖片和分享的力量29
2.3公共數據集30
2.4實時可視化31
2.5挑戰圖像的多變性32
2.6數據可視化的運用332.6.1可視化對認知的幫助34
2.6.27個數據類型35
2.6.37個基本任務36
2.6.4數據可視化的挑戰38第3章大數據的商業規則45
3.1大數據的跨界年度46
3.2谷歌的大數據行動47
3.3亞馬遜的大數據行動49
3.4將信息變成一種競爭優勢50
3.4.1數據價格下降,數據需求上升51
3.4.2大數據應用程序的興起52
3.4.3實時響應,大數據用戶的新要求53
3.4.4企業構建大數據戰略53
3.5大數據營銷54
3.5.1像媒體公司一樣思考54
3.5.2營銷面對新的機遇與挑戰55
3.5.3自動化營銷56
3.5.4為營銷創建高容量和高價值的內容57
3.5.5內容營銷57
3.5.6內容創作與眾包58
3.5.7用投資回報率評價營銷效果59第4章大數據時代的思維變革65
4.1大數據時代的大挑戰67
4.2轉變之一: 樣本=總體68
4.2.1小數據時代的隨機采樣68
4.2.2大數據與喬布斯的癌癥治療71
4.2.3全數據模式: 樣本=總體72
4.3轉變之二: 接受數據的混雜性74
4.3.1允許不精確74
4.3.2大數據的簡單算法與小數據的復雜算法76
4.3.3紛繁的數據越多越好77
4.3.4混雜性是標準途徑78
4.3.5新的數據庫設計79
4.3.65%的數字數據與95%的非結構化數據81
4.4轉變之三: 數據的相關關系81
4.4.1關聯物,預測的關鍵81
4.4.2“是什么”,而不是“為什么”84
4.4.3通過因果關系了解世界84
4.4.4通過相關關系了解世界86第5章大數據促進醫療與健康93
5.1大數據與循證醫學95
5.2大數據帶來的醫療新突破96
5.2.1量化自我,關注個人健康97
5.2.2可穿戴的個人健康設備98
5.2.3大數據時代的醫療信息99
5.2.4CellMiner——對抗癌癥的新工具100
5.3醫療信息數字化102
5.4搜索: 超級大數據的最佳伙伴104
5.5數據決策的成功崛起105
5.5.1數據輔助診斷106
5.5.2你考慮過……了嗎106
5.5.3大數據分析使數據決策崛起107第6章大數據激發創造力112
6.1大數據幫助改善設計114
6.1.1少而精是設計的核心115
6.1.2與玩家共同設計游戲116
6.1.3以人為本的汽車設計理念116
6.1.4尋找最佳音響效果118
6.1.5建筑,數據取代直覺119
6.2大數據操作回路119
6.2.1信號與噪聲120
6.2.2大數據反饋回路120
6.2.3最小數據規模121
6.2.4大數據應用程序的優勢與作用121
6.3大數據資產的崛起122
6.3.1大數據催生嶄新的應用程序122
6.3.2尋找大數據“空白”,提取最大價值122第7章大數據預測分析126
7.1什么是預測分析130
7.1.1預測分析的作用130
7.1.2行業應用舉例131
7.2數據情感和情感數據132
7.2.1從博客觀察集體情感132
7.2.2預測分析博客中的情緒133
7.2.3影響情緒的重要因素——金錢135
7.3數據具有內在預測性136
7.4情感的因果關系137
7.4.1焦慮指數與標普500指數137
7.4.2驗證情感和被驗證的情感138
7.4.3情緒指標影響金融市場139第8章大數據促進學習149
8.1打造網絡教育體系152
8.1.1典型的網絡教育形式152
8.1.2未來的教育: 線上線下結合153
8.1.3跟蹤教學效果154
8.1.4形成學習能力155
8.2機器學習及其研究155
8.2.1什么是人工智能156
8.2.2什么是機器學習157
8.2.3基本結構159
8.2.4研究領域160
8.3機器學習的分類160
8.3.1基于學習策略的分類160
8.3.2基于所獲取知識的表示形式分類161
8.3.3按應用領域分類162
8.3.4按學習形式分類162第9章大數據在云端171
9.1云端大數據173
9.1.1什么是云計算173
9.1.2云計算的服務形式174
9.1.3云計算與大數據175
9.1.4云基礎設施176
9.2計算虛擬化176
9.3大數據存儲177
9.3.1傳統存儲系統時代178
9.3.2大數據時代的新挑戰178
9.3.3分布式存儲180
9.3.4云存儲180
9.3.5大數據存儲的其他需求181
9.4網絡虛擬化182
9.4.1網卡虛擬化182
9.4.2虛擬交換機183
9.4.3接入層的虛擬化184
9.4.4覆蓋網絡虛擬化184
9.4.5軟件定義的網絡184
9.4.6對大數據處理的意義185
9.5數據即服務185
9.5.1數據應用185
9.5.2數據清理185
9.5.3數據保密186
9.6云的挑戰186第10章支撐大數據的技術193
10.1開源技術的商業支援195
10.2大數據的技術架構196
10.3什么是Hadoop197
10.3.1什么是分布式系統197
10.3.2Hadoop的由來199
10.3.3Hadoop的優勢200
10.3.4Hadoop的發行版本200
10.4大數據的數據處理基礎202
10.4.1Hadoop與NoSQL203
10.4.2NoSQL與RDBMS的主要區別204
10.4.3NewSQL206
10.5相關的大數據技術207
10.5.1神經網絡207
10.5.2自然語言處理208
10.5.3語義檢索209
10.5.4鏈接挖掘210
10.5.5A/B測試210第11章數據科學與數據科學家217
11.1什么是數據科學218
11.2數據分析生命周期模型219
11.3數據科學家221
11.3.1大數據生態系統中的關鍵角色222
11.3.2數據科學家所需的技能223
11.3.3數據科學家所需的素質226
11.3.4數據科學家的學習內容227
11.4數據科學的重要技能229
11.4.1數據科學技能和熟練程度230
11.4.2重要數據科學技能230
11.4.3因職業角色而異的十大技能231
11.4.4職業角色的重要技能233第12章大數據的未來240
12.1消費者的隱私權242
12.2連接開放數據244
12.2.1LOD運動244
12.2.2對政府公開的影響245
12.2.3利用開放數據的創業型公司247
12.3數據市場的興起247
12.3.1Factual248
12.3.2Windows Azure Marketplace248
12.3.3Infochimps248
12.3.4Public Data Sets On AWS249
12.3.5不同的商業模式249
12.4將原創數據變為增值數據250
12.5大數據未來展望251
12.5.1大數據存儲和管理252
12.5.2傳統IT系統到大數據系統的過渡252
12.5.3大數據分析253
12.5.4大數據安全254
12.5.5數據科學254
參考文獻266