朝樂門,1979年生,中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點實驗室、信息資源管理學(xué)院副教授,博士生導(dǎo)師;章魚大數(shù)據(jù)首席數(shù)據(jù)科學(xué)家;中國計算機(jī)學(xué)會信息系統(tǒng)專委員會委員、ACM高級會員、國際知識管理協(xié)會正式委員、全國高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導(dǎo)委員會委員;主持完成國家自然科學(xué)基金、國家社會科學(xué)基金等重要科學(xué)研究項目10余項;參與完成核高基、973、863、國家自然科學(xué)基金重點項目、國家社會科學(xué)基金重大項目等國家重大科研項目10余項;獲得北京市中青年骨干教師稱號、國際知識管理與智力資本杰出成就獎、Emerald/EFMD國際杰出博士論文獎、國家自然科學(xué)基金項目優(yōu)秀項目、中國大數(shù)據(jù)學(xué)術(shù)創(chuàng)新獎、中國大數(shù)據(jù)創(chuàng)新百人榜單、中國人民大學(xué)優(yōu)秀博士論文獎等多種獎勵30余項。朝樂門是我國第一部系統(tǒng)闡述數(shù)據(jù)科學(xué)理念、理論、方法、技術(shù)和工具的重要專著——《數(shù)據(jù)科學(xué)》(清華大學(xué)出版社,2016)的作者,也是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)*個領(lǐng)域本體“DataScienceOntology”研發(fā)團(tuán)隊的總負(fù)責(zé)人。
第1章基礎(chǔ)理論
如何開始學(xué)習(xí)
1.1術(shù)語定義
1.2研究目的
1.3發(fā)展簡史
1.4理論體系
1.5基本原則
1.6數(shù)據(jù)科學(xué)家
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第2章理論基礎(chǔ)
如何開始學(xué)習(xí)
2.1數(shù)據(jù)科學(xué)的學(xué)科地位
2.2統(tǒng)計學(xué)
2.3機(jī)器學(xué)習(xí)
2.4數(shù)據(jù)可視化
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第3章流程與方法
如何開始學(xué)習(xí)
3.1基本流程
3.2數(shù)據(jù)加工
3.3數(shù)據(jù)審計
3.4數(shù)據(jù)分析
3.5數(shù)據(jù)可視化
3.6數(shù)據(jù)故事化
3.7項目管理
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第4章技術(shù)與工具
如何開始學(xué)習(xí)
4.1技術(shù)體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發(fā)展趨勢
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第5章數(shù)據(jù)產(chǎn)品及開發(fā)
如何開始學(xué)習(xí)
5.1定義
5.2主要特征
5.3關(guān)鍵活動
5.4數(shù)據(jù)柔術(shù)
5.5數(shù)據(jù)能力
5.6數(shù)據(jù)戰(zhàn)略
5.7數(shù)據(jù)治理
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第6章典型案例及實踐
如何開始學(xué)習(xí)
6.12012年美國總統(tǒng)大選
6.2統(tǒng)計分析
6.3機(jī)器學(xué)習(xí)
6.4數(shù)據(jù)可視化
6.5SparkR編程
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
附錄AR語言學(xué)習(xí)筆記與參考手冊
學(xué)習(xí)與參考指南
1. R變量定義方法
2. R語句的寫法
3. R中的賦值語句
4. R的文件讀寫路徑——當(dāng)前工作目錄
5. R的變量查找機(jī)制——搜索路徑
6. R中查看幫助的方法
7. R區(qū)分大小寫字母
8. R的注釋
9. R的語句
10. R中的變量命名規(guī)范
11. R中的關(guān)鍵字/保留字
12. R中的默認(rèn)數(shù)據(jù)類型
13. R中數(shù)據(jù)類型的判斷與強(qiáng)制類型轉(zhuǎn)換
14. R中的向量
15. R中的列表
16. R中的數(shù)據(jù)框
17. R中的因子類型
18. R中的循環(huán)語句
19. R中的選擇語句
20. R中的特殊運(yùn)算符
21. R中的快速生成數(shù)列的方法
22. R中自定義函數(shù)
23. R中常用的數(shù)學(xué)函數(shù)
24. R中的字符串處理函數(shù)
25. R中的常用統(tǒng)計函數(shù)
26. R中的隨機(jī)數(shù)
27. R包的用法
28. R中的矩陣
29. R中的數(shù)組
30. R中的面向?qū)ο缶幊?
31. R中的S4類
32. R中的數(shù)據(jù)可視化
33. R的輸入輸出
34. R中的正則表達(dá)式
35. R的數(shù)據(jù)集
36. R第三方包——R的靈魂
37. 基于R的數(shù)據(jù)加工
附錄B數(shù)據(jù)科學(xué)的重要資源
1. 學(xué)術(shù)期刊
2. 國際會議
3. 研究機(jī)構(gòu)
4. 課程資源
5. 碩士學(xué)位項目
6. 專家學(xué)者
7. 相關(guān)工具
附錄C術(shù)語索引
后記
圖目錄
圖11DIKW金字塔2
圖12數(shù)據(jù)與數(shù)值的區(qū)別3
圖13大數(shù)據(jù)的本質(zhì)4
圖14大數(shù)據(jù)的特征5
圖15DIKUW模型及應(yīng)用8
圖16數(shù)據(jù)洞見8
圖17業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化9
圖18常用驅(qū)動方式9
圖19數(shù)據(jù)的層次性9
圖110大數(shù)據(jù)生態(tài)系統(tǒng)10
圖111Gartner技術(shù)成熟度曲線11
圖112數(shù)據(jù)科學(xué)的萌芽期(1974—2009年)11
圖113數(shù)據(jù)科學(xué)的快速發(fā)展期(2010—2013年)12
圖114數(shù)據(jù)科學(xué)的逐漸成熟期(2014年至今)13
圖115數(shù)據(jù)科學(xué)的理論體系14
圖116數(shù)據(jù)科學(xué)的主要內(nèi)容15
圖117數(shù)據(jù)科學(xué)的“三世界原則”16
圖118數(shù)據(jù)科學(xué)的“三個要素”及“3C精神”17
圖119數(shù)據(jù)范式與知識范式的區(qū)別18
圖120數(shù)據(jù)管理范式的變化18
圖121大數(shù)據(jù)的資產(chǎn)屬性19
圖122常用驅(qū)動方式20
圖123CAPTCHA項目21
圖124ReCAPTCHA項目21
圖125數(shù)據(jù)與算法之間的關(guān)系22
圖126BellKors Pragmatic Chaos團(tuán)隊獲得Netflix獎23
圖127Netflix獎公測結(jié)果23
圖128RStudio中編輯Markdown的窗口25
圖129數(shù)據(jù)科學(xué)家團(tuán)隊28
圖130學(xué)習(xí)數(shù)據(jù)科學(xué)的四則原則29
圖21數(shù)據(jù)科學(xué)的理論基礎(chǔ)35
圖22統(tǒng)計方法的分類(目的與思路視角)37
圖23統(tǒng)計學(xué)中的數(shù)據(jù)推斷37
圖24數(shù)據(jù)統(tǒng)計方法的類型(方法論視角)38
圖25數(shù)據(jù)統(tǒng)計基本方法38
圖26元分析與基本分析39
圖27GFT預(yù)測與美國疾病控制中心數(shù)據(jù)的對比40
圖28GFT估計與實際數(shù)據(jù)的誤差(2013年2月)40
圖29大數(shù)據(jù)時代的思維模式的轉(zhuǎn)變41
圖210西洋雙陸棋42
圖211自動駕駛42
圖212機(jī)器學(xué)習(xí)的基本思路42
圖213機(jī)器學(xué)習(xí)的三要素44
圖214機(jī)器學(xué)習(xí)的類型45
圖215KNN算法的基本步驟46
圖216決策樹示例——識別鳥類48
圖217感知器示例50
圖218前向神經(jīng)網(wǎng)絡(luò)50
圖219歸納學(xué)習(xí)與分析學(xué)習(xí)52
圖220增強(qiáng)學(xué)習(xí)53
圖221IBM Watson54
圖222Pepper機(jī)器人54
圖223機(jī)器學(xué)習(xí)及其應(yīng)用55
圖224Anscombe四組數(shù)據(jù)的可視化57
圖225John Snow的鬼地圖(Ghost Map)58
圖31數(shù)據(jù)科學(xué)的基本流程62
圖32量化自我63
圖33整齊數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別64
圖34整齊數(shù)據(jù)示意圖64
圖35殘差67
圖36數(shù)據(jù)分析的類型68
圖37Analytics 1.0~3.069
圖38數(shù)據(jù)加工方法70
圖39數(shù)據(jù)審計與數(shù)據(jù)清洗71
圖310缺失數(shù)據(jù)的處理步驟72
圖311冗余數(shù)據(jù)的處理方法72
圖312數(shù)據(jù)分箱處理的步驟與類型73
圖313均值平滑與邊界值平滑74
圖314內(nèi)容集成76
圖315結(jié)構(gòu)集成76
圖316數(shù)據(jù)脫敏處理77
圖317數(shù)據(jù)連續(xù)性的定義及重要性81
圖318可視化審計82
圖319Gartner分析學(xué)價值扶梯模型83
圖320冰激凌的銷量與謀殺案的發(fā)生數(shù)量84
圖321數(shù)據(jù)分析的類型86
圖322拿破侖進(jìn)軍俄國慘敗而歸的歷史事件的可視化87
圖323可視化分析學(xué)的相關(guān)學(xué)科87
圖324可視化分析學(xué)模型88
圖325數(shù)據(jù)可視化的方法體系89
圖326視覺圖形元素與視覺通道89
圖327雷達(dá)圖示例89
圖328齊美爾連帶89
圖329視覺隱喻的示例——美國政府機(jī)構(gòu)的設(shè)置90
圖330地鐵路線圖的創(chuàng)始人Henry Beck91
圖331Henry Beck的倫敦地鐵線路圖91
圖332視覺突出的示例92
圖333完圖法則的示例92
圖334視覺通道的選擇與展示94
圖335視覺通道的精確度對比94
圖336視覺通道的可辨認(rèn)性——某公司產(chǎn)品銷售示意圖95
圖337視覺通道的可分離性差95
圖338上下文導(dǎo)致視覺假象196
圖339上下文導(dǎo)致視覺假象296
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96
圖341數(shù)據(jù)可視化與數(shù)據(jù)故事化描述97
圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)98
圖343項目管理的主要內(nèi)容101
圖344數(shù)據(jù)科學(xué)項目的基本流程102
圖41大數(shù)據(jù)產(chǎn)業(yè)全景圖107
圖42基礎(chǔ)設(shè)施108
圖43分析工具109
圖44企業(yè)應(yīng)用109
圖45行業(yè)應(yīng)用110
圖46跨平臺基礎(chǔ)設(shè)施和分析工具110
圖47開源系統(tǒng)111
圖48數(shù)據(jù)源與Apps111
圖49數(shù)據(jù)資源111
圖410MapReduce執(zhí)行過程113
圖411MapReduce對中間數(shù)據(jù)的處理116
圖412以MapReduce為核心和以YARN為核心的軟件棧對比118
圖413下一代MapReduce框架118
圖414Apache Hadoop官網(wǎng)119
圖415Apache Hadoop生態(tài)系統(tǒng)119
圖416Hadoop MapReduce數(shù)據(jù)處理流程121
圖417Apache Hive官網(wǎng)122
圖418Apache Pig官網(wǎng)123
圖419Apache Mahout官網(wǎng)124
圖420Apache HBase官網(wǎng)125
圖421HBase與Hadoop項目125
圖422HBase邏輯模型126
圖423Apache Zookeeper官網(wǎng)127
圖424Apache Flume官網(wǎng)127
圖425Apache Sqoop官網(wǎng)128
圖426Spark 技術(shù)架構(gòu)130
圖427Spark執(zhí)行流程130
圖428Spark Scheduler134
圖429傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點與缺點136
圖430關(guān)系數(shù)據(jù)庫與NoSQL數(shù)據(jù)庫之間的關(guān)系138
圖431NoSQL數(shù)據(jù)分布的兩個基本途徑139
圖432分片處理140
圖433主從復(fù)制141
圖434對等復(fù)制142
圖435數(shù)據(jù)不一致性142
圖436CAP理論143
圖437Memcached官網(wǎng)146
圖438一致性散列的分配方式147
圖439服務(wù)器增加時的變化147
圖440計算模式的演變150
圖441數(shù)據(jù)管理的新變化152
圖51數(shù)據(jù)產(chǎn)品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)157
圖52數(shù)據(jù)產(chǎn)品開發(fā)與數(shù)據(jù)柔術(shù)160
圖53數(shù)據(jù)產(chǎn)品的多樣性160
圖54數(shù)據(jù)產(chǎn)品的層次性161
圖55Google全球商機(jī)洞察(Global Market Finder)162
圖56數(shù)據(jù)產(chǎn)品鏈162
圖57傳統(tǒng)產(chǎn)品開發(fā)與數(shù)據(jù)產(chǎn)品開發(fā)的區(qū)別163
第5章數(shù)據(jù)產(chǎn)品及開發(fā)
如何開始學(xué)習(xí)
【學(xué)習(xí)目的】
【掌握】 數(shù)據(jù)產(chǎn)品的類型、特征及開發(fā)方法
【理解】 數(shù)據(jù)能力評估方法、數(shù)據(jù)治理的主要內(nèi)容、數(shù)據(jù)柔術(shù)的基本思想
【了解】 數(shù)據(jù)戰(zhàn)略的制定要求
【學(xué)習(xí)重點】
數(shù)據(jù)產(chǎn)品的開發(fā)方法
數(shù)據(jù)能力的評估方法
數(shù)據(jù)治理的重要內(nèi)容
數(shù)據(jù)柔術(shù)的基本思想
【學(xué)習(xí)難點】
數(shù)據(jù)產(chǎn)品的設(shè)計
數(shù)據(jù)柔術(shù)的基本思想
DMM模型的應(yīng)用
【學(xué)習(xí)問答】
序號我提出的疑問本章中的答案
1數(shù)據(jù)產(chǎn)品是什么?與傳統(tǒng)產(chǎn)品之間的區(qū)別是什么?定義(5.1)、特征(5.2)
2如何開發(fā)數(shù)據(jù)產(chǎn)品?關(guān)鍵活動(5.3)、數(shù)據(jù)柔術(shù)(5.4)、數(shù)據(jù)能力(5.5)、數(shù)據(jù)戰(zhàn)略(5.6)、數(shù)據(jù)治理(5.7)
3數(shù)據(jù)產(chǎn)品開發(fā)需要具備哪些基本功?數(shù)據(jù)柔術(shù)(5.4)、數(shù)據(jù)能力評估(5.5)、數(shù)據(jù)戰(zhàn)略制定(5.6)、數(shù)據(jù)治理方法(5.7)
4數(shù)據(jù)管理與數(shù)據(jù)治理的區(qū)別是什么?數(shù)據(jù)治理與數(shù)據(jù)管理的區(qū)別(5.7)
5數(shù)據(jù)柔術(shù)是什么?如何掌握數(shù)據(jù)柔術(shù)?數(shù)據(jù)柔術(shù)(5.4)
6如何評估一個組織機(jī)構(gòu)的數(shù)據(jù)管理能力?數(shù)據(jù)能力(5.5)
7如何制定一個機(jī)構(gòu)的大數(shù)據(jù)戰(zhàn)略?數(shù)據(jù)戰(zhàn)略(5.6)
5.1定義
數(shù)據(jù)產(chǎn)品(Data Products)是指“能夠通過數(shù)據(jù)來幫助用戶實現(xiàn)其某一個(些)目標(biāo)的產(chǎn)品”。數(shù)據(jù)產(chǎn)品是在數(shù)據(jù)科學(xué)項目中形成,能夠被人、計算機(jī)以及其他軟硬件系統(tǒng)消費(fèi)、調(diào)用或使用,并滿足他們(它們)某種需求的任何東西,包括數(shù)據(jù)集、文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策及它們的各種組合。需要注意的是:
數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動,數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,而且也包括其中間產(chǎn)品以及副產(chǎn)品。例如,本書圖31所示的數(shù)據(jù)科學(xué)的基本流程中的每個活動產(chǎn)生的中間產(chǎn)品均可稱之為“數(shù)據(jù)產(chǎn)品”。
與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶,而且還包括計算機(jī)以及其他軟硬件系統(tǒng)。其實,數(shù)據(jù)產(chǎn)品被計算機(jī)以及其他軟/硬件系統(tǒng)調(diào)用和“消費(fèi)”的過程是“數(shù)據(jù)轉(zhuǎn)換為能源和材料的過程”,進(jìn)而可以推動信息化和工業(yè)化深度融合。
數(shù)據(jù)產(chǎn)品的存在形式有多種,不僅包括數(shù)據(jù)集,而且還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。
從數(shù)據(jù)流的視角看,“數(shù)據(jù)產(chǎn)品的開發(fā)過程”是一個“數(shù)據(jù)加工(Data Wrangling或Data Munging)”的過程。通常,數(shù)據(jù)產(chǎn)品開發(fā)需要一種特殊的方法和技術(shù)——數(shù)據(jù)柔術(shù)(Data Jujitsu),如圖51所示。
圖51數(shù)據(jù)產(chǎn)品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)
1. 數(shù)據(jù)加工(Data Wrangling或Data Munging)
數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)是數(shù)據(jù)加工。從實現(xiàn)方式看,數(shù)據(jù)加工是一種數(shù)據(jù)轉(zhuǎn)換過程,可分為單維度轉(zhuǎn)換和多維度轉(zhuǎn)換。
單維度轉(zhuǎn)換。在數(shù)據(jù)加工過程中,從結(jié)構(gòu)化程度、加工程度和復(fù)雜化程度等多個維度(圖51)中選擇某一維度,并在此維度上進(jìn)行數(shù)據(jù)轉(zhuǎn)換。例如,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
多維度轉(zhuǎn)換。數(shù)據(jù)加工的工作中也可以在不同維度之間進(jìn)行轉(zhuǎn)換,例如將零次半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為二次結(jié)構(gòu)化數(shù)據(jù)。
需要注意的是,數(shù)據(jù)科學(xué)中的數(shù)據(jù)加工不完全等同于傳統(tǒng)意義上的數(shù)據(jù)轉(zhuǎn)換。二者的主要區(qū)別在于: 數(shù)據(jù)加工過程更強(qiáng)調(diào)的是將數(shù)據(jù)科學(xué)家的3C精神融入到數(shù)據(jù)轉(zhuǎn)換過程,追求的是數(shù)據(jù)處理過程的創(chuàng)新與增值,如表51所示。
……