本系列旨在使參與者熟悉整個(gè)數(shù)據(jù)分析生命期,通過眾多案例分析,使參與者熟悉大數(shù)據(jù)在不同相關(guān)行業(yè)中的角色和用途,提供基本及高級(jí)大數(shù)據(jù)分析以及可視化技術(shù)的完整技術(shù)訣竅,幫助他們分析數(shù)據(jù)、創(chuàng)建統(tǒng)計(jì)模型和提供業(yè)務(wù)洞察力。
本系列共兩卷,第1卷“大數(shù)據(jù)分析與預(yù)測(cè)建模”包含4個(gè)模塊,涉及大數(shù)據(jù)入門,分析和R編程入門,使用R語言進(jìn)行數(shù)據(jù)分析,用R語言進(jìn)行高級(jí)分析;第2卷“機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析和可視化”包含3個(gè)模塊,涉及機(jī)器學(xué)習(xí)的概念,社交媒體、移動(dòng)分析和可視化,大數(shù)據(jù)分析的行業(yè)應(yīng)用。
國(guó)際知名IT培訓(xùn)機(jī)構(gòu)中的多名大牛講師,通過對(duì)技術(shù)、IT市場(chǎng)需求以及當(dāng)今就業(yè)培訓(xùn)方面的全球行業(yè)標(biāo)準(zhǔn)進(jìn)行了廣泛并嚴(yán)格的調(diào)研之后,開發(fā)而成。作者們的這些計(jì)劃的構(gòu)思目標(biāo)是,成為理想的就業(yè)能力培訓(xùn)項(xiàng)目,為那些有志于在國(guó)際IT行業(yè)取得事業(yè)成功的人提供服務(wù)。
模塊1 機(jī)器學(xué)習(xí)的概念
第1講 理解機(jī)器學(xué)習(xí)技術(shù) 3
1.1 什么是機(jī)器學(xué)習(xí) 4
1.1.1 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)之間的差異 5
1.1.2 SpamAssassin特性 6
1.2 機(jī)器學(xué)習(xí)的應(yīng)用 8
1.2.1 圖像識(shí)別 8
1.2.2 語音識(shí)別 10
1.2.3 醫(yī)療診斷 10
1.2.4 統(tǒng)計(jì)套利 11
1.2.5 關(guān)聯(lián)學(xué)習(xí) 11
1.2.6 分類 11
1.2.7 預(yù)測(cè) 12
1.2.8 提取 13
1.2.9 回歸 13
1.2.10 概率 13
1.3 機(jī)器學(xué)習(xí)的類型 14
1.3.1 有監(jiān)督學(xué)習(xí) 14
1.3.2 無監(jiān)督學(xué)習(xí) 15
1.3.3 強(qiáng)化學(xué)習(xí) 15
1.4 機(jī)器學(xué)習(xí)方法 16
1.4.1 決策樹學(xué)習(xí) 16
1.4.2 關(guān)聯(lián)規(guī)則學(xué)習(xí) 16
1.4.3 人工神經(jīng)網(wǎng)絡(luò) 17
1.4.4 歸納邏輯編程 17
1.4.5 支持向量機(jī) 17
1.4.6 聚類 18
1.4.7 貝葉斯網(wǎng)絡(luò) 18
1.4.8 強(qiáng)化學(xué)習(xí) 18
1.4.9 表示學(xué)習(xí) 18
1.4.10 相似性和度量學(xué)習(xí) 18
1.4.11 稀疏字典學(xué)習(xí) 19
1.5 機(jī)器學(xué)習(xí)算法列表 19
練習(xí) 22
備忘單 24
第2講 R上的圖模型和貝葉斯網(wǎng)絡(luò) 25
2.1 圖模型簡(jiǎn)介 26
2.1.1 圖模型的類型 30
2.1.2 圖中的條件獨(dú)立性 32
2.1.3 圖中的條件獨(dú)立性與分割 33
2.1.4 圖的分解或者因子化 35
2.1.5 圖模型的應(yīng)用 36
2.2 案例研究——圖模型在大眾公司的應(yīng)用 37
2.2.1 背景 37
2.2.2 問題 37
2.2.3 解決方案 38
2.3 貝葉斯統(tǒng)計(jì)簡(jiǎn)介 38
2.3.1 貝葉斯定理 39
2.3.2 貝葉斯網(wǎng)絡(luò) 39
2.4 貝葉斯網(wǎng)絡(luò)特性 43
2.5 貝葉斯網(wǎng)絡(luò)中的概率推理 49
2.5.1 推斷未觀測(cè)變量 49
2.5.2 參數(shù)學(xué)習(xí) 49
2.5.3 結(jié)構(gòu)學(xué)習(xí) 49
2.6 貝葉斯方法 51
2.6.1 變量消除 51
2.6.2 動(dòng)態(tài)編程 52
2.6.3 逼近算法 52
2.7 貝葉斯網(wǎng)絡(luò)的應(yīng)用 54
練習(xí) 57
備忘單 59
第3講 人工神經(jīng)網(wǎng)絡(luò) 60
3.1 神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 62
3.2 神經(jīng)網(wǎng)絡(luò)的應(yīng)用 65
3.3 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 66
3.4 人工神經(jīng)網(wǎng)絡(luò)模型 68
3.4.1 多層感知器 68
3.4.2 徑向基函數(shù)網(wǎng)絡(luò) 69
3.4.3 Kohonen網(wǎng)絡(luò) 70
3.5 學(xué)習(xí)規(guī)則 72
3.5.1 Hebbian學(xué)習(xí)規(guī)則 73
3.5.2 感知器學(xué)習(xí)規(guī)則 73
3.5.3 Delta學(xué)習(xí)規(guī)則(Windrow-Hoff學(xué)習(xí)規(guī)則) 74
3.5.4 相關(guān)學(xué)習(xí)規(guī)則 74
3.5.5 外向星學(xué)習(xí)規(guī)則 74
3.6 神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法 75
3.6.1 梯度下降 76
3.6.2 演化算法 77
3.6.3 遺傳算法 78
3.7 在R中實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 80
練習(xí) 84
備忘單 87
第4講 在R中使用PCA和因子分析降維 88
4.1 降維簡(jiǎn)介 90
4.2 降維的應(yīng)用 91
4.2.1 文檔分類 91
4.2.2 基因表達(dá)微陣列分析 92
4.2.3 面部識(shí)別 93
4.3 因子分析 94
4.4 因子分析的應(yīng)用 96
4.4.1 心理測(cè)驗(yàn)學(xué)中的因子分析 96
4.4.2 營(yíng)銷中的因子分析 97
4.5 因子分析方法 98
4.5.1 EFA和CFA的相似之處 98
4.5.2 EFA和CFA之間的差異 98
4.6 作為數(shù)據(jù)歸約方法的因子分析 99
4.6.1 確定因子數(shù)量的標(biāo)準(zhǔn) 101
4.6.2 公因子方差 102
4.6.3 因子載荷 103
4.6.4 因子結(jié)構(gòu)的旋轉(zhuǎn) 104
4.6.5 旋轉(zhuǎn)策略 104
4.6.6 因子結(jié)構(gòu)的解讀 105
4.6.7 層次化因子分析 106
4.6.8 因子得分 107
4.7 主成分分析 107
4.7.1 主成分分析的顯著性 108
4.7.2 主成分的提取 108
4.7.3 主成分的特性 108
4.7.4 主成分分析的特性 109
4.8 主成分分析中的數(shù)據(jù)歸約和解讀 109
4.8.1 投影于一個(gè)軸上的慣性 110
4.8.2 距離 110
4.8.3 逆方差 110
4.8.4 協(xié)方差 111
4.8.5 變量的范數(shù) 112
4.8.6 因子軸 112
4.8.7 因子平面 112
4.8.8 主成分分析的目標(biāo) 113
4.8.9 相關(guān)矩陣的特征值 113
4.8.10 變量的表示 113
4.8.11 個(gè)體的表示 114
4.8.12 主成分分析過程 114
4.8.13 選擇主成分?jǐn)?shù)量 116
4.8.14 主成分分析的變種 118
4.9 在R上實(shí)現(xiàn)主成分分析 120
4.9.1 示例1:歐洲人的蛋白質(zhì)消耗 120
4.9.2 示例2:美國(guó)月度失業(yè)率 122
練習(xí) 123
備忘單 125
第5講 支持向量機(jī) 127
5.1 支持向量機(jī)簡(jiǎn)介 128
5.2 支持向量機(jī)的應(yīng)用領(lǐng)域 129
5.3 SVM算法 131
5.3.1 可分情況 132
5.3.2 不可分情況 133
5.4 線性支持向量機(jī) 135
5.4.1 原型 135
5.4.2 對(duì)偶形式 136
5.4.3 有偏和無偏超平面 137
5.5 核函數(shù) 137
5.5.1 核規(guī)則 137
5.5.2 支持向量機(jī)核示例 139
5.6 在R中訓(xùn)練和測(cè)試SVM模型 139
5.7 用SVM模型預(yù)測(cè)的實(shí)例 143
5.7.1 數(shù)據(jù)集 143
5.7.2 準(zhǔn)備數(shù)據(jù)集 144
5.7.3 選擇參數(shù) 144
5.7.4 訓(xùn)練模型 145
5.7.5 測(cè)試模型 146
練習(xí) 147
備忘單 149
模塊2 社交媒體、移動(dòng)分析和可視化
第1講 大數(shù)據(jù)解決方案工程 153
1.1 大數(shù)據(jù)展望過程 154
1.1.1 步驟1:研究和面談以理解業(yè)務(wù)活動(dòng) 155
1.1.2 步驟2:獲取和分析數(shù)據(jù) 157
1.1.3 步驟3:對(duì)新思路展開頭腦風(fēng)暴 158
1.1.4 步驟4:排定大數(shù)據(jù)集用例的優(yōu)先級(jí) 159
1.1.5 步驟5:文檔 160
1.2 大數(shù)據(jù)用例的優(yōu)先級(jí)排定 160
1.2.1 優(yōu)先順序矩陣過程 161
1.2.2 優(yōu)先順序矩陣的陷阱 162
1.3 解決方案工程過程 164
1.3.1 第1步:理解組織是如何賺錢的 164
1.3.2 第2步:識(shí)別組織的關(guān)鍵業(yè)務(wù)活動(dòng) 167
1.3.3 第3步:進(jìn)行頭腦風(fēng)暴,確定大數(shù)據(jù)在業(yè)務(wù)上的作用 167
1.3.4 第4步:將業(yè)務(wù)活動(dòng)分解為用例 168
1.3.5 第5步:證明用例 168
1.3.6 第6步:設(shè)計(jì)和實(shí)施大數(shù)據(jù)解決方案 169
1.4 解決方案工程示例 170
1.4.1 客戶行為分析 171
1.4.2 減少欺詐行為 172
1.5 大數(shù)據(jù)解決方案的挑戰(zhàn) 172
練習(xí) 174
備忘單 176
第2講 社交媒體分析和文本分析 177
2.1 什么是社交媒體 178
2.2 社交分析、指標(biāo)和計(jì)量 181
2.2.1 社交媒體分析工具 181
2.2.2 社交媒體分析與業(yè)務(wù)決策 182
2.2.3 社交媒體分析與其他分析類型的對(duì)比 184
2.3 社交媒體分析的關(guān)鍵要素 184
2.3.1 目標(biāo)受眾 184
2.3.2 預(yù)期行動(dòng) 185
2.3.3 內(nèi)容 185
2.3.4 內(nèi)容機(jī)制 185
2.3.5 社交媒體分析中使用的技術(shù) 186
2.3.6 在線社交媒體分析工具 187
2.3.7 社交媒體分析所用的桌面應(yīng)用程序 187
2.4 文本挖掘簡(jiǎn)介 188
2.4.1 文本挖掘工作方式 189
2.4.2 文本挖掘的應(yīng)用 190
2.5 文本分析過程 190
2.6 情緒分析 192
2.6.1 情緒分析使用的方法 193
2.6.2 在線情緒分析 193
2.7 在R上實(shí)施Twitter情緒分析 194
練習(xí) 203
備忘單 205
第3講 執(zhí)行移動(dòng)分析 207
3.1 移動(dòng)分析簡(jiǎn)介 208
3.1.1 什么是移動(dòng)分析 209
3.1.2 移動(dòng)分析和Web分析 209
3.1.3 移動(dòng)分析和商業(yè)價(jià)值 210
3.1.4 移動(dòng)分析結(jié)果類型 210
3.1.5 移動(dòng)分析應(yīng)用類型 211
3.1.6 使用移動(dòng)分析的領(lǐng)域 212
3.2 移動(dòng)分析工具 212
3.2.1 基于位置的跟蹤工具 213
3.2.2 實(shí)時(shí)分析工具 213
3.2.3 用戶行為跟蹤工具 214
3.3 執(zhí)行移動(dòng)分析 216
3.3.1 通過移動(dòng)應(yīng)用收集數(shù)據(jù) 216
3.3.2 將數(shù)據(jù)收集到服務(wù)器 217
3.4 應(yīng)用分析報(bào)告 218
3.5 移動(dòng)分析的挑戰(zhàn) 219
3.5.1 網(wǎng)絡(luò)問題 219
3.5.2 安全性問題和政府協(xié)議 220
練習(xí) 221
備忘單 223
第4講 大數(shù)據(jù)可視化 225
4.1 什么是可視化 226
4.1.1 為什么對(duì)數(shù)據(jù)進(jìn)行可視化 226
4.1.2 可視化技術(shù) 227
4.1.3 可視化類型 227
4.1.4 可視化的應(yīng)用 228
4.2 大數(shù)據(jù)可視化的重要性 229
4.2.1 傳統(tǒng)信息可視化的不足 229
4.2.2 大數(shù)據(jù)可視化的商業(yè)價(jià)值 229
4.2.3 用可視化將數(shù)據(jù)變成信息 230
4.2.4 使用不同工具的可視化示例 231
4.2.5 大數(shù)據(jù)可視化中的障礙 233
4.3 大數(shù)據(jù)可視化工具 233
4.3.1 大數(shù)據(jù)可視化專屬服務(wù) 234
4.3.2 開源可視化程序庫 234
4.3.3 用于大數(shù)據(jù)可視化的技術(shù) 235
4.4 Tableau產(chǎn)品 235
4.4.1 用Tableau Desktop創(chuàng)建可視化 236
4.4.2 Tableau Desktop工作區(qū)簡(jiǎn)介 239
4.4.3 多個(gè)工作表頁面 240
4.4.4 Tableau工作區(qū) 240
4.5 使用數(shù)據(jù)源 246
4.5.1 用Tableau聯(lián)合數(shù)據(jù)庫表 246
4.5.2 連接到SQL 247
4.6 數(shù)據(jù)運(yùn)算(排序、聚合、聯(lián)接) 248
4.6.1 地圖和地理單元 249
4.6.2 創(chuàng)建交互式可視化 251
練習(xí) 254
備忘單 256
第5講 招聘準(zhǔn)備 258
5.1 大數(shù)據(jù)分析師所需要的關(guān)鍵技能 260
5.2 大數(shù)據(jù)分析崗位職責(zé) 262
5.2.1 初級(jí)分析師 262
5.2.2 中級(jí)分析師 263
5.2.3 高級(jí)分析師 263
5.3 大數(shù)據(jù)工作機(jī)會(huì)領(lǐng)域 264
模塊3 大數(shù)據(jù)分析的行業(yè)應(yīng)用
第1講 大數(shù)據(jù)業(yè)務(wù)問題和解決方案—保險(xiǎn)欺詐分析 273
1.1 背景 274
1.1.1 保險(xiǎn)合同 275
1.1.2 保單類型 275
1.2 保險(xiǎn)欺詐及其影響 276
1.3 場(chǎng)景 277
1.4 數(shù)據(jù)的解釋 277
1.5 方法論 278
1.6 具體做法 279
1.7 結(jié)論 280
第2講 大數(shù)據(jù)業(yè)務(wù)問題和解決方案—信用風(fēng)險(xiǎn) 281
2.1 背景 282
2.2 場(chǎng)景 283
2.3 數(shù)據(jù)的解釋 284
2.4 方法論和具體做法 285
2.5 結(jié)論 287
第3講 大數(shù)據(jù)業(yè)務(wù)問題和解決方案—典型行業(yè) 288
3.1 背景 289
3.1.1 客戶流失 289
3.1.2 缺乏最優(yōu)營(yíng)銷策略 289
3.1.3 呼叫數(shù)據(jù)記錄(CDR)分析的需求 290
3.2 為增加利潤(rùn)而進(jìn)行數(shù)據(jù)分析 290
3.2.1 避免客戶流失 290
3.2.2 采用最優(yōu)的營(yíng)銷策略 290
3.2.3 分析呼叫詳細(xì)記錄 291
3.3 場(chǎng)景 291
3.4 數(shù)據(jù)的解釋 291
3.5 方法論 294
3.6 具體做法 295
3.6.1 高管視圖 295
3.6.2 中層管理視圖 296
3.6.3 代理人視圖 296
3.7 結(jié)論 298
第4講 大數(shù)據(jù)業(yè)務(wù)問題和解決方案—在線客戶細(xì)分 299
4.1 背景 300
4.2 為客戶細(xì)分進(jìn)行數(shù)據(jù)分析 301
4.3 場(chǎng)景 302
4.4 數(shù)據(jù)的解釋 302
4.5 方法論 302
4.6 具體做法 303
4.7 結(jié)論 305
第5講 大數(shù)據(jù)業(yè)務(wù)問題和解決方案—在電子商務(wù)中使用可視化工具 306
5.1 背景 307
5.2 場(chǎng)景 310
5.3 數(shù)據(jù)的解釋 310
5.4 方法論 311
5.5 具體做法 311
5.6 結(jié)論 317