機器學習是人工智能的重要技術基礎,涉及的內容十分廣泛。本書內容涵蓋了機器學習的基礎知識,主要包括機器學習的概論、統計學習基礎、分類、聚類、神經網絡、貝葉斯網絡、支持向量機、進化計算、文本分析等經典的機器學習理論知識,也包括用于大數據機器學習的分布式機器學習算法、深度學習和加強學習等高等級內容。此外,還介紹了機器學習的熱門應用領域推薦技術,并給出了華為機器學習平臺上的實驗。本書深入淺出、內容全面、案例豐富,每章后都有習題和參考文獻,便于學生鞏固學習,適用于高等院校本科生、研究生機器學習、數據分析、數據挖掘等課程的教材,也可作為對機器學習感興趣的研究人員和工程技術人員的參考資料。
1.大數據專家,復旦大學教授新力作
2.華為公司提供真實企業開發案例
3.提供典型Python算法與案例
4.突出機器學習系統內容,包括深度學習典型算法與應用、知識圖譜、機器學習行業應用等
5.提供多媒體課件、案例代碼等豐富的配套資源
2001年4月畢業于東南大學,獲博士學位。2001年6月起在復旦大學管理科學與工程博士后流動站工作。2003年5月進入復旦大學軟件學院,主要負責本科生和各類研究生電子商務、大數據核心技術和商務智能等課程的教學,2011年紐約大學Stern商學院訪問學者。商務智能被評為上海市精品課程,獲得2013年高等教育上海市教學成果獎二等獎。發表論文90多篇,其中被SCI、EI收錄40多篇。出版專著及教材10多部。獲得上海市2015年上海市科技進步二等獎。
序言
第 一章機器學習概述1
1.1機器學習簡介1
1.1.1機器學習簡史1
1.1.2機器學習主要流派2
1.2機器學習、人工智能和數據挖掘4
1.2.1什么是人工智能4
1.2.2機器學習、人工智能與數據挖掘5
1.3典型機器學習應用領域5
1.4機器學習算法12
1.5機器學習的一般流程20
第 二章機器學習基本方法23
2.1統計分析23
2.1.1統計基礎23
2.1.2常見概率分布29
2.1.3參數估計31
2.1.4假設檢驗33
2.1.5線性回歸33
2.1.6Logistics回歸37
2.1.7判別分析38
2.1.8非線性模型39
2.2高維數據降維40
2.2.1主成分分析40
2.2.2線性判別分析43
2.2.3局部線性嵌入47
2.3特征工程48
2.3.1特征構造48
2.3.2特征選擇49
2.3.3特征提取50
2.4模型訓練50
2.4.1模型訓練常見術語50
2.4.2訓練數據收集51
2.5可視化分析52
2.5.1可視化分析的作用52
2.5.2可視化分析方法53
2.5.3可視化分析常用工具54
2.5.4常見的可視化圖表56
2.5.5可視化分析面臨的挑戰62
第三章 決策樹與分類算法64
3.1決策樹算法64
3.1.1分支處理66
3.1.2連續屬性離散化72
3.1.3過擬合問題74
3.1.4分類效果評價78
3.2集成學習83
3.2.1裝袋法83
3.2.2提升法84
3.2.3GBDT86
3.2.4隨機森林87
3.3決策樹應用89
第四章 聚類分析95
4.1聚類分析概念95
4.1.1聚類方法分類95
4.1.2良好聚類算法的特征97
4.2聚類分析的度量97
4.2.1外部指標98
4.2.2內部指標99
4.3基于劃分的方法101
4.3.1k-均值算法101
4.3.2k-medoids算法106
4.3.3k-prototype算法107
4.4基于密度聚類107
4.4.1DBSCAN算法108
4.4.2OPTICS算法110
4.4.3DENCLUE算法111
4.5基于層次的聚類116
4.5.1BIRCH聚類117
4.5.2CURE算法120
4.6基于網格的聚類122
4.7基于模型的聚類123
4.7.1概率模型聚類123
4.7.2模糊聚類129
4.7.3Kohonen神經網絡聚類129
第五章 文本分析137
5.1文本分析介紹137
5.2文本特征提取及表示138
5.2.1TF-IDF138
5.2.2信息增益139
5.2.3互信息139
5.2.4卡方統計量140
5.2.5詞嵌入141
5.2.6語言模型142
5.2.7向量空間模型144
5.3知識圖譜146
5.3.1知識圖譜相關概念147
5.3.2知識圖譜的存儲147
5.3.3知識圖譜挖掘與計算148
5.3.4知識圖譜的構建過程150
5.4詞法分析155
5.4.1文本分詞156
5.4.2命名實體識別159
5.4.3詞義消歧160
5.5句法分析161
5.6語義分析163
5.7文本分析應用164
5.7.1文本分類164
5.7.2信息抽取167
5.7.3問答系統168
5.7.4情感分析169
5.7.5自動摘要171
第六章 神經網絡173
6.1神經網絡介紹173
6.1.1前饋神經網絡173
6.1.2反饋神經網絡176
6.1.3自組織神經網絡179
6.2神經網絡相關概念180
6.2.1激活函數180
6.2.2損失函數184
6.2.3學習率185
6.2.4過擬合188
6.2.5模型訓練中的問題189
6.2.6神經網絡效果評價192
6.3神經網絡應用192
第七章 貝葉斯網絡197
7.1貝葉斯理論概述197
7.1.1貝葉斯方法的基本觀點197
7.1.2貝葉斯網絡的應用198
7.2貝葉斯概率基礎198
7.2.1概率論198
7.2.2貝葉斯概率199
7.3樸素貝葉斯分類模型200
7.4貝葉斯網絡203
7.5貝葉斯網絡的應用209
7.5.1中文分詞210
7.5.2機器翻譯210
7.5.3故障診斷211
7.5.4疾病診斷211
第八章 支持向量機215
8.1支持向量機模型215
8.1.1核函數215
8.1.2模型原理分析216
8.2支持向量機應用219
第九章 進化計算226
9.1遺傳算法的基礎226
9.1.1基因重組(交叉)與基因突變227
9.1.2遺傳算法實現技術228
9.1.3遺傳算法案例234
9.2蟻群算法237
9.2.1蟻群算法應用案例238
9.3蜂群算法簡介239
9.3.1蜂群算法應用案例241
第十章 分布式機器學習245
10.1分布式機器學習基礎245
10.1.1參數服務器245
10.1.2分布式并行計算類型246
10.2分布式機器學習框架247
10.3并行決策樹254
10.4并行k-均值算法255
第十一章 深度學習258
11.1卷積神經網絡258
11.1.1卷積神經網絡的整體結構259
11.1.2常見卷積神經網絡262
11.2循環神經網絡271
11.2.1RNN基本原理271
11.2.2長短期記憶網絡274
11.2.3門限循環單元277
11.3深度學習流行框架278
第十二章 高等級深度學習281
12.1高等級卷積神經網絡281
12.1.1目標檢測與追蹤281
12.1.2目標分割295
12.2高等級循環神經網絡應用301
12.2.1Encoder-Decoder模型301
12.2.2注意力模型301
12.2.3LSTM高等級應用302
12.3無監督式深度學習307
12.3.1深度信念網絡307
12.3.2自動編碼器網絡309
12.3.3生成對抗網絡模型312
12.4強化學習316
12.4.1增強學習基礎316
12.4.2深度增強學習318
12.5遷移學習321
12.6對偶學習324
第十三章 推薦系統327
13.1推薦系統介紹327
13.1.1推薦系統的應用場景327
13.2推薦系統通用模型329
13.2.1推薦系統結構329
13.2.2基于內容的推薦330
13.2.3基于協同過濾的推薦算法331
13.2.4基于圖的模型334
13.2.5基于關聯規則的推薦335
13.2.6基于知識的推薦341
13.2.7基于標簽的推薦342
13.3推薦系統評測343
13.3.1評測方法343
13.3.2評測指標345
13.4推薦系統常見問題349
13.4.1冷啟動問題349
13.4.2推薦系統注意事項351
13.5推薦系統實例352
第十四章 實驗364
14.1華為FusionInsight產品平臺介紹364
14.2銀行定期存款業務預測365
14.2.1上傳銀行客戶及存貸款數據366
14.2.2準備存款業務分析工作區367
14.2.3創建數據挖掘流程368
14.2.4定期存款業務模型保存和應用375
14.3客戶分群378
14.3.1分析業務需求379
14.3.2上傳客戶信息數據381
14.3.3準備客戶分群工作區382
14.3.4創建數據挖掘流程383
14.3.5客戶分群模型保存和應用392