機器學習是一門多領域交叉學科, 涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度等多門學科, 專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為。機器學習是人工智能的核心, 是使計算機具有智能的根本途徑。本書通過對機器學習的背景知識、算法流程、相關工具、實踐案例以及知識圖譜等內(nèi)容的講解, 全面介紹了機器學習的理論基礎和實踐應用。書中涉及機器學習領域的多個典型算法, 并詳細給出了機器學習的算法流程。
人工智能,觸手可及,讓數(shù)據(jù)起舞,用算法擴展業(yè)務邊界 。
阿里機器學習專家力作,實戰(zhàn)經(jīng)驗分享 。
這是一本難得的面向機器學習愛好者的入門級教程,本書涉及機器學習的基礎理論
和深度學習等相關內(nèi)容,內(nèi)容深入淺出。更加難能可貴的是,本書基于阿里云機器學習平臺,針對7個具體的業(yè)務場景,搭建了完整的解決方案,給讀者帶來第一手的實戰(zhàn)演練經(jīng)驗。
——阿里云資深專家 褚崴
機器學習算法正在逐漸滲透到數(shù)據(jù)化運營的各個方面,算法和業(yè)務數(shù)據(jù)相結合可以大幅度地提高業(yè)務效率、降低成本。本書以算法的業(yè)務應用作為切入點,包含大量的案例說明,非常適合讀者快速入門。
——阿里云高級專家 陳鵬宇
通過閱讀本書,你將了解到:
機器學習全流程的串聯(lián)方式,包括數(shù)據(jù)預處理、特征工程、算法、模型評估等;
常用的機器學習算法,包括邏輯回歸、隨機森林、支持向量機、KMEANS、DBSCAN、K近鄰、
馬爾科夫決策、LDA、標簽傳播等;
機器學習算法在實際業(yè)務中的應用,涉及金融、醫(yī)療、新聞、電商等諸多領域;
機器學習的常用工具:R、Spark-MLib、TensorFlow、PAI等;
時下熱門的技術領域:深度學習、知識圖譜等。
李博,花名“傲海”。目前任阿里云數(shù)據(jù)產(chǎn)品經(jīng)理,主要負責機器學習平臺的產(chǎn)品化建設以及對外業(yè)務應用。本科、碩士畢業(yè)于北京郵電大學,曾就職于索尼和華為(實習),從事數(shù)據(jù)相關產(chǎn)品的開發(fā)。作為CSDN博客專家、云棲社區(qū)博客專家,長期分享IT技術相關文章,內(nèi)容涉及機器學習算法、Android應用及源碼開發(fā)等領域。一直活躍于開發(fā)者社區(qū),主導開發(fā)了多個GitHub百星開源項目,還開發(fā)并上線了多款手機App。作者微信公眾號(長期更新機器學習業(yè)務應用文章):凡人機器學習 個人網(wǎng)站:www.garvinli.com 作者郵箱:garvin.libo@gmail.com
第1部分 背景知識
第1章 機器學習概述 3
1.1 背景 3
1.2 發(fā)展現(xiàn)狀 6
1.2.1 數(shù)據(jù)現(xiàn)狀 6
1.2.2 機器學習算法現(xiàn)狀 8
1.3 機器學習基本概念 12
1.3.1 機器學習流程 12
1.3.2 數(shù)據(jù)源結構 14
1.3.3 算法分類 16
1.3.4 過擬合問題 18
1.3.5 結果評估 20
1.4 本章小結 22
第2部分 算法流程
第2章 場景解析 25
2.1 數(shù)據(jù)探查 25
2.2 場景抽象 27
2.3 算法選擇 29
2.4 本章小結 31
第3章 數(shù)據(jù)預處理 32
3.1 采樣 32
3.1.1 隨機采樣 32
3.1.2 系統(tǒng)采樣 34
3.1.3 分層采樣 35
3.2 歸一化 36
3.3 去除噪聲 39
3.4 數(shù)據(jù)過濾 42
3.5 本章小結 43
第4章 特征工程 44
4.1 特征抽象 44
4.2 特征重要性評估 49
4.3 特征衍生 53
4.4 特征降維 57
4.4.1 特征降維的基本概念 57
4.4.2 主成分分析 59
4.5 本章小結 62
第5章 機器學習算法——常規(guī)算法 63
5.1 分類算法 63
5.1.1 K近鄰 63
5.1.2 樸素貝葉斯 68
5.1.3 邏輯回歸 74
5.1.4 支持向量機 81
5.1.5 隨機森林 87
5.2 聚類算法 94
5.2.1 K-means 97
5.2.2 DBSCAN 103
5.3 回歸算法 109
5.4 文本分析算法 112
5.4.1 分詞算法——Hmm 112
5.4.2 TF-IDF 118
5.4.3 LDA 122
5.5 推薦類算法 127
5.6 關系圖算法 133
5.6.1 標簽傳播 134
5.6.2 Dijkstra最短路徑 138
5.7 本章小結 145
第6章 機器學習算法——深度學習 146
6.1 深度學習概述 146
6.1.1 深度學習的發(fā)展 147
6.1.2 深度學習算法與傳統(tǒng)
算法的比較 148
6.2 深度學習的常見結構 152
6.2.1 深度神經(jīng)網(wǎng)絡 152
6.2.2 卷積神經(jīng)網(wǎng)絡 153
6.2.3 循環(huán)神經(jīng)網(wǎng)絡 156
6.3 本章小結 157
第3部分 工具介紹
第7章 常見機器學習工具介紹 161
7.1 概述 161
7.2 單機版機器學習工具 163
7.2.1 SPSS 163
7.2.2 R語言 167
7.2.3 工具對比 172
7.3 開源分布式機器學習工具 172
7.3.1 Spark MLib 172
7.3.2 TensorFlow 179
7.4 企業(yè)級云機器學習工具 190
7.4.1 亞馬遜AWS ML 191
7.4.2 阿里云機器學習PAI 196
7.5 本章小結 205
第4部分 實戰(zhàn)應用
第8章 業(yè)務解決方案 209
8.1 心臟病預測 209
8.1.1 場景解析 209
8.1.2 實驗搭建 211
8.1.3 小結 216
8.2 商品推薦系統(tǒng) 216
8.2.1 場景解析 217
8.2.2 實驗搭建 218
8.2.3 小結 220
8.3 金融風控案例 220
8.3.1 場景解析 221
8.3.2 實驗搭建 222
8.3.3 小結 225
8.4 新聞文本分析 225
8.4.1 場景解析 225
8.4.2 實驗搭建 226
8.4.3 小結 230
8.5 農(nóng)業(yè)貸款發(fā)放預測 230
8.5.1 場景解析 230
8.5.2 實驗搭建 232
8.5.3 小結 236
8.6 霧霾天氣成因分析 236
8.6.1 場景解析 237
8.6.2 實驗搭建 238
8.6.3 小結 243
8.7 圖片識別 243
8.7.1 場景解析 243
8.7.2 實驗搭建 245
8.7.3 小結 253
8.8 本章小結 253
第5部分 知識圖譜
第9章 知識圖譜 257
9.1 未來數(shù)據(jù)采集 257
9.2 知識圖譜的概述 259
9.3 知識圖譜開源
工具 261
9.4 本章小結 264
參考文獻 265