題的豐富見解和解決方案。《Python機器學習 5個數據科學家案例解析》使用基于案例研究的實踐方法來破解真實世界的應用,里面涉及的機器學習概念再適合不過。這些更智能的機器將使你的業務流程以*短的時間和*少的資源獲得更高的效率。 《Python機器學習 5個數據科學家案例解析》將引導你逐步完善業務流程,幫助你發現構建公司戰略的關鍵點。你將閱讀可以為產品和服務提供支持的機器學習技術。《Python機器學習 5個數據科學家案例解析》還突出了這些機器學習概念的優缺點,以幫助你決定哪一個*適合你的需求。 通過逐步的編碼方法,你將能夠理解機器學習過程中模型選擇背后的基本原理。《Python機器學習 5個數據科學家案例解析》配備了實用的示例和代碼片段,以確保你了解用于解決實際問題的數據科學的方法。《Python機器學習 5個數據科學家案例解析》可以幫助來自技術和非技術背景的人們將機器學習技術應用于現實世界問題。每一章都從一個具有明確定義的業務問題的案例研究開始,然后通過整合案例情節和代碼片段來決定*解決方案。練習貫穿于整個章節,使所學概念得以動手實現。每章*后都以現實世界應用的亮點為結尾,這些概念可以應用到實踐中。
采用機器學習方法和Python,可以使豐富的認知得以自動呈現。《Python機器學習 5個數據科學家案例解析》使用基于案例解析的實踐方法來解決實際應用中運用機器學習的難題。這些更智能的機器將使你的業務流程以*短的時間和*少的資源獲得更高的效率。《Python機器學習 5個數據科學家案例解析》將指導你逐步完善業務流程,并確定框架策略的關鍵點。你將了解可用于產品和服務的機器學習技術。此外,還將了解每個機器學習概念的優缺點,以幫助確定哪一種*適合需求。通過逐步采用Python編程的方法,你將能夠理解機器學習過程中模型選擇和決策背后的基本原理。《Python機器學習 5個數據科學家案例解析》提供實用的示例和代碼,以確保你理解解決實際問題的數據科學方法。
學習 5個數據科學家案例解析》使用基于案例研究的實踐方法來破解真實世界的應用,里面涉及的機器學習概念再適合不過。這些更智能的機器將使你的業務流程以最短的時間和最少的資源獲得更高的效率。《Python機器學習 5個數據科學家案例解析》將引導你逐步完善業務流程,幫助你發現構建公司戰略的關鍵點。你將閱讀可以為產品和服務提供支持的機器學習技術。《Python機器學習 5個數據科學家案例解析》還突出了這些機器學習概念的優缺點,以幫助你決定哪一個最適合你的需求。通過逐步的編碼方法,你將能夠理解機器學習過程中模型選擇背后的基本原理。《Python機器學習 5個數據科學家案例解析》配備了實用的示例和代碼片段,以確保你了解用于解決實際問題的數據科學方法。《Python機器學習 5個數據科學家案例解析》可以幫助來自技術和非技術背景的人們將機器學習技術應用于現實世界問題。每一章都從一個具有明確定義的業務問題的案例研究開始,然后通過整合案例情節和代碼片段來決定最佳解決方案。練習貫穿于整個章節,使所學概念得以動手實現。每章最后都以現實世界應用的亮點為結尾,這些概念可以應用到實踐中。以下簡要概述各章的內容:第1章介紹統計和概率的概念。第2章討論回歸技術和方法以微調模型。第3章向讀者展示時間序列模型,并詳細介紹平穩的性質。第4章使用聚類方法作為輔助,從而將數據劃分用于營銷目的。第5章討論分類模型和評估指標,以評估模型的優劣。
Danish Haroon目前領導Market IQ Inc的數據科學團隊,該團隊專注于從情感轉折點中剔除可操作實時情報的專利預測分析平臺。他獲得了卡拉奇學校(karachi School)商業與領導學院的MBA學位,曾為公司客戶及其數據分析要求提供服務。最近,他開始領導PredictifyME的數據商業化團隊,這家初創公司專注于為美國市場的需求規劃和房地產市場提供預測分析。他目前的研究主要集中在用于改善客戶體驗(Customer Experiences,CX)的數據科學混合物上。
目 錄
第1章 統計與概率 1
1.1 案例研究:自行車共享計劃確定品牌角色 1
1.2 進行探索性數據分析 3
1.2.1 特征探索 4
1.2.2 變量的類型 5
1.2.3 單變量分析 8
1.2.4 多變量分析 12
1.2.5 時間序列成分 15
1.3 度量測度中心 17
1.3.1 平均數 17
1.3.2 中位數 18
1.3.3 眾數 19
1.3.4 方差 19
1.3.5 標準差 19
1.3.6 由于常量的存在而導致中心統計度量的變化 20
1.3.7 正態分布 22
1.4 相關性 29
1.4.1 Pearson R相關 29
1.4.2 Kendall秩相關 29
1.4.3 Spearman秩相關 30
1.5 假設檢驗:比較兩組 31
1.5.1 t-統計量 32
1.5.2 t-分布和樣本容量 32
1.6 中心極限定理 34
1.7 案例研究發現 35
1.8 統計和概率的應用 36
1.8.1 精算科學 36
1.8.2 生物統計學 36
1.8.3 天文統計學 36
1.8.4 商業分析 37
1.8.5 計量經濟學 37
1.8.6 機器學習 37
1.8.7 統計信號處理 37
1.8.8 選舉 37
第2章 回歸 39
2.1 案例研究:消除混凝土抗壓強度的不一致性 39
2.2 回歸的概念 42
2.2.1 內插和外推 42
2.2.2 線性回歸 42
2.2.3 y在x上的最小二乘回歸線 43
2.2.4 多重回歸 44
2.2.5 逐步回歸 45
2.2.6 多項式回歸 46
2.3 回歸的假設 47
2.3.1 案例數量 47
2.3.2 缺失數據 47
2.3.3 多重共線性與奇異性 48
2.4 特征探索 49
2.5 過擬合和欠擬合 55
2.6 回歸度量的評估 58
2.6.1 解釋方差得分 58
2.6.2 平均絕對誤差 58
2.6.3 均方誤差 59
2.6.4 R2 59
2.6.5 殘差 60
2.6.6 殘差圖 60
2.6.7 殘差平方和 60
2.7 回歸的類型 61
2.7.1 線性回歸 61
2.7.2 網格搜索 65
2.7.3 嶺回歸 65
2.7.4 套索回歸 68
2.7.5 ElasticNet 70
2.7.6 梯度boosting回歸 71
2.7.7 支持向量機 74
2.8 回歸的應用 78
2.8.1 預測銷售額 78
2.8.2 預測債券價值 78
2.8.3 通貨膨脹率 78
2.8.4 保險公司 79
2.8.5 呼叫中心 79
2.8.6 農業 79
2.8.7 預測薪水 79
2.8.8 房地產行業 80
第3章 時間序列 83
3.1 案例研究:預測雅虎的每日調整的收盤價 83
3.2 特征探索 85
3.3 評估時間序列對象的平穩性 86
3.3.1 具有平穩本質的時間序列的性質 87
3.3.2 測試以確定時間序列是否平穩 87
3.3.3 制作時間序列對象的方法 90
3.4 測試以確定時間序列是否具有自相關性 100
3.4.1 自相關函數 100
3.4.2 偏自相關函數 100
3.4.3 度量自相關 101
3.4.4 Durbin Watson統計 101
3.5 建模時間序列 102
3.5.1 驗證預測序列的實驗 102
3.5.2 確定建模參數 103
3.6 自回歸綜合移動平均 105
3.6.1 自回歸移動平均 105
3.6.2 自回歸 106
3.6.3 移動平均線 107
3.6.4 組合模型 108
3.7 縮減預測規模 109
3.8 時間序列分析應用 113
3.8.1 銷售預測 113
3.8.2 天氣預測 113
3.8.3 失業率估計 113
3.8.4 疾病爆發 113
3.8.5 股市預測 114
第4章 聚類 115
4.1 案例研究:確定營銷短尾關鍵詞 115
4.2 特征的探索 117
4.3 有監督學習與無監督學習 118
4.3.1 有監督學習 119
4.3.2 無監督學習 119
4.4 聚類分析 120
4.5 為建模作數據轉換 120
4.6 聚類模型 124
4.6.1 k-means聚類 124
4.6.2 將k-means聚類應用于簇的最優數量 129
4.6.3 主成分分析 130
4.6.4 高斯混合模型 137
4.6.5 貝葉斯高斯混合模型 142
4.7 聚類的應用 144
4.7.1 疾病識別 144
4.7.2 搜索引擎中的文檔聚類 144
4.7.3 基于人口統計的客戶劃分 145
第5章 分類 147
5.1 案例研究:俄亥俄州診所滿足供求 147
5.2 特征探究 149
5.3 實施數據整理 154
5.4 實施探索性數據分析 157
5.5 特征的生成 162
5.6 分類 164
5.6.1 模型評估技術 164
5.6.2 二元分類器:受試者工作特征 165
5.6.3 決策樹分類 168
5.7 核近似 16
95.7.1 SGD分類器 169
5.7.2 集成方法 172
5.8 隨機森林分類 173
5.9 分類應用 178
5.9.1 圖像分類 178
5.9.2 音樂分類 178
5.9.3 E-mail的垃圾郵件過濾 178
5.9.4 保險 179附錄A 圖表類型以及何時使用它們 181