前言
這是一本有關數據挖掘和商務分析的實用方法的圖書,適用于迫切需要使用這些方法來了解運營狀況并解決經營問題的讀者。寫作本書的目的是對獲得公眾口碑的數據挖掘工具進行全面討論,而不僅僅局限于傳統的黑箱式描述,展現這些方法的工作機理。
數據挖掘需要一套功能強大、計算精準、兼容良好的計算工具,在這方面微軟的Excel難以勝任。盡管我們也多次獲得許多供應商專門提供的卓越的數據挖掘商務軟件,但通常來說這些軟件價格昂貴。書中我們所使用的R統計軟件功能強大而且免費。不過要想正常使用R需要一些學習代價,它需要用戶寫指令,而大多數電子表格用戶對程序指令的編寫并不熟悉,這也是我在書中和與本書相關的網頁上提供R示例代碼的原因。這些示例代碼應該可以順利地遷移到當下通用的、強大的計算機環境中,并有助于最小化R的學習成本。
本書采用了將軟件與數據挖掘的統計基礎相融合的寫作風格,同時也推廣了工具的應用。雖然市面上不乏深入闡述這些方法的教材,也不缺乏對R計算的詳盡完整的說明手冊。但是本書力圖權衡理論與實踐,定位于對定量方法感興趣的MBA學生的認知層次。本書適用于MBA的數據挖掘課程,以及高年級本科生和研究生的分析與解釋大數據集的課程。從事商學、社會學、自然科學、醫學以及工科的學生都可以從本書受益。本書所涉大部分主題可以安排在一個學期的課程中,但是包括的主題并不適用于每一個讀者。可能有些讀者會認為其中一些主題內容太深或者太淺。建議主講老師略去或適當擴展某些主題。從這個角度來看,本書可以適用于很多不同的讀者。
數據挖掘的應用常常需要花大力氣收集相關信息。在這種情況下,數據的準備工作比最終建立模型需要花費更多的時間。在另外一些應用中,數據收集的工作量并非大問題,工作的重點是大容量信息的存取(即數據倉庫)。盡管如何獲取、存儲、合并和整理信息在數據分析全過程來說必不可少,但書中對這些技術細節并未做深入探討,本書重點介紹數據挖掘的建模。
本書所述全部例子的數據集和R代碼都可以在配套網頁(http://www.bizuiowaedu/faculty/jledolter/DataMining)上找到。也可以通過在booksupportwileycom上輸入ISBN 9781118447147獲取本書的附加材料。讀者可以將書中的代碼復制粘貼到自己的R會話中,從而得到分析結果。也可以在軟件中修改或添加一些代碼來做數據實驗,以及用我們給的R模板程序對自己的數據集進行分析。附錄給出了練習和幾個大的練習數據集。練習有助于老師布置課后作業,也為讀者提供了一個實踐書中所討論技巧的機會。如何使用這些數據集的相關說明請參見附錄A。
這是本書第1版,盡管在表述和例證數據集的分析上我們很小心謹慎,但不得不承認其中有很多地方還值得推敲。如果在閱讀本書的過程中有任何反饋,我們將不勝感激,期待你將你的建議通過johannesledolter@uiowa.edu郵箱寫信給我。相關的勘誤和評論我將在本書的網頁上隨時更新。
致謝2011年我訪問芝加哥大學布斯商學院時,忽然為一篇MBA方面有關數據挖掘的文章中的素材產生了興趣。芝加哥大學著名教授Matt Taddy的數據挖掘(BUS41201)課件為本書的撰寫提供了靈感,在表述上我同樣受到Taddy教授課件中的案例和R模板的影響。第19章中關于文本數據的分析也大量引用了他近期的研究成果,由衷感謝Taddy教授對本書的貢獻。
著書是一項耗時的工作。如果沒有妻子Lea Vandervelde的持續支持和鼓勵,無法想象我的這項工作可以畫上句號。她是艾奧瓦大學從事密蘇里州奴隸自由史研究的教授,同時她的親身體驗告訴我,從文本數據的挖掘中構建數據集是一項多么重要和艱難的工作。
譯者序
本書英文版自出版后就在Amazon上得到了極高的評價,曾經是Amazon網站上最暢銷的數據挖掘類書籍之一。
本書的作者Johannes Ledolter是世界頂尖商學院——美國艾奧瓦大學Tippie商學院管理科學系的一位數據挖掘專家,同時也是一位R資深開發者。本書包括多達19個數據挖掘的翔實案例,內容十分豐富,涉及醫療、慈善、汽車、二手市場等行業領域。書中案例從數據量、分析目標、數據類型等方面提出了各種具有挑戰性的問題,并給出了克服這些挑戰的方法和技巧。本書專注于數據挖掘的建模,以實際問題、解決方案以及探討解決方案為主線組織內容。讀者需要具備一定的數據挖掘基礎知識,同時對R有一定的了解。但本書也對R計算進行了詳盡完整的說明,對于零基礎的讀者來說,還可以通過直接復制書中提供的R程序來學習相應的數據挖掘算法。本書定位于面向定量方法的MBA學生,同時也適用于大數據分析的本科生及研究生,適合作為數據挖掘的教材或學習指南。
本書的翻譯工作由宋濤、王星和曹方共同完成。在本書的翻譯過程中,原作者Johannes博士多次就譯者提出的問題進行了耐心而細致的解答。這里對他的幫助表示由衷的謝意。由于水平所限,書中可能會有翻譯不當之處,希望讀者多加指正。
必須說明的是,本項工作是集體努力的結果。其中,王星老師在翻譯和統稿過程付出了大量心血,她的堅持使我打消了放棄此項目的想法。此外,余阿炎、曹家銘、溫麗、丁虹元、俞良、金璐等人也參與了本書的翻譯。感謝王寶東、宋辰玉、宋燕、倉猛、劉宇等完成了清樣的校對和通讀。還有許多其他同學和同事在不同階段參與了本項工作,在此不再一一列出。
為進一步探討、解析和擴展本書中的案例,譯者團隊將在“數據科學家”公眾號中免費為各位讀者奉獻更多更翔實的R案例內容。可掃描以下二維碼,關注“數據科學家”微信公眾號,獲得更多有關數據科學和R應用的最新知識。
宋濤2016年9月
譯者序
前言
致謝
第1章引言
參考文獻
第2章處理信息與認識數據
2.1例1:2006年出生數據
2.2例2:校友捐贈
2.3例3:橘子汁
參考文獻
第3章標準線性回歸
3.1用R函數估算線性回歸模型
3.2例1:汽車燃油效率
3.3例2:豐田二手車價格
附錄3.A模型過度擬合對回歸預測均方誤差的影響
參考文獻
第4章局部多項式回歸的非參數回歸方法
4.1模型的選擇
4.2密度估計和直方圖平滑化的應用
4.3多重回歸模型的拓展
4.4例題和軟件
4.4.1例1:老忠實噴泉
4.4.2例2:NOx排放物
參考文獻
第5章簡約在統計建模中的重要性
5.1怎樣防止低假陽率
參考文獻
第6章多參數回歸模型中基于懲罰算法的變量選擇
6.1例1:前列腺癌
6.2例2:橙汁
參考文獻
第7章Logistic回歸
7.1對二分類響應數據建立線性模型
7.2Logistic回歸模型中回歸系數的解釋
7.3統計推斷
7.4對新樣例的分類
7.5用R語言估計
7.6例1:死刑數據
7.6.1二分類Logistic回歸:Minitab程序輸出
7.6.2R語言輸出結果的解釋與分析
7.7例2:延誤的航班
7.8例3:貸款驗收
7.9例4:德國信貸數據
參考文獻
第8章二元分類、概率和分類性能的評價
8.1二元分類
8.2使用概率作決策
8.3靈敏度和特異度
8.4例子:德國信貸數據
第9章最近鄰分析分類
9.1k近鄰算法
9.2例1:玻璃碎片的法醫分析
9.3例2:德國信貸數據
參考文獻
第10章樸素貝葉斯分析:一種由以分類為主的變量對分類響應變量預測的模型
10.1例:航班延誤
參考文獻
第11章多項式Logistic回歸
11.1計算軟件
11.2例1:玻璃碎片的法醫分析
11.3例2:重溫玻璃碎片的法醫分析
附錄11.A簡單三重矩陣的詳述
參考文獻
第12章分類和判別分析的深入探討
12.1Fisher線性判別函數
12.2例1:德國信用卡數據
12.3例2:Fisher鳶尾花數據
12.4例3:玻璃碎片的法醫分析數據
12.5例4:MBA申請數據
參考文獻
第13章決策樹
13.1例1:前列腺癌
13.2例2:摩托車加速度
13.3例3:回顧Fisher鳶尾花數據集
第14章回歸、分類樹、計算軟件及其他實用分類方法的深入探討
14.1有關樹結構的R程序包
14.2卡方自動交互檢驗
14.3集成方法:Bagging算法、Boosting算法和隨機森林
14.4支持向量機
14.5神經網絡
14.6R程序包:關于數據挖掘的一個有用的圖形用戶界面
參考文獻
第15章聚類
15.1k均值聚類
15.2另眼看聚類:將期望最大化算法應用于混合正態分布
15.2.1E步
15.2.2M步
15.3層次聚類過程
參考文獻
第16章購物籃分析:關聯規則和提升度
16.1例1:在線廣播
16.2例2:收入預測
參考文獻
第17章降維:因子模型和主成分分析
17.1例1:歐洲蛋白質的攝入數據
17.2例2:月度失業率數據
第18章帶多重共線性輸入的降維回歸:主成分回歸和偏最小二乘法
18.1三個例子
18.1.1例1:模擬數據
18.1.2例2:基于50個州的歷史失業率預測某州下個月的失業率
18.1.3例3:預測下月失業率:比較不同方法樣本外預測效果
參考文獻
第19章文本數據:文本挖掘和情感分析
19.1逆多項式Logistic回歸
19.2例1:餐館評論
19.3例2:政治主張
附錄19.A Gentzkow/Shapiro關于“slant”的估計和偏最小二乘的關系
參考文獻
第20章網絡數據
20.1例1:15世紀佛羅倫薩的婚姻與權力
20.2例2:友誼網絡的連接
參考文獻
附錄A練習
附錄B參考文獻