《數(shù)據(jù)挖掘中的集成方法:通過集成預(yù)測(cè)來提升精度》討論基于決策樹的集成,分析被視為當(dāng)前現(xiàn)代集成算法高級(jí)性能的主要原因之一的正則化問題,描述集成方法領(lǐng)域近年來的兩個(gè)發(fā)展——重要性采樣(IS)和規(guī)則集成(RE),論述新數(shù)據(jù)信息集成在復(fù)雜性和更高精度方面的悖論等重要命題。《數(shù)據(jù)挖掘中的集成方法:通過集成預(yù)測(cè)來提升精度》面向前沿、文字簡練、論述充分、可讀性好。
Giovanni Seni,Seni是Elder Research公司的資深科學(xué)家,負(fù)責(zé)該公司的西部辦公室。作為硅谷活躍的數(shù)據(jù)挖掘領(lǐng)域的踐行者,他在統(tǒng)計(jì)模式識(shí)別、數(shù)據(jù)挖掘及人機(jī)交互應(yīng)用領(lǐng)域具有逾1 5年的研發(fā)經(jīng)歷。他既是大企業(yè)的技術(shù)人員,又是一些小規(guī)模企業(yè)的貢獻(xiàn)者。他擁有五項(xiàng)美國專利,發(fā)表了20余篇學(xué)術(shù)論文。
Seni是圣塔克拉拉大學(xué)計(jì)算機(jī)工程系兼職教師,教授“模式識(shí)別與數(shù)據(jù)挖掘?qū)д摗闭n程。
他于1989年在洛斯安第斯大學(xué)(波哥大,哥倫比亞)獲得計(jì)算機(jī)工程學(xué)士學(xué)位,1995年在紐約州立大學(xué)布法羅分校獲得計(jì)算機(jī)博士學(xué)位,是該校富布萊特學(xué)者。他還在斯坦福大學(xué)統(tǒng)計(jì)系獲得數(shù)據(jù)挖掘及應(yīng)用證書。
John Elder,Elder博士就職于Charlottesville,Virginia,Washington DC和Mountain View,California的數(shù)據(jù)挖掘咨詢組。艾德研究公司成立于1995年,聚焦于聯(lián)邦、商業(yè)、投資、安全領(lǐng)域的高級(jí)分析,包括文本挖掘、股票選擇、圖像識(shí)別、生物信息學(xué)、過程優(yōu)化、交叉銷售、藥物功效、信用評(píng)分、風(fēng)險(xiǎn)管理和贗偽檢測(cè)。ERI公司已成為最大、最有經(jīng)驗(yàn)的數(shù)據(jù)挖掘咨詢企業(yè)。
Elder于萊斯大學(xué)獲得電氣工程學(xué)士學(xué)位和電子電氣碩士學(xué)位,在弗吉尼亞大學(xué)獲得系統(tǒng)工程專業(yè)博士學(xué)位,他是該校數(shù)據(jù)挖掘課程的兼職教授。在赴ERI的前15年,他在航空國防咨詢界工作了5年,在一家投資管理公司任職4年,在萊斯大學(xué)計(jì)算與應(yīng)用數(shù)學(xué)系任職2年。
Elder博士開發(fā)了創(chuàng)新性的數(shù)據(jù)挖掘工具,他本人是一位著名的特約報(bào)告人,也是在巴黎召開的“2009 Knowledge Discovery and Data Mining”會(huì)議的共同主席。他在許多大學(xué)、公司和政府實(shí)驗(yàn)室教授的分析技術(shù)課程以明晰性和有效性著稱。Elder在一個(gè)由總統(tǒng)任命的委員會(huì)服務(wù)了5年——為國家安全作技術(shù)指導(dǎo)。他與Bob Nisbet、Gary Miner合著的面向?qū)嶋H工作者的獲獎(jiǎng)書籍——《統(tǒng)計(jì)分析與數(shù)據(jù)控?fù)?jù)應(yīng)用手冊(cè)》于2009年5月出版。
譯者序
原書序一
原書序二
摘要
第1章 集成發(fā)現(xiàn)
1.1 建立集成
1.2 正則化
1.3 現(xiàn)實(shí)世界中的實(shí)例:信用評(píng)分+網(wǎng)飛挑戰(zhàn)
1.4 本書的組織架構(gòu)
第2章 預(yù)測(cè)學(xué)習(xí)和決策樹
2.1 決策樹歸納縱覽
2.2 決策樹的性能
2.3 決策樹的缺陷
第3章 模型復(fù)雜度?模型選擇和正則化
3.1 什么是樹的“合適”規(guī)模
3.2 偏差-方差分解
3.3 正則化
3.3.1 正則化與成本-復(fù)雜度樹修剪
3.3.2 交叉驗(yàn)證
3.3.3 運(yùn)用收縮的正則化
3.3.4 通過構(gòu)建增量模型的正則化
3.3.5 實(shí)例
3.3.6 正則化綜述
第4章 重要性采樣和經(jīng)典集成方法
4.1 重要性采樣
4.1.1 參數(shù)重要性測(cè)度
4.1.2 擾動(dòng)采樣
4.2 泛化集成生成
4.3 Bagging
4.3.1 實(shí)例
4.3.2 為什么Bagging有用
4.4 隨機(jī)森林
4.5 AdaBoost
4.5.1 實(shí)例
4.5.2 為什么使用指數(shù)損失
4.5.3 AdaBoost的總體最小值
4.6 梯度Boosting
4.7 MART
4.8 并行集成與順序集成的比較
第5章 規(guī)則集成和解釋統(tǒng)計(jì)
5.1 規(guī)則集成
5.2 解釋
5.2.1 仿真數(shù)據(jù)實(shí)例
5.2.2 變量重要性
5.2.3 偏相關(guān)
5.2.4 交互統(tǒng)計(jì)
5.3 制造業(yè)數(shù)據(jù)實(shí)例
5.4 總結(jié)
第6章 集成復(fù)雜性
6.1 復(fù)雜性
6.2 廣義自由度
6.3 實(shí)例:帶有噪聲的決策樹表面
6.4 廣義自由度的R代碼和實(shí)例
6.5 總結(jié)與討論
參考文獻(xiàn)
附錄A AdaBoost與FSF程序的等價(jià)性
附錄B 梯度Boosting和魯棒損失函數(shù)
《數(shù)據(jù)挖掘中的集成方法:通過集成預(yù)測(cè)來提升精度》:
第1章 集成發(fā)現(xiàn)
And in a multitude of counselors there is safety Proverbs24:6b
從數(shù)據(jù)中歸納模型,可找到大量經(jīng)典方法,而且其處理能力各具特色,流行算法的精度依賴所處理問題的細(xì)節(jié),如圖1.1所示(Elder和Lee(1997)),該圖揭示了五種算法用于六個(gè)公共領(lǐng)域問題的樣本外相對(duì)誤差,總體來說,神經(jīng)網(wǎng)絡(luò)模型對(duì)這些問題表現(xiàn)最優(yōu),但需指出,每種算法都在六個(gè)數(shù)據(jù)集中的至少兩個(gè)上表現(xiàn)最優(yōu)或次優(yōu)。圖1.1五種算法用于六個(gè)公共領(lǐng)域問題的非樣本外相對(duì)誤差(基于Elder和Lee(1997))
對(duì)于給定問題哪種算法表現(xiàn)優(yōu)異?Michie等(1994)對(duì)該問題展開了研究,他們開展了與前述問題相似但更多的工作——23種算法用于22個(gè)數(shù)據(jù)集,并且基于給定的數(shù)據(jù)集性能構(gòu)建決策樹來預(yù)測(cè)最優(yōu)算法,雖然該研究側(cè)重于樹——在23個(gè)算法中占9個(gè),而且?guī)讉(gè)數(shù)據(jù)集對(duì)樹易產(chǎn)生不可控閾值但仍然為算法選擇提供了有益指導(dǎo)。然而,還有一種提高模型精度的方式比選擇單一模型更容易且效果更顯著:將諸模型集成,圖1.2展示了圖1.1中模型以四種不同方式集成的非樣本精度,這些集成方式包括平均法,投票法和顧問感知器(Elder和Lee,1997),對(duì)于每個(gè)問題,顧問感知器集成技術(shù)都優(yōu)于簡單的平均法,而與集成和單一模型相比,其差別很小,這里每種集成方法都比單一算法更有效。圖1.2四種集成方法在圖1.1問題上的非樣本相對(duì)誤差(基于Elder和Lee(1997))