人工智能開發(fā)叢書--Scikit-learn機(jī)器學(xué)習(xí)高級(jí)進(jìn)階
定 價(jià):¥89
中 教 價(jià):¥52.51 (5.90折)促銷
庫(kù) 存 數(shù): 2
叢 書 名:人工智能開發(fā)叢書
本書是《Scikit-learn機(jī)器學(xué)習(xí)詳解》(潘風(fēng)文編著)的進(jìn)階篇,講解了Sklearn(Scikit-learn)機(jī)器學(xué)習(xí)框架的各種高級(jí)應(yīng)用技術(shù),包括數(shù)據(jù)集導(dǎo)入工具、集成學(xué)習(xí)、模型選擇和交叉驗(yàn)證、異常檢測(cè)、管道、 信號(hào)分解、模型持久化以及Sklearn系統(tǒng)高級(jí)配置。通過本書的學(xué)習(xí),讀者可快速掌握Sklearn框架的高級(jí)知識(shí),邁入人工智能殿堂的大門。本書適合有志于從事機(jī)器學(xué)習(xí)、人工智能技術(shù)開發(fā)的人員或愛好者使用,也可作為相關(guān)專業(yè)的教材。
(1)內(nèi)容由淺入深,循序漸進(jìn)。一方面遵循了讀者對(duì)機(jī)器學(xué)習(xí)的認(rèn)知規(guī)律;另一方面也便于熟悉機(jī)器學(xué)習(xí)知識(shí)的學(xué)習(xí)者更深入地掌握和應(yīng)用Scikit-learn框架。(2)語言通俗易懂,輕松易學(xué),配以形象化的圖片和代碼,生動(dòng)地把講解內(nèi)容呈現(xiàn)給讀者,有效降低了學(xué)習(xí)的門檻。(3)講解主干明確,脈絡(luò)清晰。貫穿主題算法,從集成學(xué)習(xí)、管道、交叉驗(yàn)證,到異常檢測(cè)和信號(hào)分解,層次分明。(4)案例精挑細(xì)選,干貨多多。幾乎每種算法都給出詳細(xì)的使用案例,這些案例都是作者精心挑選和開發(fā)的,緊扣內(nèi)容,并提供了很多開發(fā)技巧,值得認(rèn)真閱讀。
Sklearn,也稱為Scikit-learn,是基于Python語言的開源機(jī)器學(xué)習(xí)庫(kù),起源于發(fā)起人David Cournapeau在2007年參加谷歌編程之夏GSoC(Google Summer of Code)的一個(gè)項(xiàng)目,目前已經(jīng)成為最受歡迎的機(jī)器學(xué)習(xí)庫(kù),已經(jīng)在很多工程中得到了應(yīng)用。 Sklearn是一個(gè)功能強(qiáng)大的機(jī)器學(xué)習(xí)框架。它基于NumPy、Pandas、Scipy和Matplotlib等數(shù)值計(jì)算庫(kù),實(shí)現(xiàn)了豐富且高效的機(jī)器學(xué)習(xí)算法,包括有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型,幾乎涵蓋了所有主流的機(jī)器學(xué)習(xí)模型。本書講述了Sklearn學(xué)習(xí)框架中比較高級(jí)的知識(shí),包括集成學(xué)習(xí)、管道、交叉驗(yàn)證和異常檢測(cè)等模型及其應(yīng)用。作者試圖通過通俗易懂的描述、嚴(yán)謹(jǐn)翔實(shí)的代碼,把晦澀難懂的知識(shí)講解明白,使讀者快速掌握Sklearn的高級(jí)知識(shí),深入應(yīng)用到日常工作中。對(duì)于需要學(xué)習(xí)和掌握Sklearn基礎(chǔ)知識(shí)的讀者,請(qǐng)參考潘風(fēng)文編著的《Scikit-learn機(jī)器學(xué)習(xí)詳解》一書。 第1章概述性地回顧了機(jī)器學(xué)習(xí)的基本知識(shí),講述了有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的概念,并對(duì)Scikit-learn做了簡(jiǎn)要的描述。 第2章講述了Scikit-learn中sklearn.datasets模塊的功能,不僅提供了導(dǎo)入隨機(jī)樣本數(shù)據(jù)集的方法,也提供了提取外部(網(wǎng)絡(luò)上)數(shù)據(jù)集的方法以及生成各種算法所需數(shù)據(jù)的多個(gè)方法。 第3章介紹了集成學(xué)習(xí)。集成學(xué)習(xí)是一種綜合利用多個(gè)預(yù)測(cè)模型的方法,它本身不是一種傳統(tǒng)意義上的機(jī)器學(xué)習(xí)模型,而是一種基于弱學(xué)習(xí)器的算法。本章介紹了自助聚合算法、加速提升算法、投票集成算法以及堆棧泛化等多種集成學(xué)習(xí)方法。 第4章介紹了模型選擇和交叉驗(yàn)證的知識(shí)。模型選擇的目標(biāo)是在一個(gè)模型集合中尋找泛化能力最大的一個(gè)模型,而交叉驗(yàn)證是一種廣泛使用的重采樣(resampling)技術(shù),可以評(píng)估一個(gè)預(yù)測(cè)模型的泛化能力,也是一種有效的確定模型超參數(shù)的方法。 第5章介紹了新穎點(diǎn)檢測(cè)、離群點(diǎn)檢測(cè)兩類方法;離群點(diǎn)檢測(cè)的算法:橢圓包絡(luò)線算法、孤立森林算法和局部離群點(diǎn)因子算法。 第6章介紹了機(jī)器學(xué)習(xí)中的管道機(jī)制(Pipeline)。管道機(jī)制將機(jī)器學(xué)習(xí)的實(shí)施看作是一個(gè)流水線式的作業(yè)流程,根據(jù)不同階段的任務(wù)目標(biāo),切割成7個(gè)不同的環(huán)節(jié),每一個(gè)環(huán)節(jié)都由獨(dú)立的轉(zhuǎn)換器(Transformer)或評(píng)估器(Estimator)負(fù)責(zé)實(shí)現(xiàn)。管道機(jī)制使開發(fā)者對(duì)機(jī)器學(xué)習(xí)過程中相互聯(lián)系和相互依賴的環(huán)節(jié)進(jìn)行有效和高效的控制,更加方便地實(shí)現(xiàn)其預(yù)期結(jié)果。 第7章介紹了Scikit-learn中實(shí)現(xiàn)的信號(hào)分解的各種方法。信號(hào)分解(signal decomposition)是分解提取高維數(shù)據(jù)集中的特征信號(hào),是一個(gè)矩陣分解的問題。在Scikit-learn中,提供了主成分分析、字典學(xué)習(xí)、因子分析等多種信號(hào)分解的算法。 第8章重點(diǎn)講述了訓(xùn)練后模型的保存、使用方法。這些方法包括使用模塊pickle序列化,使用模塊joblib序列化,以及跨平臺(tái)、跨語言的互操作方式:通過預(yù)測(cè)模型標(biāo)記語言PMML(Predictive Model Markup Language)保存和部署模型。 第9章介紹了為保障Scikit-learn程序順暢運(yùn)行,需要對(duì)Scikit-learn整體框架的環(huán)境變量進(jìn)行設(shè)置的內(nèi)容。 本書有如下特點(diǎn): ■ 內(nèi)容由淺入深,循序漸進(jìn) 遵循讀者對(duì)機(jī)器學(xué)習(xí)的認(rèn)知規(guī)律,同時(shí)也有助于熟悉機(jī)器學(xué)習(xí)知識(shí)的學(xué)習(xí)者更深入地掌握和應(yīng)用Scikit-learn框架。 ■ 語言通俗易懂,輕松易學(xué) 對(duì)講解主題進(jìn)行通俗化描述,并配以大量的圖片和代碼,形象化地把講解內(nèi)容呈現(xiàn)給讀者,輕松易學(xué),有效降低學(xué)習(xí)的門檻。 ■ 講解主干明確,脈絡(luò)清晰 本書貫穿機(jī)器學(xué)習(xí)模型中高級(jí)應(yīng)用的主題算法,從集成學(xué)習(xí)、管道、交叉驗(yàn)證,到異常檢測(cè)和信號(hào)分解,系統(tǒng)地講解高級(jí)應(yīng)用知識(shí),為讀者掌握和發(fā)揮Scikit-learn價(jià)值提供最大幫助。 ■ 案例精挑細(xì)選,干貨多多 幾乎每種算法都給出詳細(xì)的應(yīng)用案例。這些案例都是作者開發(fā)的,緊扣內(nèi)容,并提供了很多開發(fā)技巧,值得認(rèn)真閱讀。 本書讀者對(duì)象: (1)具備一定Scikit-learn基礎(chǔ)知識(shí),希望在機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)階升級(jí)的開發(fā)人員; (2)想要了解和實(shí)踐Scikit-learn學(xué)習(xí)包的開發(fā)工程師; (3)從事大數(shù)據(jù)及人工智能的分析人員; (4)對(duì)大數(shù)據(jù)和人工智能感興趣的人員。 本書由潘風(fēng)文、黃春芳編著。第1章、第2章、第6章、第8章、第9章由潘風(fēng)文編寫;第3章、第4章、第5章、第7章由北京中醫(yī)藥大學(xué)生命科學(xué)學(xué)院黃春芳副教授編寫。本書例子運(yùn)行的Python版本號(hào)是Ver3.8.1及以上。所有實(shí)例包都可以通過作者QQ:420165499聯(lián)系索取并在線咨詢答疑,我們將竭誠(chéng)為您服務(wù)。最后,衷心希望本書對(duì)您的工作和事業(yè)有所裨益。 潘風(fēng)文 黃春芳 2022 年7月
1 機(jī)器學(xué)習(xí)概述 1 1.1 有監(jiān)督學(xué)習(xí)2 1.2 無監(jiān)督學(xué)習(xí)3 1.3 半監(jiān)督學(xué)習(xí)3 1.4 Sklearn概述4 2 數(shù)據(jù)集導(dǎo)入工具 6 2.1 通用數(shù)據(jù)集導(dǎo)入API7 2.1.1 數(shù)據(jù)集加載器7 2.1.2 數(shù)據(jù)集提取器8 2.1.3 數(shù)據(jù)集生成器10 2.1.4 文件導(dǎo)入方法11 2.2 專用數(shù)據(jù)集導(dǎo)入API14 2.2.1 加載樣本圖像數(shù)據(jù)集14 2.2.2 加載svmlight/libsvm格式數(shù)據(jù)集15 2.2.3 從openml.org 下載數(shù)據(jù)集16 2.3 加載外部數(shù)據(jù)集16 2.3.1 列表式數(shù)據(jù)讀取16 2.3.2 多媒體文件讀取17 3 集成學(xué)習(xí) 18 3.1 自助抽樣(bootstrap)19 3.2 自助聚合算法(bagging)20 3.2.1 標(biāo)準(zhǔn)自助聚合算法(Bagging)21 3.2.2 隨機(jī)森林(Random Forest)29 3.2.3 極端隨機(jī)樹(Extremely randomized trees)30 3.3 加速提升算法(boosting)30 3.3.1 自適應(yīng)提升算法(Adaboost)30 3.3.2 梯度提升樹算法(GBDT)38 3.4 投票集成算法(voting)49 3.5 堆棧泛化(stacking)56 4 模型選擇和交叉驗(yàn)證 62 4.1 交叉驗(yàn)證評(píng)估器64 4.1.1 交叉驗(yàn)證64 4.1.2 交叉驗(yàn)證生成器66 4.1.3 使用交叉驗(yàn)證70 4.2 度量指標(biāo)和評(píng)估(評(píng)分)75 4.2.1 評(píng)分參數(shù)scoring的設(shè)置76 4.2.2 啞分類評(píng)估器和啞回歸評(píng)估器86 4.3 模型超參數(shù)調(diào)優(yōu)90 4.3.1 窮盡網(wǎng)格超參數(shù)搜索91 4.3.2 隨機(jī)超參數(shù)搜索99 4.3.3 非暴力參數(shù)搜索方法101 4.3.4 貝葉斯優(yōu)化103 4.4 驗(yàn)證曲線104 4.4.1 交叉驗(yàn)證曲線105 4.4.2 學(xué)習(xí)曲線108 5 異常檢測(cè) 115 5.1 新穎點(diǎn)檢測(cè)117 5.2 離群點(diǎn)檢測(cè)123 5.2.1 橢圓包絡(luò)線算法123 5.2.2 孤立森林算法129 5.2.3 局部離群點(diǎn)因子算法130 6 管道 138 6.1 概念介紹139 6.1.1 評(píng)估器(estimator)139 6.1.2 轉(zhuǎn)換器(transformer)140 6.1.3 管道(pipeline)141 6.2 管道機(jī)制概述142 6.3 中間評(píng)估器及子管道148 6.3.1 獲取中間評(píng)估器148 6.3.2 獲取子管道對(duì)象149 6.3.3 設(shè)置評(píng)估器參數(shù)150 6.4 特征聚合轉(zhuǎn)換器150 6.5 列轉(zhuǎn)換機(jī)制154 6.5.1 數(shù)據(jù)泄露154 6.5.2 列轉(zhuǎn)換器155 6.6 模型選擇162 7 信號(hào)分解 164 7.1 主成分分析PCA165 7.2 核主成分分析KPCA173 7.3 字典學(xué)習(xí)180 7.3.1 預(yù)置字典編碼180 7.3.2 通用字典學(xué)習(xí)186 7.4 因子分析189 7.5 其他信號(hào)分解194 7.5.1 獨(dú)立成分分析195 7.5.2 非負(fù)矩陣分解196 7.5.3 隱含狄利克雷分布199 8 模型持久化 200 8.1 針對(duì)Python對(duì)象的序列化201 8.1.1 使用模塊pickle序列化201 8.1.2 使用模塊joblib序列化204 8.2 模型互操作方式205 9 Sklearn系統(tǒng)配置 210 9.1 系統(tǒng)環(huán)境變量211 9.2 運(yùn)行時(shí)環(huán)境變量211 后記 215