零基礎(chǔ)入門Python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)
定 價(jià):¥69
中 教 價(jià):¥40.71 (5.90折)促銷
庫(kù) 存 數(shù): 1
本書由一線的資深數(shù)據(jù)分析師精寫,以新版Python 3.10作為數(shù)據(jù)分析與挖掘的編程語(yǔ)言,循序漸進(jìn)地介紹了Python數(shù)據(jù)分析的方法與技巧以及機(jī)器學(xué)習(xí)算法及其應(yīng)用案例。全書首先講解Python基礎(chǔ)語(yǔ)法,以便于從未接觸過(guò)編程的讀者能夠快速上手,然后介紹了當(dāng)前流行的常用數(shù)據(jù)分析工具,如數(shù)值計(jì)算工具NumPy、數(shù)據(jù)處理工具Pandas、數(shù)據(jù)可視化工具M(jìn)atplotlib和數(shù)據(jù)挖掘工具Sklearn等,后介紹了10大常用機(jī)器學(xué)習(xí)算法及其在數(shù)據(jù)挖掘中的應(yīng)用,針對(duì)每一個(gè)算法均給出了案例實(shí)現(xiàn),以便于讀者能夠?qū)W有所用。 本書凝聚編者十余年工作心得,以豐富實(shí)例介紹理論知識(shí),并給出大量應(yīng)用實(shí)踐,很適合初入數(shù)據(jù)分析職場(chǎng)的從業(yè)者提升技能,本書也可以作為統(tǒng)計(jì)學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)以及相關(guān)理工科專業(yè)的本科生、研究生的教學(xué)參考書。
1. 零基礎(chǔ)入手,精心設(shè)計(jì)的知識(shí)體系本書首先介紹Python 3.10版本的基礎(chǔ)語(yǔ)法,并針對(duì)初學(xué)者構(gòu)建數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的實(shí)驗(yàn)環(huán)境,以便初學(xué)者無(wú)障礙上手。全書內(nèi)容循序漸進(jìn),在精要介紹基礎(chǔ)語(yǔ)法之后,還介紹了當(dāng)前流行的數(shù)據(jù)分析工具,后介紹了機(jī)器學(xué)習(xí)算法在數(shù)據(jù)分析和挖掘中的應(yīng)用。讀者通過(guò)閱讀本書能夠整體上掌握數(shù)據(jù)分析的重要方法、工具與技術(shù)。 2. 全面介紹流行工具的使用,應(yīng)對(duì)工作需求本書針對(duì)當(dāng)前流行的數(shù)據(jù)分析工具分章介紹,包括數(shù)值計(jì)算工具NumPy、數(shù)據(jù)處理工具Pandas、數(shù)據(jù)可視化工具M(jìn)atplotlib、數(shù)據(jù)建模工具Sklearn等。每一個(gè)工具都從基礎(chǔ)講起,并輔之以案例演示,讀者可以邊學(xué)邊練,快速掌握技能,其中很多案例都來(lái)自于工作實(shí)踐,可以真正提升讀者的實(shí)戰(zhàn)技能,以應(yīng)對(duì)工作需求。 3.詳細(xì)講解10大機(jī)器學(xué)習(xí)算法,并輔之以豐富的案例本書針對(duì)數(shù)據(jù)挖掘中經(jīng)常使用的算法進(jìn)行了詳細(xì)的介紹,其中每一個(gè)算法首先介紹理論知識(shí),然后給出算法在實(shí)際案例中的應(yīng)用,理論與實(shí)踐并重,可以幫助讀者真正理解算法并加以應(yīng)用,從而提升讀者數(shù)據(jù)分析和挖掘的綜合能力。 4. 配書資源豐富,大幅提升學(xué)習(xí)效率為了方便讀者輕松、高效地學(xué)習(xí)本書內(nèi)容,作者還為本書錄制了全程教學(xué)視頻,針對(duì)各章內(nèi)容進(jìn)行了詳細(xì)的講解,讀者掃描本書提供的二維碼即可隨時(shí)隨地觀看,大幅提升學(xué)習(xí)效率。本書還提供了全部實(shí)例的源代碼,所有源代碼均在Python 3.10和相應(yīng)編程工具環(huán)境下測(cè)試通過(guò),讀者下載后可以直接調(diào)用,以方便上機(jī)演練。本書還制作了精彩的PPT課件,旨在方便有教學(xué)需求的讀者使用。
人工智能(AI)是目前炙手可熱的一個(gè)領(lǐng)域,互聯(lián)網(wǎng)公司紛紛表示人工智能將是下一個(gè)時(shí)代的革命性技術(shù)。機(jī)器學(xué)習(xí)屬于人工智能的一個(gè)重要分支,其更偏向于理論,目的是讓計(jì)算機(jī)不斷從大量數(shù)據(jù)中學(xué)習(xí)知識(shí),自動(dòng)實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)和預(yù)測(cè),使結(jié)果不斷接近目標(biāo)。在實(shí)際工作中,我們比較常見的是數(shù)據(jù)分析的概念,是用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,以求化地利用數(shù)據(jù),從而發(fā)揮其商業(yè)價(jià)值。目前,數(shù)據(jù)分析已經(jīng)是一種比較成熟的技術(shù),而機(jī)器學(xué)習(xí)還處于快速發(fā)展的過(guò)程中,主要依靠算法和數(shù)據(jù)進(jìn)行驅(qū)動(dòng)。在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)研究熱潮中,相關(guān)圖書大多偏重于理論。由于Python是開源免費(fèi)的,而且目前市場(chǎng)上從零基礎(chǔ)深入介紹數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的圖書較少,鑒于此,本書基于新版本的Python 3.10編寫,全面而系統(tǒng)地講解基于Python的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)。本書既包括Python數(shù)據(jù)分析的主要方法和技巧,又融入了機(jī)器學(xué)習(xí)的案例實(shí)戰(zhàn),使廣大讀者通過(guò)對(duì)本書的學(xué)習(xí),能夠輕松快速地掌握數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的主要方法。本書配套資源中包含案例實(shí)戰(zhàn)中所采用的數(shù)據(jù)源,以及教學(xué)PPT和學(xué)習(xí)視頻,供讀者在閱讀本書時(shí)練習(xí)使用。本書的內(nèi)容第1章介紹數(shù)據(jù)分析的流程和思維、搭建Python 3.10開發(fā)環(huán)境以及必會(huì)的包(庫(kù))。第2章介紹Python核心基礎(chǔ),包括數(shù)據(jù)類型、基礎(chǔ)語(yǔ)法、常用高階函數(shù)和編程技巧。第3章介紹如何進(jìn)行數(shù)據(jù)準(zhǔn)備,包括數(shù)據(jù)的讀取、索引、切片、聚合、透視、合并等。第4章介紹NumPy基礎(chǔ)知識(shí)和操作,包括索引與切片、維度變換、廣播機(jī)制和矩陣運(yùn)算。第5章介紹如何利用Pandas進(jìn)行數(shù)據(jù)清洗,包括重復(fù)值、缺失值、異常值的檢測(cè)和處理。第6章介紹Matplotlib繪圖參數(shù)設(shè)置,包括線條、坐標(biāo)軸、圖例、繪圖函數(shù)和圖形整合等。第7章介紹機(jī)器學(xué)習(xí)及Sklearn庫(kù)的基本概念、基本流程、主要算法和自帶的主要數(shù)據(jù)集等。第8章介紹監(jiān)督式機(jī)器學(xué)習(xí)算法,包括線性回歸、邏輯回歸、決策樹、K近鄰和支持向量機(jī)等。第9章介紹無(wú)監(jiān)督式機(jī)器學(xué)習(xí)算法、包括K均值聚類、主成分分析、關(guān)聯(lián)分析和雙聚類分 析等。第10章詳細(xì)介紹機(jī)器學(xué)習(xí)的挑戰(zhàn)、模型的主要評(píng)估方法,并通過(guò)實(shí)際案例介紹模型的調(diào)優(yōu) 方法。第11章介紹基于中文的文本分詞、關(guān)鍵詞提取技術(shù),以及如何生成詞向量和進(jìn)行中文情感 分析。本書的特色(1)零基礎(chǔ)入手,精心設(shè)計(jì)知識(shí)體系本書首先介紹Python 3.10版本的基礎(chǔ)語(yǔ)法,并針對(duì)初學(xué)者構(gòu)建數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的實(shí)驗(yàn)環(huán)境,以便初學(xué)者無(wú)障礙上手。全書內(nèi)容循序漸進(jìn),在精要介紹基礎(chǔ)語(yǔ)法之后,還介紹了當(dāng)前流行的數(shù)據(jù)分析工具,后介紹機(jī)器學(xué)習(xí)算法在數(shù)據(jù)分析和挖掘中的應(yīng)用,以便讀者通過(guò)閱讀本書能夠整體上掌握數(shù)據(jù)分析的重要工具、方法與技術(shù)。(2)全面介紹流行工具的使用,應(yīng)對(duì)工作需求本書主要針對(duì)當(dāng)前流行的數(shù)據(jù)分析工具分章介紹,包括數(shù)值計(jì)算工具NumPy、數(shù)據(jù)處理工具Pandas、數(shù)據(jù)可視化工具M(jìn)atplotlib、數(shù)據(jù)建模工具Sklearn等。每一個(gè)工具都從基礎(chǔ)講解,并輔之以案例演示,讀者可以邊學(xué)邊練,快速掌握技能。其中也有很多案例來(lái)自于工作實(shí)踐,可以真正提升讀者的實(shí)戰(zhàn)技能,讀者通過(guò)本書的學(xué)習(xí)能夠應(yīng)對(duì)工作需求。(3)詳細(xì)講解十大機(jī)器學(xué)習(xí)算法,并輔之以豐富的案例本書針對(duì)數(shù)據(jù)挖掘中經(jīng)常使用的算法進(jìn)行了詳細(xì)介紹,其中每一個(gè)算法首先介紹理論知識(shí),然后給出算法在實(shí)際案例中的應(yīng)用,理論與實(shí)踐并重,可以幫助讀者真正理解算法并加以應(yīng)用,從而提高讀者數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的綜合能力。源碼、PPT課件、教學(xué)視頻下載本書每一章都有對(duì)應(yīng)的數(shù)據(jù)源和完整代碼,代碼均包含具體的中文注釋。另外,本書還提供了教學(xué)PPT。讀者可以掃描以下二維碼獲取文件: 如果在下載過(guò)程中出現(xiàn)問(wèn)題,請(qǐng)發(fā)送電子郵件至booksaga@126.com,郵件主題為零基礎(chǔ)入門Python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)。本書還提供了全程視頻教學(xué),讀者掃描書中各章的二維碼即可觀看學(xué)習(xí)。本書的讀者對(duì)象本書的內(nèi)容和案例適用于互聯(lián)網(wǎng)、咨詢、零售、能源等行業(yè)從事數(shù)據(jù)分析的讀者,也可以作為培訓(xùn)機(jī)構(gòu)或大專院校相關(guān)課程和專業(yè)的教學(xué)用書。
由于編者水平所限,雖然盡心竭力,但仍然難免存在疏漏之處,敬請(qǐng)廣大讀者與專家不吝指正。
編 者2021年5月20日
王國(guó)平,畢業(yè)于上海海洋大學(xué),碩士,從業(yè)十余年,主要從事數(shù)據(jù)可視化、數(shù)據(jù)挖掘和大數(shù)據(jù)分析與研究等工作。精通Tableau、SPSS、SPSS Modeler、Power BI等軟件,已出版《IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)》《Microsoft Power BI數(shù)據(jù)可視化與數(shù)據(jù)分析》《Tableau數(shù)據(jù)可視化從入門到精通》《SPSS統(tǒng)計(jì)分析與行業(yè)應(yīng)用實(shí)戰(zhàn)》等專著 。
第1章 構(gòu)建數(shù)據(jù)分析開發(fā)環(huán)境 11.1 數(shù)據(jù)分析概述 11.1.1 為什么要進(jìn)行數(shù)據(jù)分析 11.1.2 數(shù)據(jù)分析的流程與思維 21.2 開發(fā)環(huán)境的構(gòu)建 41.2.1 安裝Anaconda 51.2.2 安裝Jupyter庫(kù) 61.2.3 安裝PyCharm社區(qū)版 81.2.4 包管理工具 111.2.5 環(huán)境測(cè)試 121.3 必會(huì)的Python數(shù)據(jù)分析包 121.3.1 NumPy數(shù)組操作 131.3.2 Pandas數(shù)據(jù)清洗 131.3.3 Matplotlib數(shù)據(jù)可視化 141.3.4 Sklearn數(shù)據(jù)建模 161.4 一個(gè)簡(jiǎn)單的數(shù)據(jù)分析案例 171.5 小結(jié)與課后練習(xí) 19第2章 Python核心基礎(chǔ) 202.1 Python數(shù)據(jù)類型 202.1.1 數(shù)值類型 202.1.2 字符串類型 212.1.3 列表類型 232.1.4 元組類型 242.1.5 集合類型 252.1.6 字典類型 272.2 Python基礎(chǔ)語(yǔ)法 282.2.1 代碼行與縮進(jìn) 282.2.2 條件if及if嵌套 292.2.3 循環(huán):while與for 302.2.4 格式化:format()與% 322.3 Python高階函數(shù) 342.3.1 map()函數(shù) 342.3.2 reduce()函數(shù) 352.3.3 filter()函數(shù) 362.3.4 sorted()函數(shù) 362.4 Python編程技巧 372.4.1 自動(dòng)補(bǔ)全程序 372.4.2 變量值的互換 382.4.3 列表解析式 392.4.4 元素序列解包 402.5 小結(jié)與課后練習(xí) 41第3章 Python數(shù)據(jù)分析基礎(chǔ) 423.1 數(shù)據(jù)的讀取 423.1.1 本地離線數(shù)據(jù) 423.1.2 Web在線數(shù)據(jù) 443.1.3 常用數(shù)據(jù)庫(kù)數(shù)據(jù) 453.2 數(shù)據(jù)的索引 463.2.1 創(chuàng)建與查看索引 463.2.2 索引重構(gòu)與恢復(fù) 483.2.3 索引調(diào)整與排序 493.3 數(shù)據(jù)的切片 493.3.1 提取多列數(shù)據(jù) 503.3.2 提取多行數(shù)據(jù) 513.3.3 提取區(qū)域數(shù)據(jù) 513.4 數(shù)據(jù)的聚合 523.4.1 指定列數(shù)據(jù)統(tǒng)計(jì) 523.4.2 多字段分組統(tǒng)計(jì) 533.4.3 自定義聚合指標(biāo) 543.5 小結(jié)與課后練習(xí) 55第4章 NumPy數(shù)組操作 564.1 NumPy索引與切片 564.1.1 數(shù)組的索引 564.1.2 布爾型索引 574.1.3 花式索引 594.1.4 數(shù)組的切片 604.1.5 設(shè)置切片步長(zhǎng) 614.2 NumPy維數(shù)變換 624.2.1 reshape()函數(shù) 624.2.2 shape()函數(shù) 634.2.3 resize()函數(shù) 644.2.4 ravel()函數(shù) 654.2.5 flatten()函數(shù) 664.3 NumPy廣播機(jī)制 674.3.1 廣播 674.3.2 廣播機(jī)制 684.3.3 廣播機(jī)制變化過(guò)程 694.3.4 廣播不兼容 704.4 NumPy矩陣運(yùn)算 724.4.1 矩陣概述 724.4.2 矩陣的乘法 744.4.3 矩陣的內(nèi)積 744.4.4 矩陣的外積 754.5 小結(jié)與課后練習(xí) 77第5章 Pandas數(shù)據(jù)清洗 785.1 重復(fù)值檢測(cè)與處理 785.1.1 重復(fù)值的檢測(cè) 785.1.2 重復(fù)值的處理 795.2 缺失值檢測(cè)與處理 805.2.1 缺失值的檢測(cè) 815.2.2 缺失值的處理 815.3 異常值檢測(cè)與處理 845.3.1 異常值的檢測(cè) 855.3.2 異常值的處理 865.4 金融數(shù)據(jù)的處理實(shí)戰(zhàn) 875.4.1 讀取上證指數(shù)數(shù)據(jù) 875.4.2 提取特定日期數(shù)據(jù) 885.4.3 填充非交易日數(shù)據(jù) 895.5 小結(jié)與課后練習(xí) 90第6章 Matplotlib數(shù)據(jù)可視化 916.1 圖形參數(shù)設(shè)置 916.1.1 設(shè)置圖形線條 916.1.2 設(shè)置圖形坐標(biāo)軸 946.1.3 設(shè)置圖形圖例 976.2 繪圖參數(shù)文件及主要函數(shù) 996.2.1 修改繪圖參數(shù)文件 996.2.2 主要繪圖函數(shù)簡(jiǎn)介 1006.2.3 繪圖函數(shù)應(yīng)用案例分析某企業(yè)2020年銷售額增長(zhǎng)情況 1016.3 Matplotlib圖形整合 1026.3.1 subplot()函數(shù) 1036.3.2 subplots()函數(shù) 1046.3.3 圖形整合實(shí)戰(zhàn)分析2020年某企業(yè)產(chǎn)品銷售的區(qū)域差異性 1056.4 Matplotlib可視化案例 1076.4.1 商品區(qū)域銷售額條形圖 1076.4.2 商品每周利潤(rùn)率折線圖 1106.4.3 商品利潤(rùn)貢獻(xiàn)率餅圖 1126.5 小結(jié)與課后練習(xí) 114第7章 Scikit-Learn機(jī)器學(xué)習(xí) 1167.1 機(jī)器學(xué)習(xí)及其類型 1167.1.1 機(jī)器學(xué)習(xí)的特點(diǎn) 1167.1.2 機(jī)器學(xué)習(xí)的分類 1177.1.3 機(jī)器學(xué)習(xí)的應(yīng)用 1197.2 Sklearn機(jī)器學(xué)習(xí)概述 1207.2.1 Sklearn的基本概念 1207.2.2 Sklearn的主要算法 1217.2.3 選擇合適的算法 1247.3 Sklearn機(jī)器學(xué)習(xí)流程 1257.3.1 獲取數(shù)據(jù) 1267.3.2 預(yù)處理數(shù)據(jù) 1267.3.3 訓(xùn)練模型 1277.3.4 評(píng)估模型 1287.3.5 優(yōu)化模型 1287.3.6 應(yīng)用模型 1297.4 Sklearn自帶的數(shù)據(jù)集 1297.4.1 鳶尾花數(shù)據(jù)集簡(jiǎn)介 1297.4.2 乳腺癌數(shù)據(jù)集簡(jiǎn)介 1317.4.3 波士頓房?jī)r(jià)數(shù)據(jù)集簡(jiǎn)介 1327.4.4 糖尿病數(shù)據(jù)集簡(jiǎn)介 1337.4.5 手寫數(shù)字?jǐn)?shù)據(jù)集簡(jiǎn)介 1347.4.6 紅酒數(shù)據(jù)集簡(jiǎn)介 1357.5 小結(jié)與課后練習(xí) 136第8章 監(jiān)督式機(jī)器學(xué)習(xí) 1378.1 線性回歸及其案例 1378.1.1 線性回歸簡(jiǎn)介 1378.1.2 線性回歸的建模 1388.1.3 汽車價(jià)格的預(yù)測(cè) 1418.2 邏輯回歸及其案例 1458.2.1 邏輯回歸簡(jiǎn)介 1468.2.2 邏輯回歸的建模 1468.2.3 客戶收入的預(yù)測(cè) 1478.3 Lasso回歸與Ridge回歸 1518.3.1 Lasso回歸及案例 1518.3.2 Ridge回歸及案例 1538.3.3 兩種回歸的比較 1548.4 決策樹及其案例 1558.4.1 決策樹簡(jiǎn)介 1558.4.2 決策樹的建模 1588.4.3 蘑菇類型的預(yù)測(cè) 1598.5 K近鄰算法及其案例 1668.5.1 K近鄰算法簡(jiǎn)介 1668.5.2 K近鄰算法的建模 1668.5.3 乳腺癌患者的分類 1688.6 支持向量機(jī)及其案例 1698.6.1 支持向量機(jī)簡(jiǎn)介 1698.6.2 支持向量機(jī)的建模 1708.6.3 乳腺癌患者的分類 1728.7 小結(jié)與課后練習(xí) 174第9章 無(wú)監(jiān)督式機(jī)器學(xué)習(xí) 1759.1 聚類分析及其案例 1759.1.1 K均值聚類算法及案例 1759.1.2 使用手肘法判斷聚類數(shù) 1809.1.3 輪廓系數(shù)法判斷聚類數(shù) 1819.2 因子分析及其案例 1859.2.1 因子分析概述 1859.2.2 因子分析的建模 1869.2.3 地區(qū)競(jìng)爭(zhēng)力的因子分析 1879.3 主成分分析及其案例 1939.3.1 主成分分析概述 1939.3.2 主成分分析的建模 1949.3.3 乳腺癌患者的主成分分析 1959.4 關(guān)聯(lián)分析及其案例 1989.4.1 關(guān)聯(lián)分析概述 1989.4.2 關(guān)聯(lián)分析的建模 1999.4.3 電商商品購(gòu)物籃分析 2009.5 離群點(diǎn)檢測(cè)及其案例 2039.5.1 離群點(diǎn)檢測(cè)概述 2039.5.2 橢圓模型擬合及案例 2049.5.3 局部離群因子及案例 2079.6 雙聚類分析及其案例 2119.6.1 雙聚類分析概述 2119.6.2 聯(lián)合譜聚類及案例 2119.6.3 譜雙聚類及案例 2139.7 小結(jié)與課后練習(xí) 216第10章 模型評(píng)估與調(diào)優(yōu) 21710.1 機(jī)器學(xué)習(xí)的挑戰(zhàn) 21710.1.1 訓(xùn)練樣本的大小 21710.1.2 數(shù)據(jù)的不平衡 21810.1.3 異常值的處理 21810.1.4 模型的過(guò)擬合 21910.1.5 特征的選擇 21910.2 模型的評(píng)估方法 21910.2.1 混淆矩陣及案例 22010.2.2 模型評(píng)估指標(biāo)及案例 22110.2.3 ROC曲線及案例 22310.2.4 AUC及案例 22510.2.5 R平方及案例 22710.2.6 殘差及案例 22910.3 模型的調(diào)優(yōu)方法 23110.3.1 交叉驗(yàn)證及案例 23110.3.2 網(wǎng)格搜索及案例 23310.3.3 隨機(jī)搜索及案例 23510.4 小結(jié)與課后練習(xí) 236第11章 Python中文文本分析 23711.1 中文結(jié)巴分詞 23711.1.1 文本分詞模式 23711.1.2 自定義停用詞 23911.2 中文關(guān)鍵詞提取 24011.2.1 TF-IDF算法 24011.2.2 TextRank算法 24111.3 中文詞向量生成 24211.3.1 訓(xùn)練詞向量模型 24211.3.2 計(jì)算文本詞向量 24411.4 中文情感分析 24511.4.1 文本情感建模 24611.4.2 文本情感預(yù)測(cè) 24711.5 小結(jié)與課后練習(xí) 249附錄A Python 3.10.0及第三方庫(kù)安裝 250附錄B Python常用第三方工具包簡(jiǎn)介 254B.1 數(shù)據(jù)分析類包 254B.2 數(shù)據(jù)可視化類包 255B.3 機(jī)器學(xué)習(xí)類包 256