亚洲成人欧美自拍,zlt6.app在哪下载,欧美三级在线观看不卡视频

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

定價：¥49

中教價：¥37.73 (7.70折）

庫存數(shù)： 0

購買數(shù)量：

本書是一本通過實戰(zhàn)教初學(xué)者學(xué)習采集數(shù)據(jù)、清洗和組織數(shù)據(jù)進行分析及可視化的 Python 讀物。書中案例均經(jīng)過實戰(zhàn)檢驗，筆者在實踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性，作為一名數(shù)據(jù)行業(yè)的碼農(nóng)，數(shù)據(jù)就是沃土，沒有數(shù)據(jù)，我們將無田可耕。

本書共分 11 章， 6 個核心主題：其一是 Python 基礎(chǔ)入門，包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù)；其二是 Python 爬蟲的構(gòu)建，包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計、代碼優(yōu)化、效率優(yōu)化、容錯處理、反防爬蟲、表單交互和模擬頁面點擊；其三是 Python 數(shù)據(jù)庫應(yīng)用，包括 MongoDB、 MySQL 在 Python中的連接與應(yīng)用；其四是數(shù)據(jù)清洗和組織，包括 NumPy 數(shù)組知識、 pandas 數(shù)據(jù)的讀寫、分組變形、缺失值異常值處理、時序數(shù)據(jù)處理和正則表達式的使用；其五是綜合應(yīng)用案例，幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程；*后是數(shù)據(jù)可視化，包括 Matplotlib 和 Pyecharts 兩個庫的使用，涉及餅圖、柱形圖、線圖、詞云圖、地圖等圖形，幫助讀者進入可視化的殿堂。

本書以實戰(zhàn)為主，適合 Python 初學(xué)者及高等院校的相關(guān)專業(yè)學(xué)生，也適合 Python 培訓(xùn)機構(gòu)作為實驗教材使用。

本書內(nèi)容來自筆者在高校授課的內(nèi)容，主要介紹如何運用 Python 工具獲取電商平臺的頁面數(shù)據(jù)，并對數(shù)據(jù)進行清洗和存儲。本書簡化了 Python 基礎(chǔ)部分，保證有足夠的篇幅來介紹爬蟲和數(shù)據(jù)清洗的內(nèi)容。
本書采用的版本是 Python 3.6.2，是筆者寫書時的*版本，而且筆者習慣用的操作平臺是Windows 系統(tǒng)。

Python 是軍刀型的開源工具，被廣泛應(yīng)用于 Web 開發(fā)、爬蟲、數(shù)據(jù)清洗、自然語言處理、機器學(xué)習和人工智能等方面，而且 Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業(yè)的技術(shù)人員都開始使用 Python。
本書內(nèi)容來自筆者在高校授課的內(nèi)容，主要介紹如何運用 Python 工具獲取電商平臺的頁面數(shù)據(jù)，并對數(shù)據(jù)進行清洗和存儲。本書簡化了 Python 基礎(chǔ)部分，保證有足夠的篇幅來介紹爬蟲和數(shù)據(jù)清洗的內(nèi)容。
本書采用的版本是 Python 3.6.2，是筆者寫書時的最新版本，而且筆者習慣用的操作平臺是Windows 系統(tǒng)。雖然目前一些高校和開發(fā)者在使用 Python 2.7，但是 Python 團隊將在 2020 年停止對Python 2.7 的支持更新， Python 2.X 轉(zhuǎn)向 Python 3.X 是大勢所趨。
本書第 1 章簡單介紹 Python 和相關(guān)的 IDE，如果讀者完全沒有 Python 基礎(chǔ)，那么建議選購一本基礎(chǔ)書作為輔助。第 2～6 章介紹爬蟲的實例，實現(xiàn)從最簡單的爬蟲到相對比較復(fù)雜的爬蟲。鑒于實例的限制，本書的爬蟲內(nèi)容沒有涉及代理服務(wù)器和驗證碼處理等問題。第 7 章介紹在 Python 中如何連接并操作數(shù)據(jù)庫。第 8 章介紹了 NumPy 及其用法。第 9 章詳細介紹 pandas 的功能，pandas 是 Python數(shù)據(jù)清洗和建模中非常重要的庫。第 10 章用兩個完整案例展示了從爬蟲到建模的過程。第 11 章介紹 Python 的可視化，選用的庫是 matplotlib 和 pyecharts，這里詳細介紹了 pyecharts。
鑒于作者的水平有限，不足之處請讀者不吝指教。

零一

原名陳海城，

零一數(shù)據(jù)學(xué)院創(chuàng)始人，

電商數(shù)據(jù)專家，數(shù)據(jù)分析師，開發(fā)工程師。

從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。

黃園園，具有十年軟件開發(fā)經(jīng)驗，全棧工程師，六西格瑪黑帶，精通Python和機器學(xué)習算法，具有豐富的分布式爬蟲開發(fā)經(jīng)驗；曾在蘇州三星電子電腦（SESC）、新加坡電信（NCS）、希捷科技（Seagate Technology）等世界知名企業(yè)研發(fā)部工作，參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā)，曾任杭州沐垚科技CTO。

韓要賓，杭州沐垚科技有限公司 COO，CDA數(shù)據(jù)分析研究院資深講師；5年電商從業(yè)經(jīng)驗，4年數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗；專注于數(shù)據(jù)分析與挖掘、機器學(xué)習、深度學(xué)習，服務(wù)客戶包括蘇寧易購、迪卡儂、百草味、浙江師范大學(xué)等。

第 1 章 Python 基礎(chǔ) /1
1.1 安裝 Python 環(huán)境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具PyCharm /4
1.1.3 使用 IDE 工具Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫第一個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數(shù)據(jù)類型/10
1.3.1 數(shù)字/10
1.3.2 字符串/11
1.3.3 列表/13
1.3.4 元組/14
1.3.5 集合/15
1.3.6 字典/15
1.4 Python 語句與函數(shù)/16
1.4.1 條件語句/16
1.4.2 循環(huán)語句/16
1.4.3 函數(shù)/17

第 2 章寫一個簡單的爬蟲/18
2.1 關(guān)于爬蟲的合法性/18
2.2 了解網(wǎng)頁/20
2.2.1 認識網(wǎng)頁結(jié)構(gòu)/ 21
2.2.2 寫一個簡單的 HTML/21
2.3 使用 requests 庫請求網(wǎng)站/23

2.3.1 安裝 requests 庫/23
2.3.2 爬蟲的基本原理/25
2.3.3 使用 GET 方式抓取數(shù)據(jù)/26
2.3.4 使用 POST 方式抓取數(shù)據(jù)/27
2.4 使用 Beautiful Soup 解析網(wǎng)頁/30
2.5 清洗和組織數(shù)據(jù)/34
2.6 爬蟲攻防戰(zhàn)/35

第 3 章用 API 爬取天氣預(yù)報數(shù)據(jù)/38
3.1 注冊免費 API 和閱讀技術(shù)文檔/38
3.2 獲取 API 數(shù)據(jù)/40
3.3 存儲數(shù)據(jù)到 MongoDB /45
3.3.1 下載并安裝 MongoDB/ 45
3.3.2 在 PyCharm 中安裝 Mongo Plugin/ 46
3.3.3 將數(shù)據(jù)存入 MongoDB/49
3.4 MongoDB 數(shù)據(jù)庫查詢/52

第 4 章大型爬蟲案例：抓取某電商網(wǎng)站的商品數(shù)據(jù)/55
4.1 觀察頁面特征和解析數(shù)據(jù)/55
4.2 工作流程分析/64
4.3 構(gòu)建類目樹/65
4.4 獲取產(chǎn)品列表/ 68
4.5 代碼優(yōu)化/70
4.6 爬蟲效率優(yōu)化/74
4.7 容錯處理/77

第 5 章 Scrapy 爬蟲/78
5.1 Scrapy 簡介/78
5.2 Scrapy 安裝/79
5.3 案例：用 Scrapy 抓取股票行情/ 80

第 6 章 Selenium 爬蟲/88
6.1 Selenium 簡介/88
6.2 案例：用 Selenium 抓取電商網(wǎng)站數(shù)據(jù)/90

第 7 章數(shù)據(jù)庫連接和查詢/100
7.1 使用 PyMySQL/100
7.1.1 連接數(shù)據(jù)庫/100
7.1.2 案例：某電商網(wǎng)站女裝行業(yè) TOP100 銷量數(shù)據(jù)/102
7.2 使用 SQLAlchemy/104
7.2.1 SQLAlchemy 基本介紹/104
7.2.2 SQLAlchemy 基本語法/105
7.3 MongoDB/107
7.3.1 MongoDB 基本語法/107
7.3.2 案例：在某電商網(wǎng)站搜索連衣裙的商品數(shù)據(jù)/107

第 8 章 NumPy/109
8.1 NumPy 簡介/109
8.2 一維數(shù)組/110
8.2.1 數(shù)組與列表的異同/110
8.2.2 數(shù)組的創(chuàng)建/111
8.3 多維數(shù)組/111
8.3.1 多維數(shù)組的高效性能/112
8.3.2 多維數(shù)組的索引與切片/113
8.3.3 多維數(shù)組的屬性/113
8.4 數(shù)組的運算/115

第 9 章 pandas 數(shù)據(jù)清洗/117
9.1 數(shù)據(jù)讀寫、選擇、整理和描述/117
9.1.1 從 CSV 中讀取數(shù)據(jù)/119
9.1.2 向 CSV 寫入數(shù)據(jù)/120
9.1.3 數(shù)據(jù)選擇/120
9.1.4 數(shù)據(jù)整理/122
9.1.5 數(shù)據(jù)描述/123
9.2 數(shù)據(jù)分組、分割、合并和變形/124
9.2.1 數(shù)據(jù)分組/124
9.2.2 數(shù)據(jù)分割/127
9.2.3 數(shù)據(jù)合并/128
9.2.4 數(shù)據(jù)變形/134
9.2.5 案例：旅游數(shù)據(jù)的分析與變形/136

9.3 缺失值、異常值和重復(fù)值處理/140
9.3.1 缺失值處理/140
9.3.2 檢測和過濾異常值/144
9.3.3 移除重復(fù)數(shù)據(jù)/147
9.3.4 案例：旅游數(shù)據(jù)的值檢查與處理/149
9.4 時序數(shù)據(jù)處理/152
9.4.1 日期/時間數(shù)據(jù)轉(zhuǎn)換/152
9.4.2 時序數(shù)據(jù)基礎(chǔ)操作/153
9.4.3 案例：天氣數(shù)據(jù)分析與處理/155
9.5 數(shù)據(jù)類型轉(zhuǎn)換/158
9.6 正則表達式/ 160
9.6.1 元字符與限定符/161
9.6.2 案例：用正則表達式提取網(wǎng)頁文本信息/162

第 10 章綜合應(yīng)用實例/164
10.1 按性價比給用戶推薦旅游產(chǎn)品/164
10.1.1 數(shù)據(jù)采集/165
10.1.2 數(shù)據(jù)清洗、建模/169
10.2 通過熱力圖分析為用戶提供出行建議/172
10.2.1 某旅游網(wǎng)站熱門景點爬蟲代碼（qunaer_sights.py）/175
10.2.2 提取 CSV 文件中經(jīng)緯度和銷量信息/178
10.2.3 創(chuàng)建景點門票銷量熱力地圖 HTML 文件/179

第 11 章數(shù)據(jù)可視化/182
11.1 matplotlib/183
11.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖/183
11.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖/184
11.1.3 畫出價格與成交量的散點圖/185
11.2 pyecharts/186
11.2.1 Echarts 簡介/186
11.2.2 pyecharts 簡介/187
11.2.3 初識 pyecharts，玫瑰相送/187
11.2.4 pyecharts 基本語法/188
11.2.5 基于商業(yè)分析的 pyecharts 圖表繪制/190
11.2.6 使用 pyecharts 繪制其他圖表/199
11.2.7 pyecharts 和 Jupyter/203

你還可能感興趣

我要評論

您的姓名	驗證碼：
留言內(nèi)容

国产91青青成人a在线/在线视频成人/aaa成人永久在线观看视频/深夜草莓视频app