Python網(wǎng)絡(luò)爬蟲從入門到精通
定 價(jià):¥99.8
中 教 價(jià):¥64.87 (6.50折)
庫 存 數(shù): 0
《Python網(wǎng)絡(luò)爬蟲從入門到精通》從初學(xué)者角度出發(fā),通過通俗易懂的語言、豐富多彩的實(shí)例,詳細(xì)介紹了使用Python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲開發(fā)應(yīng)該掌握的技術(shù)。全書共分19章,內(nèi)容包括初識(shí)網(wǎng)絡(luò)爬蟲、了解Web前端、請(qǐng)求模塊urllib、請(qǐng)求模塊urllib3、請(qǐng)求模塊requests、高級(jí)網(wǎng)絡(luò)請(qǐng)求模塊、正則表達(dá)式、XPath解析、解析數(shù)據(jù)的BeautifulSoup、爬取動(dòng)態(tài)渲染的信息、多線程與多進(jìn)程爬蟲、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)可視化、App抓包工具、識(shí)別驗(yàn)證碼、Scrapy爬蟲框架、Scrapy_Redis分布式爬蟲、數(shù)據(jù)偵探。書中所有知識(shí)都結(jié)合具體實(shí)例進(jìn)行介紹,涉及的程序代碼給出了詳細(xì)的注釋,讀者可輕松領(lǐng)會(huì)網(wǎng)絡(luò)爬蟲程序開發(fā)的精髓,快速提高開發(fā)技能。
《Python網(wǎng)絡(luò)爬蟲從入門到精通》從零基礎(chǔ)開始,提供了Python網(wǎng)絡(luò)爬蟲開發(fā)從入門到編程高手所必需的各類知識(shí)。無論有沒有Python基礎(chǔ),通過本書你都能最終成為網(wǎng)絡(luò)爬蟲高手。
(1)主流技術(shù),全面解析。本書涵蓋網(wǎng)頁抓取、App抓包、識(shí)別驗(yàn)證碼、Scrapy爬蟲框架,以及Scrapy_Redis分布式爬蟲等技術(shù),一本書教你掌握網(wǎng)絡(luò)爬蟲領(lǐng)域的主流核心技術(shù)。
(2)由淺入深,循序漸進(jìn)。本書引領(lǐng)讀者按照基礎(chǔ)知識(shí)→核心技術(shù)→高級(jí)應(yīng)用→項(xiàng)目實(shí)戰(zhàn)循序漸進(jìn)地學(xué)習(xí),符合認(rèn)知規(guī)律。
(3)邊學(xué)邊練,學(xué)以致用。200個(gè)應(yīng)用示例+1個(gè)行業(yè)項(xiàng)目案例+136集Python零基礎(chǔ)掃盲課,邊學(xué)邊練,在實(shí)踐中提升技能。
(4)精彩欄目,貼心提醒。本書設(shè)置了很多“注意”“說明”“技巧”等小欄目,讓讀者在學(xué)習(xí)的過程中更輕松地理解相關(guān)知識(shí)點(diǎn)及概念,更快地掌握數(shù)據(jù)分析技能和應(yīng)用技巧。
(5)在線解答,高效學(xué)習(xí)。在線答疑QQ及技術(shù)支持網(wǎng)站,不定期進(jìn)行在線直播課程。
在大數(shù)據(jù)、人工智能應(yīng)用越來越普遍的今天,Python可以說是當(dāng)下世界上最熱門、應(yīng)用最廣泛的編程語言之一,在人工智能、爬蟲、數(shù)據(jù)分析、游戲、自動(dòng)化運(yùn)維等各個(gè)方面,無處不見其身影。隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)的收集與統(tǒng)計(jì)占據(jù)了重要地位,而數(shù)據(jù)的收集工作在很大程度上需要通過網(wǎng)絡(luò)爬蟲來爬取,所以網(wǎng)絡(luò)爬蟲技術(shù)變得十分重要。本書提供了Python網(wǎng)絡(luò)爬蟲開發(fā)從入門到編程高手所必需的各類知識(shí),共分4篇。第1篇:基礎(chǔ)知識(shí)。本篇內(nèi)容主要介紹網(wǎng)絡(luò)爬蟲入門知識(shí),包括初識(shí)網(wǎng)絡(luò)爬蟲、搭建網(wǎng)絡(luò)爬蟲的開發(fā)環(huán)境、Web前端知識(shí)、Python自帶的網(wǎng)絡(luò)請(qǐng)求模塊urllib、第三方請(qǐng)求模塊urllib3和requests,以及高級(jí)網(wǎng)絡(luò)請(qǐng)求模塊。結(jié)合大量的圖示、舉例等使讀者快速掌握網(wǎng)絡(luò)爬蟲開發(fā)的必備知識(shí),為以后編寫網(wǎng)絡(luò)爬蟲奠定堅(jiān)實(shí)的基礎(chǔ)。第2篇:核心技術(shù)。本篇主要介紹如何解析網(wǎng)絡(luò)數(shù)據(jù)(包括正則表達(dá)式解析、Xpath解析和BeautifulSoup解析),以及如何爬取動(dòng)態(tài)渲染的信息、多線程與多進(jìn)程爬蟲、數(shù)據(jù)處理與數(shù)據(jù)存儲(chǔ)等相關(guān)知識(shí)。學(xué)習(xí)完這一部分,讀者可熟練掌握如何通過網(wǎng)絡(luò)爬蟲獲取網(wǎng)絡(luò)數(shù)據(jù)并存儲(chǔ)數(shù)據(jù)。第3篇:高級(jí)應(yīng)用。本篇主要介紹數(shù)據(jù)可視化、App抓包工具、識(shí)別驗(yàn)證碼、Scrapy爬蟲框架,以及Scrapy_Redis分布式爬蟲等知識(shí)。第4篇:項(xiàng)目實(shí)戰(zhàn)。本篇通過一個(gè)完整的數(shù)據(jù)偵探爬蟲項(xiàng)目,運(yùn)用軟件工程與網(wǎng)絡(luò)爬蟲的設(shè)計(jì)思想,讓讀者學(xué)習(xí)如何對(duì)電商數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬蟲軟件項(xiàng)目的實(shí)踐開發(fā)。書中按照“需求分析→系統(tǒng)設(shè)計(jì)→公共模塊設(shè)計(jì)→數(shù)據(jù)庫設(shè)計(jì)→實(shí)現(xiàn)項(xiàng)目”的流程進(jìn)行介紹,帶領(lǐng)讀者一步一步親身體驗(yàn)開發(fā)項(xiàng)目的全過程。本書特點(diǎn)由淺入深,循序漸進(jìn)。本書以初中級(jí)程序員為對(duì)象,采用圖文結(jié)合、循序漸進(jìn)的編排方式,從網(wǎng)絡(luò)爬蟲開發(fā)環(huán)境的搭建到網(wǎng)絡(luò)爬蟲的核心技術(shù)應(yīng)用,最后通過一個(gè)完整的實(shí)戰(zhàn)項(xiàng)目對(duì)網(wǎng)絡(luò)爬蟲的開發(fā)進(jìn)行了詳細(xì)講解,幫助讀者快速掌握網(wǎng)絡(luò)爬蟲開發(fā)技術(shù),全面提升開發(fā)經(jīng)驗(yàn)。實(shí)例典型,輕松易學(xué)。通過例子學(xué)習(xí)是最好的學(xué)習(xí)方式,本書通過“一個(gè)知識(shí)點(diǎn)、一個(gè)例子、一個(gè)結(jié)果、一段評(píng)析”的模式,透徹詳盡地講述了實(shí)際開發(fā)中所需的各類知識(shí)。另外,為了便于讀者閱讀程序代碼,快速學(xué)習(xí)編程技能,書中幾乎每行代碼都提供了注釋。項(xiàng)目實(shí)戰(zhàn),經(jīng)驗(yàn)累積。本書通過一個(gè)完整的電商數(shù)據(jù)爬取項(xiàng)目,講解實(shí)際爬蟲項(xiàng)目的完整開發(fā)過程,帶領(lǐng)讀者親身體驗(yàn)開發(fā)項(xiàng)目的全過程,積累項(xiàng)目經(jīng)驗(yàn)。精彩欄目,貼心提醒。本書根據(jù)需要在各章使用了很多“注意”“說明”“技巧”等小欄目,讓讀者可以在學(xué)習(xí)過程中更輕松地理解相關(guān)知識(shí)點(diǎn)及概念,并輕松地掌握個(gè)別技術(shù)的應(yīng)用技巧。讀者對(duì)象:初學(xué)編程的自學(xué)者、編程愛好者、大中專院校的老師和學(xué)生、相關(guān)培訓(xùn)機(jī)構(gòu)的老師和學(xué)員、 畢業(yè)設(shè)計(jì)的學(xué)生、初中級(jí)程序開發(fā)人員、程序測(cè)試及維護(hù)人員、參加實(shí)習(xí)的“菜鳥”程序員。讀者服務(wù):本書附贈(zèng)的各類學(xué)習(xí)資源,讀者可登錄清華大學(xué)出版社網(wǎng)站,在對(duì)應(yīng)圖書頁面下獲取其下載方式。也可掃描圖書封底的“文泉云盤”二維碼,獲取其下載方式。感謝您購買本書,希望本書能成為您編程路上的領(lǐng)航者。“零門檻”編程,一切皆有可能。祝讀書快樂!
明日科技,全稱是吉林省明日科技有限公司,是一家專業(yè)從事軟件開發(fā)、教育培訓(xùn)以及軟件開發(fā)教育資源整合的高科技公司,其編寫的教材非常注重選取軟件開發(fā)中的必需、常用內(nèi)容,同時(shí)也很注重內(nèi)容的易學(xué)、方便性以及相關(guān)知識(shí)的拓展性,深受讀者喜愛。其教材多次榮獲“全行業(yè)優(yōu)秀暢銷品種”“全國高校出版社優(yōu)秀暢銷書”等獎(jiǎng)項(xiàng),多個(gè)品種長期位居同類圖書銷售排行榜的前列。
第1篇 基礎(chǔ)知識(shí)第1章 初識(shí)網(wǎng)絡(luò)爬蟲 21.1 網(wǎng)絡(luò)爬蟲概述 21.2 網(wǎng)絡(luò)爬蟲的分類 21.3 網(wǎng)絡(luò)爬蟲的基本原理 31.4 搭建開發(fā)環(huán)境 41.4.1 安裝Anaconda 41.4.2 PyCharm的下載與安裝 71.4.3 配置PyCharm 91.4.4 測(cè)試PyCharm 131.5 小結(jié) 15第2章 了解Web前端 162.1 HTTP基本原理 162.1.1 HTTP協(xié)議 162.1.2 HTTP與Web服務(wù)器 162.1.3 瀏覽器中的請(qǐng)求和響應(yīng) 182.2 HTML語言 192.2.1 什么是HTML 192.2.2 標(biāo)簽、元素、結(jié)構(gòu)概述 192.2.3 HTML的基本標(biāo)簽 212.3 CSS層疊樣式表 222.3.1 CSS概述 222.3.2 屬性選擇器 232.3.3 類和ID選擇器 242.4 JavaScript動(dòng)態(tài)腳本語言 242.5 小結(jié) 27第3章 請(qǐng)求模塊urllib 283.1 urllib簡介 283.2 使用urlopen()方法發(fā)送請(qǐng)求 283.2.1 發(fā)送GET請(qǐng)求 293.2.2 發(fā)送POST請(qǐng)求 303.2.3 設(shè)置網(wǎng)絡(luò)超時(shí) 313.3 復(fù)雜的網(wǎng)絡(luò)請(qǐng)求 323.3.1 設(shè)置請(qǐng)求頭 323.3.2 Cookies的獲取與設(shè)置 343.3.3 設(shè)置代理IP 393.4 異常處理 403.5 解析鏈接 413.5.1 拆分URL 423.5.2 組合URL 433.5.3 連接URL 443.5.4 URL的編碼與解碼 453.5.5 URL參數(shù)的轉(zhuǎn)換 463.6 小結(jié) 47第4章 請(qǐng)求模塊urllib3 484.1 urllib3簡介 484.2 發(fā)送網(wǎng)絡(luò)請(qǐng)求 494.2.1 GET請(qǐng)求 494.2.2 POST請(qǐng)求 504.2.3 重試請(qǐng)求 514.2.4 處理響應(yīng)內(nèi)容 514.3 復(fù)雜請(qǐng)求的發(fā)送 534.3.1 設(shè)置請(qǐng)求頭 534.3.2 設(shè)置超時(shí) 544.3.3 設(shè)置代理 554.4 上傳文件 564.5 小結(jié) 57第5章 請(qǐng)求模塊requests 585.1 請(qǐng)求方式 585.1.1 GET請(qǐng)求 595.1.2 對(duì)響應(yīng)結(jié)果進(jìn)行utf-8編碼 595.1.3 爬取二進(jìn)制數(shù)據(jù) 605.1.4 GET(帶參)請(qǐng)求 615.1.5 POST請(qǐng)求 625.2 復(fù)雜的網(wǎng)絡(luò)請(qǐng)求 635.2.1 添加請(qǐng)求頭headers 635.2.2 驗(yàn)證Cookies 645.2.3 會(huì)話請(qǐng)求 655.2.4 驗(yàn)證請(qǐng)求 665.2.5 網(wǎng)絡(luò)超時(shí)與異常 675.2.6 上傳文件 685.3 代理服務(wù) 695.3.1 代理的應(yīng)用 695.3.2 獲取免費(fèi)的代理IP 705.3.3 檢測(cè)代理IP是否有效 715.4 小結(jié) 72第6章 高級(jí)網(wǎng)絡(luò)請(qǐng)求模塊 736.1 Requests-Cache的安裝與測(cè)試 736.2 緩存的應(yīng)用 746.3 強(qiáng)大的Requests-HTML模塊 766.3.1 使用Requests-HTML實(shí)現(xiàn)網(wǎng)絡(luò)請(qǐng)求 766.3.2 數(shù)據(jù)的提取 786.3.3 獲取動(dòng)態(tài)加載的數(shù)據(jù) 826.4 小結(jié) 85第2篇 核心技術(shù)第7章 正則表達(dá)式 887.1 正則表達(dá)式基礎(chǔ) 887.1.1 行定位符 887.1.2 元字符 897.1.3 限定符 897.1.4 字符類 907.1.5 排除字符 907.1.6 選擇字符 907.1.7 轉(zhuǎn)義字符 917.1.8 分組 917.1.9 在Python中使用正則表達(dá)式語法 917.2 使用match()進(jìn)行匹配 927.2.1 匹配是否以指定字符串開頭 937.2.2 匹配任意開頭的字符串 947.2.3 匹配多個(gè)字符串 947.2.4 獲取部分內(nèi)容 947.2.5 匹配指定首尾的字符串 957.3 使用search()進(jìn)行匹配 957.3.1 獲取第一匹配值 967.3.2 可選匹配 967.3.3 匹配字符串邊界 977.4 使用findall()進(jìn)行匹配 977.4.1 匹配所有指定字符開頭字符串 987.4.2 貪婪匹配 987.4.3 非貪婪匹配 997.5 字符串處理 1007.5.1 替換字符串 1007.5.2 分割字符串 1017.6 案例:爬取編程e學(xué)網(wǎng)視頻 1027.6.1 查找視頻頁面 1027.6.2 分析視頻地址 1037.6.3 實(shí)現(xiàn)視頻下載 1057.7 小結(jié) 105第8章 XPath解析 1068.1 XPath概述 1068.2 XPath的解析操作 1078.2.1 解析HTML 1078.2.2 獲取所有節(jié)點(diǎn) 1098.2.3 獲取子節(jié)點(diǎn) 1108.2.4 獲取父節(jié)點(diǎn) 1128.2.5 獲取文本 1128.2.6 屬性匹配 1138.2.7 獲取屬性 1158.2.8 按序獲取 1168.2.9 節(jié)點(diǎn)軸獲取 1178.3 案例:爬取豆瓣電影Top 250 1188.3.1 分析請(qǐng)求地址 1188.3.2 分析信息位置 1198.3.3 爬蟲代碼的實(shí)現(xiàn) 1208.4 小結(jié) 121第9章 解析數(shù)據(jù)的BeautifulSoup 1229.1 使用BeautifulSoup解析數(shù)據(jù) 1229.1.1 BeautifulSoup的安裝 1229.1.2 解析器 1239.1.3 BeautifulSoup的簡單應(yīng)用 1249.2 獲取節(jié)點(diǎn)內(nèi)容 1259.2.1 獲取節(jié)點(diǎn)對(duì)應(yīng)的代碼 1259.2.2 獲取節(jié)點(diǎn)屬性 1269.2.3 獲取節(jié)點(diǎn)包含的文本內(nèi)容 1279.2.4 嵌套獲取節(jié)點(diǎn)內(nèi)容 1289.2.5 關(guān)聯(lián)獲取 1299.3 方法獲取內(nèi)容 1339.3.1 find_all()獲取所有符合條件的內(nèi)容 1339.3.2 find()獲取第一個(gè)匹配的節(jié)點(diǎn)內(nèi)容 1369.3.3 其他方法 1379.4 CSS選擇器 1379.5 小結(jié) 140第10章 爬取動(dòng)態(tài)渲染的信息 14110.1 Ajax數(shù)據(jù)的爬取 14110.1.1 分析請(qǐng)求地址 14110.1.2 提取視頻標(biāo)題與視頻地址 14410.1.3 視頻的批量下載 14510.2 使用Selenium爬取動(dòng)態(tài)加載的信息 14610.2.1 安裝Selenium模塊 14610.2.2 下載瀏覽器驅(qū)動(dòng) 14710.2.3 Selenium模塊的使用 14710.2.4 Selenium模塊的常用方法 14910.3 Splash的爬蟲應(yīng)用 15010.3.1 搭建Splash環(huán)境(Windows 10系統(tǒng)) 15010.3.2 搭建Splash環(huán)境(Windows 7系統(tǒng)) 15310.3.3 Splash中的HTTP API 15610.3.4 執(zhí)行l(wèi)ua自定義腳本 15910.4 小結(jié) 160第11章 多線程與多進(jìn)程爬蟲 16111.1 什么是線程 16111.2 創(chuàng)建線程 16111.2.1 使用threading模塊創(chuàng)建線程 16211.2.2 使用Thread子類創(chuàng)建線程 16311.3 線程間通信 16311.3.1 什么是互斥鎖 16511.3.2 使用互斥鎖 16511.3.3 使用隊(duì)列在線程間通信 16711.4 什么是進(jìn)程 16911.5 創(chuàng)建進(jìn)程的常用方式 16911.5.1 使用multiprocessing模塊創(chuàng)建進(jìn)程 16911.5.2 使用Process子類創(chuàng)建進(jìn)程 17211.5.3 使用進(jìn)程池Pool創(chuàng)建進(jìn)程 17411.6 進(jìn)程間通信 17511.6.1 隊(duì)列簡介 17711.6.2 多進(jìn)程隊(duì)列的使用 17711.6.3 使用隊(duì)列在進(jìn)程間通信 17911.7 多進(jìn)程爬蟲 18011.8 小結(jié) 185第12章 數(shù)據(jù)處理 18612.1 初識(shí)Pandas 18612.2 Series對(duì)象 18712.2.1 圖解Series對(duì)象 18712.2.2 創(chuàng)建一個(gè)Series對(duì)象 18812.2.3 手動(dòng)設(shè)置Series索引 18812.2.4 Series的索引 18912.2.5 獲取Series索引和值 19012.3 DataFrame對(duì)象 19012.3.1 圖解DataFrame對(duì)象 19112.3.2 創(chuàng)建一個(gè)DataFrame對(duì)象 19212.3.3 DataFrame的重要屬性和函數(shù) 19412.4 數(shù)據(jù)的增、刪、改、查 19512.4.1 增加數(shù)據(jù) 19512.4.2 刪除數(shù)據(jù) 19612.4.3 修改數(shù)據(jù) 19712.4.4 查詢數(shù)據(jù) 19812.5 數(shù)據(jù)清洗 19912.5.1 NaN數(shù)據(jù)處理 19912.5.2 去除重復(fù)數(shù)據(jù) 20212.6 數(shù)據(jù)轉(zhuǎn)換 20412.6.1 DataFrame轉(zhuǎn)換為字典 20412.6.2 DataFrame轉(zhuǎn)換為列表 20612.6.3 DataFrame轉(zhuǎn)換為元組 20612.7 導(dǎo)入外部數(shù)據(jù) 20712.7.1 導(dǎo)入.xls或.xlsx文件 20712.7.2 導(dǎo)入.csv文件 21112.7.3 導(dǎo)入.txt文本文件 21312.7.4 導(dǎo)入HTML網(wǎng)頁 21312.8 數(shù)據(jù)排序與排名 21412.8.1 數(shù)據(jù)排序 21412.8.2 數(shù)據(jù)排名 21712.9 簡單的數(shù)據(jù)計(jì)算 21912.9.1 求和(sum函數(shù)) 21912.9.2 求均值(mean函數(shù)) 22012.9.3 求最大值(max函數(shù)) 22112.9.4 求最小值(min函數(shù)) 22112.10 數(shù)據(jù)分組統(tǒng)計(jì) 22212.10.1 分組統(tǒng)計(jì)groupby函數(shù) 22212.10.2 對(duì)分組數(shù)據(jù)進(jìn)行迭代 22412.10.3 通過字典和Series對(duì)象進(jìn)行分組統(tǒng)計(jì) 22512.11 日期數(shù)據(jù)處理 22712.11.1 DataFrame的日期數(shù)據(jù)轉(zhuǎn)換 22712.11.2 dt對(duì)象的使用 22912.11.3 獲取日期區(qū)間的數(shù)據(jù) 23012.11.4 按不同時(shí)期統(tǒng)計(jì)并顯示數(shù)據(jù) 23112.12 小結(jié) 233第13章 數(shù)據(jù)存儲(chǔ) 23413.1 文件的存取 23413.1.1 基本文件操作TXT 23413.1.2 存儲(chǔ)CSV文件 23913.1.3 存儲(chǔ)Excel文件 24013.2 SQLite數(shù)據(jù)庫 24113.2.1 創(chuàng)建數(shù)據(jù)庫文件 24213.2.2 操作SQLite 24213.3 MySQL數(shù)據(jù)庫 24413.3.1 下載與安裝MySQL 24413.3.2 安裝PyMySQL 24813.3.3 連接數(shù)據(jù)庫 24913.3.4 創(chuàng)建數(shù)據(jù)表 25013.3.5 操作MySQL數(shù)據(jù)表 25113.4 小結(jié) 252第3篇 高級(jí)應(yīng)用第14章 數(shù)據(jù)可視化 25414.1 Matplotlib概述 25414.1.1 Matplotlib簡介 25414.1.2 安裝Matplotlib 25714.2 圖表的常用設(shè)置 25814.2.1 基本繪圖plot函數(shù) 25814.2.2 設(shè)置畫布 26114.2.3 設(shè)置坐標(biāo)軸 26214.2.4 添加文本標(biāo)簽 26514.2.5 設(shè)置標(biāo)題和圖例 26614.2.6 添加注釋 26814.3 常用圖表的繪制 26914.3.1 繪制折線圖 27014.3.2 繪制柱形圖 27114.3.3 繪制餅形圖 27314.4 案例:可視化二手房數(shù)據(jù)查詢系統(tǒng) 27814.5 小結(jié) 285第15章 App抓包工具 28615.1 Charles工具的下載與安裝 28615.2 SSL證書的安裝 28815.2.1 安裝PC端證書 28815.2.2 設(shè)置代理 29115.2.3 配置網(wǎng)絡(luò) 29215.2.4 安裝手機(jī)端證書 29415.3 小結(jié) 296第16章 識(shí)別驗(yàn)證碼 29716.1 字符驗(yàn)證碼 29716.1.1 搭建OCR環(huán)境 29716.1.2 下載驗(yàn)證碼圖片 29816.1.3 識(shí)別驗(yàn)證碼 29916.2 第三方驗(yàn)證碼識(shí)別 30116.3 滑動(dòng)拼圖驗(yàn)證碼 30516.4 小結(jié) 307第17章 Scrapy爬蟲框架 30817.1 了解Scrapy爬蟲框架 30817.2 搭建Scrapy爬蟲框架 30917.2.1 使用Anaconda安裝Scrapy 30917.2.2 Windows系統(tǒng)下配置Scrapy 31017.3 Scrapy的基本應(yīng)用 31217.3.1 創(chuàng)建Scrapy項(xiàng)目 31217.3.2 創(chuàng)建爬蟲 31317.3.3 獲取數(shù)據(jù) 31617.3.4 將爬取的數(shù)據(jù)保存為多種格式的文件 31817.4 編寫Item Pipeline 31917.4.1 項(xiàng)目管道的核心方法 31917.4.2 將信息存儲(chǔ)至數(shù)據(jù)庫 32017.5 自定義中間件 32417.5.1 設(shè)置隨機(jī)請(qǐng)求頭 32517.5.2 設(shè)置Cookies 32717.5.3 設(shè)置代理ip 33017.6 文件下載 33217.7 小結(jié) 334第18章 Scrapy_Redis分布式爬蟲 33518.1 安裝Redis數(shù)據(jù)庫 33518.2 Scrapy-Redis模塊 33718.3 分布式爬取中文日?qǐng)?bào)新聞數(shù)據(jù) 33818.3.1 分析網(wǎng)頁地址 33818.3.2 創(chuàng)建MySQL數(shù)據(jù)表 33918.3.3 創(chuàng)建Scrapy項(xiàng)目 34018.3.4 啟動(dòng)分布式爬蟲 34418.4 自定義分布式爬蟲 34818.5 小結(jié) 354第4篇 項(xiàng)目實(shí)戰(zhàn)第19章 數(shù)據(jù)偵探 35619.1 需求分析 35619.2 系統(tǒng)設(shè)計(jì) 35619.2.1 系統(tǒng)功能結(jié)構(gòu) 35619.2.2 系統(tǒng)業(yè)務(wù)流程 35719.2.3 系統(tǒng)預(yù)覽 35819.3 系統(tǒng)開發(fā)必備 36019.3.1 開發(fā)工具準(zhǔn)備 36019.3.2 文件夾組織結(jié)構(gòu) 36019.4 主窗體的UI設(shè)計(jì) 36119.4.1 主窗體的布局 36119.4.2 主窗體顯示效果 36319.5 設(shè)計(jì)數(shù)據(jù)庫表結(jié)構(gòu) 36419.6 爬取數(shù)據(jù) 36519.6.1 獲取京東商品熱賣排行信息 36519.6.2 獲取價(jià)格信息 37019.6.3 獲取評(píng)價(jià)信息 37219.6.4 定義數(shù)據(jù)庫操作文件 37519.7 主窗體的數(shù)據(jù)展示 37819.7.1 顯示前10名熱賣榜圖文信息 37819.7.2 顯示關(guān)注商品列表 38219.7.3 顯示商品分類比例餅圖 38919.8 外設(shè)產(chǎn)品熱賣榜 39219.9 商品預(yù)警 39519.9.1 關(guān)注商品中、差評(píng)預(yù)警 39519.9.2 關(guān)注商品價(jià)格變化預(yù)警 39819.9.3 更新關(guān)注商品信息 40019.10 系統(tǒng)功能 40119.11 小結(jié) 403