Hadoop+Spark大數(shù)據(jù)分析實(shí)戰(zhàn)
定 價(jià):¥69
中 教 價(jià):¥40.71 (5.90折)促銷
庫 存 數(shù): 21
叢 書 名:大數(shù)據(jù)技術(shù)叢書
本書是Hadoop Spark大數(shù)據(jù)分析技術(shù)入門書,基于Hadoop和Spark兩大框架體系的3.2版本,以通俗易懂的方式介紹Hadoop Spark原生態(tài)組件的原理、集群搭建、實(shí)戰(zhàn)操作,以及整個(gè)Hadoop生態(tài)系統(tǒng)主流的大數(shù)據(jù)分析技術(shù)。 本書共分14章。第1章講解Hadoop框架及新版本特性,并詳細(xì)講解大數(shù)據(jù)分析環(huán)境的搭建工作,包括Linux操作系統(tǒng)的安裝、SSH工具使用和配置等;第2章講解Hadoop偽分布式的安裝和開發(fā)體驗(yàn),使讀者熟悉Hadoop大數(shù)據(jù)開發(fā)兩大核心組件,即HDFS和MapReduce;第3~12章講解Hadoop生態(tài)系統(tǒng)各框架HDFS、MapReduce、輸入輸出、Hadoop集群配置、高可用集群、HBase、Hive、數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)Flume,以及Spark框架數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等實(shí)戰(zhàn)技術(shù),并通過實(shí)際案例加深對(duì)各個(gè)框架的理解與應(yīng)用;第13~14章分別通過影評(píng)分析、旅游酒店評(píng)價(jià)分析實(shí)戰(zhàn)項(xiàng)目來貫穿大數(shù)據(jù)分析的完整流程。 本書可以作為大數(shù)據(jù)分析初學(xué)者的入門指導(dǎo)書,也可以作為大數(shù)據(jù)開發(fā)人員的參考手冊(cè),同時(shí)也適合作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教材或教學(xué)參考書。
本書全面講解Hadoop生態(tài)圈各組件的核心知識(shí)、操作和分析技術(shù),系統(tǒng)介紹Spark框架搭建、操作和典型的機(jī)器學(xué)習(xí)分析技術(shù)。最后通過兩個(gè)綜合實(shí)戰(zhàn)項(xiàng)目影評(píng)分析、旅游酒店評(píng)價(jià)分析,來貫穿大數(shù)據(jù)分析的完整流程。
如今大數(shù)據(jù)技術(shù)已廣泛應(yīng)用于金融、醫(yī)療、教育、電信、政府等領(lǐng)域。各個(gè)行業(yè)都積累了大量的歷史數(shù)據(jù),并不斷產(chǎn)生大量新數(shù)據(jù),數(shù)據(jù)的種類不斷增多,數(shù)據(jù)體量也急劇增長(zhǎng),數(shù)據(jù)計(jì)量單位已經(jīng)發(fā)展到PB、EB、ZB、YB級(jí)甚至BB、NB、DB級(jí),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、管理、分析技術(shù)已經(jīng)無法滿足大數(shù)據(jù)的處理要求。大數(shù)據(jù)分析不同于傳統(tǒng)的數(shù)據(jù)處理方式,需要通過分布式存儲(chǔ)和分布式運(yùn)算來實(shí)現(xiàn),這也催生了優(yōu)秀的大數(shù)據(jù)處理框架和生態(tài)組件的出現(xiàn),Hadoop便是最具代表性的大數(shù)據(jù)處理生態(tài)系統(tǒng)框架,Spark則是更為高效的數(shù)據(jù)處理框架,二者的結(jié)合可以為大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)提供可靠且高效的解決方案。許多大型互聯(lián)網(wǎng)公司,如谷歌、阿里巴巴、百度、京東等都急需掌握大數(shù)據(jù)技術(shù)人才,大數(shù)據(jù)技術(shù)人才出現(xiàn)了供不應(yīng)求的狀況。寫作思路本書從大數(shù)據(jù)開發(fā)和大數(shù)據(jù)分析崗位需求出發(fā),力求從Hadoop生態(tài)圈和Spark生態(tài)系統(tǒng)全面解析每個(gè)組件。Hadoop框架方面,包括大數(shù)據(jù)平臺(tái)搭建、Hadoop各典型組件的實(shí)戰(zhàn)應(yīng)用、新版本的集群配置和高可用特性、Hive和HBase的搭建與實(shí)戰(zhàn)等。Spark框架方面,包括Spark框架數(shù)據(jù)處理等的基礎(chǔ)知識(shí)、機(jī)器學(xué)習(xí)實(shí)戰(zhàn)應(yīng)用、集群環(huán)境搭建,同時(shí)包括常用的Shell命令、API操作。本書最后安排了兩個(gè)綜合項(xiàng)目實(shí)戰(zhàn)案例,一方面用來對(duì)Hadoop Spark框架進(jìn)行大數(shù)據(jù)開發(fā)和大數(shù)據(jù)分析的基礎(chǔ)內(nèi)容進(jìn)行鞏固和提高,另一方面,結(jié)合電影評(píng)論分析和旅游評(píng)論分析這樣的實(shí)際場(chǎng)景,使讀者能夠把握真實(shí)的大數(shù)據(jù)開發(fā)或大數(shù)據(jù)分析應(yīng)用項(xiàng)目的技術(shù)內(nèi)容,從而對(duì)大數(shù)據(jù)分析的典型流程有清晰的理解,完成從數(shù)據(jù)采集、數(shù)據(jù)分析到數(shù)據(jù)可視化各個(gè)環(huán)節(jié)的全面掌握。全書實(shí)戰(zhàn)操作和應(yīng)用案例豐富,每一個(gè)知識(shí)點(diǎn)都講得十分細(xì)致,讓讀者能夠輕松地步入大數(shù)據(jù)開發(fā)工程師的大門。關(guān)于本書本書是一本關(guān)于大數(shù)據(jù)平臺(tái)應(yīng)用和大數(shù)據(jù)分析方面的實(shí)戰(zhàn)書籍,知識(shí)面比較廣,涵蓋整個(gè)Hadoop生態(tài)系統(tǒng)主流的大數(shù)據(jù)開發(fā)技術(shù),以及用于數(shù)據(jù)實(shí)時(shí)處理的Spark框架。力從實(shí)踐操作講起,盡量去除那些影響讀者理解的純理論內(nèi)容。等基本的操作已經(jīng)掌握以后,再回過頭來講解與實(shí)戰(zhàn)相關(guān)的核心理論知識(shí)。所以,本書講解的方法是先動(dòng)手實(shí)踐再理解理論。首先基于目前新版本的Hadoop框架展開,采用Hadoop 3.2.2版本闡述大數(shù)據(jù)平臺(tái)搭建和開發(fā)方面的內(nèi)容。隨著Hadoop生態(tài)系統(tǒng)的成長(zhǎng),Hadoop已經(jīng)不再是一個(gè)簡(jiǎn)單的數(shù)據(jù)分布式存儲(chǔ)平臺(tái)和工具,已經(jīng)形成一個(gè)完整的Hadoop生態(tài)圈。本書全面講解Hadoop生態(tài)圈各組件的核心知識(shí)和操作方法。然后,系統(tǒng)介紹Spark框架搭建和操作,并結(jié)合經(jīng)典的機(jī)器學(xué)習(xí)算法,講解基于Spark平臺(tái)的大數(shù)據(jù)分析技術(shù)。最后通過兩個(gè)綜合實(shí)戰(zhàn)項(xiàng)目來體現(xiàn)大數(shù)據(jù)分析的完整流程。本書采用先上手實(shí)踐,后歸納和學(xué)習(xí)理論知識(shí)的思路編寫,讀者可以快速上手基于Hadoop和Spark的大數(shù)據(jù)開發(fā)應(yīng)用,讀者還可以對(duì)照書中的步驟成功搭建屬于自己的大數(shù)據(jù)集群,并獨(dú)立完成項(xiàng)目開發(fā)。書中提供了大數(shù)據(jù)分析的詳細(xì)步驟,并配套了源代碼。本書內(nèi)容全書共14章,第1章講解Hadoop框架及新版本特性,并詳細(xì)講解大數(shù)據(jù)環(huán)境的準(zhǔn)備工作,包括Linux操作系統(tǒng)的安裝、SSH工具使用和配置等;第2章講解Hadoop偽分布式的安裝和開發(fā)體驗(yàn),使讀者熟悉Hadoop大數(shù)據(jù)開發(fā)兩大核心組件,即HDFS和MapReduce;第3~12章講解Hadoop生態(tài)系統(tǒng)各框架HDFS、MapReduce、輸入輸出、Hadoop集群配置、HA高可用集群、HBase、Hive、數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)Flume、Spark框架數(shù)據(jù)處理等的基礎(chǔ)知識(shí)、機(jī)器學(xué)習(xí)實(shí)戰(zhàn)應(yīng)用、集群環(huán)境搭建,同時(shí)包括常用的Shell命令、API操作等,并通過實(shí)際操作加深對(duì)各個(gè)框架的理解與應(yīng)用;第13~14章分別通過影評(píng)分析、旅游酒店評(píng)價(jià)分析實(shí)戰(zhàn)項(xiàng)目鞏固所學(xué)知識(shí),案例涉及自然語言處理和數(shù)據(jù)可視化入門內(nèi)容,使讀者掌握的技術(shù)更加全面。配套資源下載本書配套資源包括源碼、PPT課件、開發(fā)環(huán)境、答疑服務(wù),可用微信掃描下面的二維碼獲取,也可按掃描后的頁面提示把下載鏈接轉(zhuǎn)發(fā)到自己的郵箱中下載。如果有疑問和建議,請(qǐng)聯(lián)系booksaga@163.com,郵件主題為Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)。適合閱讀本書的讀者本書可作為大數(shù)據(jù)分析初學(xué)者的入門指導(dǎo)書、大數(shù)據(jù)開發(fā)人員的參考用書,也可以作為高校大數(shù)據(jù)平臺(tái)搭建或大數(shù)據(jù)開發(fā)課程的參考教材。學(xué)習(xí)本書要求讀者有一定的Java編程基礎(chǔ),并掌握Linux系統(tǒng)的基礎(chǔ)知識(shí)。
作 者2022年4月
遲殿委,計(jì)算機(jī)軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計(jì)師。有多年企業(yè)軟件研發(fā)經(jīng)驗(yàn)和豐富的JavaEE培訓(xùn)經(jīng)驗(yàn),熟練掌握J(rèn)avaEE全棧技術(shù)框架,對(duì)Java核心編程技術(shù)有深刻理解。主要擅長(zhǎng)JavaEE系統(tǒng)架構(gòu)設(shè)計(jì)、大數(shù)據(jù)分析與挖掘。著有圖書《Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》《Spring Boot企業(yè)級(jí)開發(fā)實(shí)戰(zhàn)(視頻教學(xué)版)》《Spring Boot Spring Cloud微服務(wù)開發(fā)》《深入淺出Java編程》。
第1章 大數(shù)據(jù)與Hadoop 11.1 什么是大數(shù)據(jù) 11.2 大數(shù)據(jù)的來源 21.3 如何處理大數(shù)據(jù) 31.3.1 數(shù)據(jù)分析與挖掘 31.3.2 基于云平臺(tái)的分布式處理 41.4 Hadoop 3新特性 61.5 虛擬機(jī)與Linux操作系統(tǒng)的安裝 71.5.1 VirtualBox虛擬機(jī)的安裝 71.5.2 Linux操作系統(tǒng)的安裝 81.6 SSH工具與使用 141.7 Linux統(tǒng)一設(shè)置 161.8 本章小結(jié) 17第2章 Hadoop偽分布式集群 182.1 安裝獨(dú)立運(yùn)行的Hadoop 192.2 Hadoop偽分布式環(huán)境準(zhǔn)備 212.3 Hadoop偽分布式安裝 252.4 HDFS操作命令 312.5 Java項(xiàng)目訪問HDFS 332.6 winutils 382.7 快速M(fèi)apReduce程序示例 392.8 本章小結(jié) 42第3章 HDFS分布式文件系統(tǒng) 433.1 HDFS的體系結(jié)構(gòu) 433.2 NameNode的工作 443.3 SecondaryNameNode 493.4 DataNode 503.5 HDFS的命令 513.6 RPC遠(yuǎn)程過程調(diào)用 523.7 本章小結(jié) 53第4章 分布式運(yùn)算框架MapReduce 554.1 MapReduce的運(yùn)算過程 554.2 WordCount示例 574.3 自定義Writable 604.4 Partitioner分區(qū)編程 634.5 自定義排序 654.6 Combiner編程 674.7 默認(rèn)Mapper和默認(rèn)Reducer 684.8 倒排索引 694.9 Shuffle 734.9.1 Spill過程 734.9.2 Sort過程 744.9.3 Merge過程 754.10 本章小結(jié) 76第5章 Hadoop輸入輸出 785.1 自定義文件輸入流 795.1.1 自定義LineTextInputFormat 795.1.2 自定義ExcelInputFormat類 825.1.3 DBInputFormat 865.1.4 自定義輸出流 895.2 順序文件SequenceFile的讀寫 905.2.1 生成一個(gè)順序文件 915.2.2 讀取順序文件 915.2.3 獲取Key/Value類型 925.2.4 使用SequenceFileInputFormat讀取數(shù)據(jù) 935.3 本章小結(jié) 95第6章 Hadoop分布式集群配置 966.1 Hadoop集群 966.2 本章小結(jié) 100第7章 Hadoop高可用集群搭建 1017.1 ZooKeeper簡(jiǎn)介 1017.2 ZooKeeper集群安裝 1047.3 znode節(jié)點(diǎn)類型 1057.4 觀察節(jié)點(diǎn) 1067.5 配置Hadoop高可靠集群 1067.6 用Java代碼操作集群 1157.7 本章小結(jié) 117第8章 數(shù)據(jù)倉庫Hive 1188.1 Hive簡(jiǎn)介 1188.2 Hive3的安裝配置 1208.2.1 使用Derby數(shù)據(jù)庫保存元數(shù)據(jù) 1208.2.2 使用MySQL數(shù)據(jù)庫保存元數(shù)據(jù) 1218.3 Hive命令 1248.4 Hive內(nèi)部表 1278.5 Hive外部表 1288.6 Hive表分區(qū) 1288.6.1 分區(qū)的技術(shù)細(xì)節(jié) 1288.6.2 分區(qū)示例 1318.7 查詢示例匯總 1338.8 Hive函數(shù) 1348.8.1 關(guān)系運(yùn)算符號(hào) 1358.8.2 更多函數(shù) 1368.8.3 使用Hive函數(shù)實(shí)現(xiàn)WordCount 1388.9 本章小結(jié) 140第9章 HBase數(shù)據(jù)庫 1419.1 HBase的特點(diǎn) 1419.1.1 HBase的高并發(fā)和實(shí)時(shí)處理數(shù)據(jù) 1429.1.2 HBase的數(shù)據(jù)模型 1429.2 HBase的安裝 1449.2.1 HBase的單節(jié)點(diǎn)安裝 1459.2.2 HBase的偽分布式安裝 1479.2.3 Java客戶端代碼 1499.2.4 其他Java操作代碼 1529.3 HBase集群安裝 1559.4 HBase Shell操作 1599.4.1 DDL操作 1609.4.2 DML操作 1629.5 本章小結(jié) 166第10章 Flume數(shù)據(jù)采集 16710.1 Flume簡(jiǎn)介 16710.1.1 Flume原理 16710.1.2 Flume的一些核心概念 16810.2 Flume的安裝與配置 16910.3 快速示例 16910.4 在ZooKeeper中保存Flume的配置文件 17110.5 Flume的更多Source 17410.5.1 avro source 17410.5.2 thrift source和thrift sink 17810.5.3 exec source 18110.5.4 spool source 18210.5.5 HDFS sinks 18310.6 本章小結(jié) 184第11章 Spark框架搭建及應(yīng)用 18511.1 安裝Spark 18611.1.1 本地模式 18611.1.2 偽分布式安裝 18811.1.3 集群安裝 19111.1.4 Spark on YARN 19311.2 使用Scala開發(fā)Spark應(yīng)用 19611.2.1 安裝Scala 19611.2.2 開發(fā)Spark程序 19711.3 spark-submit 20011.3.1 使用spark-submit提交 20011.3.2 spark-submit參數(shù)說明 20111.4 DataFrame 20311.4.1 DataFrame概述 20311.4.2 DataFrame基礎(chǔ)應(yīng)用 20511.5 Spark SQL 21011.5.1 快速示例 21111.5.2 Read和Write 21511.6 Spark Streaming 21611.6.1 快速示例 21711.6.2 DStream 22011.6.3 FileStream 22011.6.4 窗口函數(shù) 22211.6.5 updateStateByKey 22311.7 共享變量 22511.7.1 廣播變量 22511.7.2 累加器 22711.8 本章小結(jié) 227第12章 Spark機(jī)器學(xué)習(xí) 22812.1 機(jī)器學(xué)習(xí) 22812.1.1 機(jī)器學(xué)習(xí)概述 22812.1.2 Spark ML 23012.2 典型機(jī)器學(xué)習(xí)流程介紹 23012.2.1 提出問題 23012.2.2 假設(shè)函數(shù) 23112.2.3 代價(jià)函數(shù) 23212.2.4 訓(xùn)練模型確定參數(shù) 23312.3 經(jīng)典算法模型實(shí)戰(zhàn) 23312.3.1 聚類算法實(shí)戰(zhàn) 23312.3.2 回歸算法實(shí)戰(zhàn) 23612.3.3 協(xié)同過濾算法實(shí)戰(zhàn) 239
第13章 影評(píng)分析項(xiàng)目實(shí)戰(zhàn) 24513.1 項(xiàng)目?jī)?nèi)容 24513.2 項(xiàng)目需求及分析 24613.3 詳細(xì)實(shí)現(xiàn) 25013.3.1 搭建項(xiàng)目環(huán)境 25013.3.2 編寫爬蟲類 25313.3.3 編寫分詞類 25513.3.4 第一個(gè)job的Map階段實(shí)現(xiàn) 25913.3.5 一個(gè)job的Reduce階段實(shí)現(xiàn) 25913.3.6 第二個(gè)job的Map階段實(shí)現(xiàn) 26013.3.7 第二個(gè)job的自定義排序類階段的實(shí)現(xiàn) 26113.3.8 第二個(gè)job的自定義分區(qū)階段實(shí)現(xiàn) 26113.3.9 第二個(gè)job的Reduce階段實(shí)現(xiàn) 26213.3.10 Run程序主類實(shí)現(xiàn) 26213.3.11 編寫詞云類 26313.3.12 效果測(cè)試 264第14章 旅游酒店評(píng)價(jià)分析項(xiàng)目實(shí)戰(zhàn) 26614.1 項(xiàng)目介紹 26614.2 項(xiàng)目需求及分析 26714.2.1 數(shù)據(jù)集需求 26714.2.2 功能需求 26714.3 詳細(xì)實(shí)現(xiàn) 26814.3.1 數(shù)據(jù)集上傳到HDFS 26914.3.2 Spark數(shù)據(jù)清洗 27114.3.3 構(gòu)建Hive數(shù)據(jù)倉庫表 27414.3.4 Hive表數(shù)據(jù)導(dǎo)出到MySQL 28014.3.5 數(shù)據(jù)可視化開發(fā) 282