第1章緒論、第2章Linux操作系統的安裝、第3章Hadoop的偽分布式安裝、第4章Hadoop集群的搭建及配置、第5章Hadoop HDFS命令、第6章MapReduce編程入門、第7章Hive:SQL on Hadoop、第8章Sqoop:SQL to Hadoop、第9章HBase:HadoopDatabase、第10章Spark的介紹與安裝、第11章綜合案例——網絡爬蟲大數據分析
1. 慕課版教材,各章節都配備了以二維碼為載體的微課。
2. 配套資源豐富,包括課件、源代碼、題庫。
3. 教材厚度適中,難度較低,案例式教學,適合應用型本科和職業院校。
已經在我社出版多本程序設計類書籍,包括“技術方案寶典” “開發技術大全”“自學手冊” “參考大全”等多個系列,大都取得比較好的市場反響。
第1章 緒論 1
1.1 認識大數據 2
1.1.1 大數據的定義 2
1.1.2 大數據的特點 2
1.1.3 大數據行業應用 3
1.1.4 Hadoop與大數據 5
1.1.5 其他大數據處理平臺 5
1.1.6 大數據人才 7
1.2 什么是Hadoop 8
1.2.1 Hadoop簡介 8
1.2.2 Hadoop的發展歷史 8
1.2.3 Hadoop的特點 9
1.3 Hadoop核心 10
1.3.1 分布式文件系統—HDFS 11
1.3.2 分布式計算框架—MapReduce 13
1.4 Hadoop常用組件 14
1.5 Hadoop在國內外的應用情況 16
小結 16
習題 16
第2章 Linux操作系統的安裝 17
2.1 VirtualBox虛擬機的安裝 18
2.1.1 VirtualBox的下載和安裝 18
2.1.2 設置VirtualBox存儲文件夾 22
2.1.3 在VirtualBox中創建虛擬機 24
2.2 Linux操作系統簡介 28
2.2.1 概述 28
2.2.2 特點 28
2.2.3 Linux操作系統的組成 29
2.2.4 Linux基本命令 31
2.2.5 Linux操作系統的版本 34
2.3 Linux操作系統(Ubuntu)的安裝 34
2.3.1 Linux操作系統(Ubuntu)的
下載 34
2.3.2 安裝Ubuntu 36
2.3.3 啟動Ubuntu 41
2.3.4 設置終端 42
2.3.5 設置共享剪貼板 45
2.3.6 設置共享文件夾 49
小結 52
習題 52
第3章 Hadoop的偽分布式
安裝 53
3.1 JDK的檢查與安裝 54
3.1.1 檢查是否安裝JDK 54
3.1.2 安裝JDK 54
3.2 配置SSH無密碼登錄 58
3.3 Hadoop的下載與安裝 61
3.3.1 Hadoop的安裝模式 61
3.3.2 Hadoop的下載 62
3.3.3 Hadoop的安裝 63
3.3.4 配置Hadoop前準備 65
3.4 Hadoop環境配置 66
3.4.1 設置Hadoop環境變量 66
3.4.2 修改Hadoop配置文件 68
3.4.3 創建并格式化文件系統 73
3.5 啟動Hadoop 73
3.6 查看HDFS Web頁面 75
3.7 查看YARN Web頁面 76
小結 77
習題 77
第4章 Hadoop集群的搭建及
配置 78
4.1 Hadoop集群中節點角色 79
4.2 設置集群前的準備工作 80
4.2.1 集群中節點的規劃 80
4.2.2 設置網絡 81
4.3 設置服務器 83
4.3.1 設置Master服務器 83
4.3.2 復制虛擬機 89
4.3.3 設置Slave服務器 92
4.3.4 設置Master服務器到Slave服務器的SSH無密碼登 95
4.3.5 格式化文件系統 96
4.4 啟動和關閉Hadoop集群 97
4.4.1 啟動和關閉Hadoop集群 97
4.4.2 驗證Hadoop集群是否啟動成功 98
4.5 查看Hadoop集群的基本信息 99
4.5.1 查看集群的HDFS信息 99
4.5.2 查看集群的YARN信息 101
4.6 在Hadoop集群中運行程序 102
小結 103
習題 103
第5章 Hadoop HDFS命令 104
5.1 HDFS常用命令總覽 105
5.2 創建與查看HDFS目錄 105
5.2.1 創建HDFS目錄 105
5.2.2 查看HDFS目錄 106
5.3 本地計算機和HDFS之間的文件
復制 107
5.3.1 從本地計算機復制文件到
HDFS 107
5.3.2 將HDFS上的文件復制到本地
計算機 110
5.4 復制與刪除HDFS文件 112
5.5 查看HDFS文件內容 113
小結 114
習題 114
第6章 MapReduce編程
入門 115
6.1 認識MapReduce 116
6.1.1 MapReduce的編程思想 116
6.1.2 MapReduce的運行環境 118
6.2 使用Eclipse創建MapReduce工程 122
6.2.1 下載與安裝Eclipse 122
6.2.2 配置MapReduce環境 127
6.3 第一個MapReduce程序:
WordCount 131
6.3.1 WordCount的設計思路 131
6.3.2 編寫WordCount 132
6.3.3 分析WordCount程序 140
6.3.4 運行程序 142
小結 144
習題 144
第7章 Hive 145
7.1 Hive簡介 146
7.1.1 什么是Hive 146
7.1.2 為什么使用Hive 146
7.1.3 Hive的體系結構 146
7.1.4 Hive與關系型數據庫的區別 147
7.2 安裝元數據庫 148
7.2.1 下載和安裝MySQL數據庫 148
7.2.2 登錄MySQL數據庫 153
7.2.3 使用MySQL數據庫 153
7.3 安裝與配置Hive 156
7.3.1 準備工作 156
7.3.2 下載Hive 156
7.3.3 安裝Hive 157
7.3.4 配置Hive 158
7.3.5 啟動并驗證Hive 161
7.4 數據類型和存儲格式 162
7.4.1 基本數據類型 162
7.4.2 復雜數據類型 162
7.4.3 存儲格式 163
7.4.4 數據格式 163
7.5 Hive中的數據定義 164
7.5.1 操作數據庫 164
7.5.2 查看與創建數據表 166
7.5.3 Hive中其他的數據表 169
7.5.4 修改數據表 170
7.5.5 刪除數據表 171
7.6 Hive中的數據操作 171
7.6.1 加載數據 171
7.6.2 插入數據 174
7.6.3 導出數據 178
小結 179
習題 179
第8章 Sqoop 180
8.1 安裝并配置Sqoop 181
8.1.1 下載并安裝Sqoop 181
8.1.2 配置Sqoop 183
8.1.3 驗證Sqoop 185
8.1.4 測試Sqoop與MySQL的連接 185
8.2 Sqoop命令 186
8.3 Sqoop導入 188
8.3.1 使用Sqoop把MySQL數據導入HDFS 189
8.3.2 使用Sqoop把MySQL數據導入Hive 191
8.3.3 有選擇地導入數據 192
8.4 Sqoop導出 193
8.4.1 使用Sqoop將Hadoop數據導出到MySQL 194
8.4.2 使用Sqoop將Hive數據導出到MySQL 195
小結 197
習題 197
第9章 HBase 198
9.1 ZooKeeper集群的安裝與配置 199
9.1.1 ZooKeeper簡介 199
9.1.2 ZooKeeper安裝 199
9.1.3 配置ZooKeeper集群 201
9.1.4 啟動ZooKeeper集群 204
9.2 HBase集群的安裝與配置 206
9.2.1 下載并安裝HBase 206
9.2.2 配置HBase 207
9.2.3 啟動并驗證HBase 211
9.3 HBase的基本應用 212
9.3.1 創建表 212
9.3.2 插入數據 213
9.3.3 掃描全表的數據 213
9.3.4 獲取某一行的數據 213
9.3.5 刪除表 213
小結 213
習題 214
第10章 Spark的介紹與
安裝 215
10.1 Spark概述 216
10.1.1 Spark系統架構 216
10.1.2 Spark運行流程 217
10.2 安裝與配置Scala 218
10.2.1 下載Scala 218
10.2.2 安裝Scala 219
10.2.3 啟動與應用Scala 220
10.3 安裝與配置Spark 222
10.3.1 安裝模式 222
10.3.2 安裝Spark 222
10.3.3 配置環境變量 224
10.3.4 啟動并驗證Spark 226
10.4 運行Spark程序 227
小結 228
習題 228
第11章 綜合案例—網絡爬蟲大數據分析 229
11.1 網絡爬蟲概述 230
11.1.1 網絡爬蟲 230
11.1.2 網絡爬蟲—快手爬票 230
11.1.3 開發語言選擇 231
11.2 搭建Python開發環境 231
11.2.1 開發環境概述 231
11.2.2 安裝Python 232
11.3 搭建Qt環境 235
11.3.1 安裝Qt 235
11.3.2 安裝PyCharm開發工具 237
11.4 主窗體設計 244
11.4.1 Qt拖曳控件 244
11.4.2 代碼調試細節 248
11.5 分析網頁請求參數 251
11.6 下載站名文件 253
11.7 車票信息的請求與顯示 255
11.7.1 發送與分析車票信息的查詢
請求 255
11.7.2 主窗體中顯示查票信息 258
11.8 Hadoop中的網絡爬蟲 261
小結 262
習題 262