本書全面系統地介紹了大數據的相關技術原理與應用方法。全書從理論知識入手,在介紹大數據相關理論知識的基礎上,逐步深入地講解大數據技術,將理論與實踐完美結合。本書分為大數據基礎篇、大數據存儲篇、大數據采集篇、大數據計算篇和大數據應用篇。全書共15章,內容包括大數據概述、Linux集群搭建、分布式文件系統HDFS、HDFS的安裝與基本應用、分布式數據庫系統HBase、HBase的安裝與基本應用、Sqoop和Flume、數據分發工具Kafka、MapReduce計算框架與應用、基于內存的計算框架Spark、Spark的安裝與應用、機器學習、基于Hive的交互式數據處理、數據同步工具與數據可視化和推薦算法與應用。本書在介紹Hadoop、HBase、Sqoop和Flume、MapReduce、Hive和Spark等相關章節時安排了入門級實驗,且以電子資源的方式提供給學生,以便讀者更好地學習和掌握大數據的關鍵技術。
本書可以作為高等院校計算機類、信息管理與信息系統等相關專業的大數據課程教材,也可供從事大數據技術開發、研究和應用的研究人員和工程技術人員參考。
1.緊跟時代發展,內容更加完善。注重新技術、新方法的介紹。
2.將大數據基礎理論與實踐相結合的教材。從初學者角度出發,以輕量級理論、豐富實例相結合的方式介紹大數據常用的各種工具和技術。
3.配套資源豐富。教學大綱、實驗大綱、教學課件、案例源代碼。
蔣亞平,男,湖南長沙人,長期從事大數據技術、數據庫技術、程序設計語言和算法方面的研究,能夠熟練運用多種教學方法,特別是翻轉課堂、案例式教學、啟發式教學等。從事8年企業開發工作和8年教學經驗,對大數據課程教學有一定的積累,并多次參加大數據相關的教改、科研、教學競賽和指導學生參加比賽。