《大數據處理與應用(微課版)》以項目驅動的方式詳細講解大數據生態體系架構各方面的知識。主要涉及ETL的數據采集與清洗、離線數據倉庫的構建和實時數據倉庫的構建。
《大數據處理與應用(微課版)》分為三個模塊:模塊一介紹大數據離線數據處理與分析,包含項目一和項目二,知識點覆蓋HDFS、Hive、Sqoop、MapReduce、Spark Core和Flink DataSet;模塊二介紹大數據實時數據處理與分析,包含項目三和項目四,知識點覆蓋Kafka、Flume、Spark Streaming和Spark SQL;模塊三介紹大數據處理與分析的擴展知識,包含項目五和項目六,項目五為基于大數據分析處理實現的推薦系統,項目六為大數據ETL數據采集的CDC技術。
《大數據處理與應用(微課版)》可作為高等院校大數據與相關專業學生的教材,也可作為具有一定的Java編程基礎的讀者閱讀,如平臺架構師、開發人員和運維管理人員。