《大數據處理:從采集到可視化》共分為9章,章數據采集,主要介紹了大數據的概念、類型及其特征,常見的數據采集方法;第2章數據清洗,主要討論數據質量的維度,數據可能存在的質量問題,常見的數據清洗方法;第3章數據ETL,重點介紹了MGO方法;第4章數據存儲,主要介紹了大數據時代的一些主流數據存儲平臺和相關技術;第5章回歸算法,主要介紹了線性回歸、決策樹回歸、隨機森林回歸等,并介紹了其實現的主要步驟以及相應的Python語言實現代碼;第6章分類算法,主要介紹了邏輯回歸二分類和多分類、度提升分類樹等;第7章聚類算法,主要介紹了分割聚類、層次聚類、基于密度的聚類;第8章推薦算法,主要介紹了基于關聯規則的推薦、基于內容過濾的推薦等主流方法;第9章數據可視化的關鍵技術,主要介紹了數據的降維、可視化隱喻及相關的交互技術。
余肖生,博士,教授,三峽大學計算機學院教授,計算機學系書記,畢業于武漢大學信息管理學院。近年來發表各類學術論文30余篇,其中CSSCI源刊論文10余篇,多篇論文被EI、CPCI收錄。
第1章 數據采集
1.1 大數據概念
1.2 大數據類型及特征
1.3 數據采集方法
1.3.1 問卷調查方法
1.3.2 網絡用戶數據收集方法
1.3.3 系統曰志采集方法
1.3.4 網絡數據采集方法
第2章 數據清洗
2.1 數據質量維度
2.2 數據預處理之數據可能存在的問題
2.3 數據質量問題的原因分析
2.3.1 數據源數據質量問題的原因分析
2.3.2 數據分析階段數據質量問題的原因分析
2.4 數據預處理之數據問題處理方法
2.4.1 變化量識別
2.4.2 錯誤拒絕
2.4.3 列清洗
2.4.4 行過濾
2.5 記錄匹配算法
……