信息系統、互聯網、移動通信等的快速發展催生 了海量的數據。從數據中分析、挖掘隱藏在其 中的模式、規律等是發揮數據價值的根本途徑。采用 有效的工具、方法是分析挖掘數據的基礎。R 是一個開放、高效的數據分析平臺,韓忠明、段大高 著的《數據分析與R》介紹了R的基本功能、數據管理 功能、詳細描述了R實現 各種分析圖形的方法。本書詳細地介紹了數據分析的 整體流程,涵蓋了數據獲取、數據預處理和 常見的數據分析方法。采用R實現了主流的數據預處 理方法,詳細介紹了方差分析、Logistic回 歸、聚類和分類以及用于數據分析的EM算法和McMC模 擬,分析了這些技術的基本原理和實現 算法,應用R實現了分析模型與應用過程。本書采用 大量真實數據和案例作為驅動,分析了在實 際問題中如何利用相關技術解決分析問題。
本書既可供從事數據分析、數據挖掘等的研究者 、應用者參考,也可供在市場營銷、金融、醫療 等行業從事數據分析的人士參考。
數據來源多,數據的異構性強,所以數據預處理對分析結果非常重要,在數據預處理時常用的方法有哪些?如何在R中實現這些數據與處理方法?我們將在韓忠明、段大高著的《數據分析與R》揭曉。 數據復雜性高,高維復雜數據快速產生的同時,也帶來大量噪聲、異常、非規范的數據。高效的數據分析平臺和算法是研究復雜數據的基礎,本書將闡述如何利用R實現高效的分析算法。 數據分析的展現,現代數據分析要求數據分析結果有直觀的展示。數據分析者是專業人員,而數據分析的用戶是領域專家和決策者,充分利用各種直觀的圖表進行結果展示是數據分析的重要任務。本書將利用R實現數據分析的直觀展示。 多學科的融合,現代數據分析融合了計算機科學、統計學、機器學習等不同領域。Logistic回歸,EM算法等將會在數據分析中有廣闊用武之地。本書將重點研究和實現數據分析中的核心技術以及R實現。 大數據問題。一方面,現代數據分析面臨的數據量大、數據復雜性高等問題;另一方面,很多現實問題需要的大量真實數據又難以保證有效獲取,所以仿真算法和一些新型模型是解決這個矛盾的一個有效方法。本書將研究和實現MCMC仿真的傳統和新算法。
第1章 數據分析基礎 1.1 統計基礎 1.1.1 概率與統計 1.1.2 統計量與分布 1.1.3 參數估計 1.1.4 假設檢驗 1.2 軟件與開發工具介紹 1.2.1 數據庫軟件 1.2.2 計算軟件 1.2.3 開發軟件第2章 數據預處理 2.1 數據獲取 2.2 數據預處理過程 2.3 數據清洗 2.3.1 缺失值處理 2.3.2 重復值處理 2.4 數據集成 2.5 數據變換 2.6 數據規約第3章 R使用入門 3.1 R的獲取和安裝 3.2 R的使用 3.3 R的包 3.4 R的數據對象與數據操作 3.5 R數據的導入與導出 3.6 R的條件控制與循環 3.7 R數據預處理 3.8 R的概率分布第4章 R圖形分析 4.1 初始化圖形 4.1.1 圖形的建立與保存 4.1.2 圖形的組合 4.1.3 一個實例 4.2 高級繪圖命令 4.3 低級繪圖命令 4.4 繪圖參數 4.4.1 顏色 4.4.2 文本屬性 4.4.3 符號和線條 4.4.4 標題 4.4.5 圖例 4.4.6 坐標軸 4.5 圖形庫 4.5.1 直方圖 4.5.2 條形圖 4.5.3 散點圖 4.5.4 餅圖 4.5.5 箱線圖 4.5.6 矩陣圖 4.5.7 馬賽克圖 4.5.8 熱圖 4.5.9 QQ圖 4.5.10 平行坐標圖 第5章 方差分析 5.1 方差分析的基本過程 5.1.1 單因素方差分析 5.1.2 雙因素方差分析 5.2 方差分析的R實現 5.2.1 單因素方差分析R實現 5.2.2 雙因素方差分析 5.3 多因素方差分析的R實現第6章 回歸分析 6.1 線性回歸模型 6.2 線性回歸模型的統計分析 6.3 線性回歸分析在R中的實現 6.4 Logistic回歸原理 6.5 Logistic模型的求解 6.6 Logistic回歸模型的評價和檢驗 6.7 多Logistic回歸的分類與應用 6.8 逐步Logistic回歸分析 6.9 Logistic回歸的R實踐第7章 聚類與分類分析 7.1 聚類分析 7.2 聚類中的距離度量 7.2.1 連續性數值變量的距離度量方法 7.2.2 離散型屬性變量的距離度量方法 7.2.3 R距離度量的實現 7.3 層次聚類法 7.3.1 凝聚式聚類 7.3.2 層次聚類R實現 7.4 K一均值聚類 7.5 數據分類 7.5.1 決策樹方法 7.5.2 貝葉斯分類 7.5.3 SVM方法 7.5.4 KNN分類第8章 EM算法和MCMC方法 8.1 EM算法 8.1.1 初識EM算法 8.1.2 EM算法簡述 8.1.3 經典例題 8.1.4 兩個重要的定理 8.2 MCMC方法 8.2.1 初識MCMC方法 8.2.2 Metropolis-Hastings方法 8.2.3 Gibbs Sampling方法