本書(shū)旨在為已有一定基礎(chǔ)的R用戶(hù)提供現(xiàn)成的方法來(lái)實(shí)現(xiàn)重要的數(shù)據(jù)分析任務(wù)。全書(shū)共分為11章。第1章涵蓋了進(jìn)行真正的數(shù)據(jù)分析任務(wù)之前的準(zhǔn)備工作。第2章討論了數(shù)據(jù)分析師在實(shí)施特定的分析手段之前常用的理解數(shù)據(jù)的做法。第3章涵蓋了運(yùn)用分類(lèi)技術(shù)肚餓方法。第4章是關(guān)于回歸技術(shù)的方法。第5章介紹數(shù)據(jù)簡(jiǎn)化。第6章介紹時(shí)間序列分析。第7章討論了社交網(wǎng)絡(luò)分析。第8章介紹制作文檔和呈現(xiàn)分析的方法。第9章解決了面對(duì)大型數(shù)據(jù)如何書(shū)寫(xiě)高效且簡(jiǎn)潔的R代碼的問(wèn)題。第10章討論了R在處理空間數(shù)據(jù)上的強(qiáng)大功能。第11章介紹了R與其他系統(tǒng)的連接。
目 錄 Contents譯者序作者簡(jiǎn)介審校者簡(jiǎn)介前言第1章 獲取并準(zhǔn)備好材料—數(shù)據(jù)11.1 引言11.2 從csv文件中讀取數(shù)據(jù)11.3 讀取XML數(shù)據(jù)41.4 讀取JSON數(shù)據(jù)61.5 從定寬格式文件中讀取數(shù)據(jù)71.6 從R數(shù)據(jù)文件和R庫(kù)中讀取數(shù)據(jù)81.7 刪除帶有缺失值的樣本101.8 用均值填充缺失值111.9 刪除重復(fù)樣本131.10 將變量縮放至[0,1]區(qū)間141.11 對(duì)數(shù)據(jù)框中的數(shù)據(jù)做正則化或標(biāo)準(zhǔn)化151.12 為數(shù)值數(shù)據(jù)分箱171.13 為分類(lèi)變量創(chuàng)建啞變量18第2章 那里面有什么——探索性數(shù)據(jù)分析212.1 引言212.2 創(chuàng)建標(biāo)準(zhǔn)化數(shù)據(jù)概覽212.3 抽取數(shù)據(jù)集的子集232.4 分割數(shù)據(jù)集252.5 創(chuàng)建隨機(jī)數(shù)據(jù)分塊262.6 創(chuàng)建直方圖、箱線圖、散點(diǎn)圖等標(biāo)準(zhǔn)化圖像292.7 在網(wǎng)格窗口上創(chuàng)建多個(gè)圖像372.8 選擇圖形設(shè)備382.9 用lattice包繪圖392.10 用ggplot2包繪圖422.11 創(chuàng)建便于比較的圖表472.12 創(chuàng)建有助于發(fā)現(xiàn)因果關(guān)系的圖表512.13 創(chuàng)建多元圖像53第3章 它屬于哪兒——分類(lèi)技術(shù)553.1 引言553.2 創(chuàng)建誤差/分類(lèi)–混淆矩陣553.3 創(chuàng)建ROC圖583.4 構(gòu)建、繪制和評(píng)估—分類(lèi)樹(shù)613.5 用隨機(jī)森林模型分類(lèi) 663.6 用支持向量機(jī)分類(lèi)693.7 用樸素貝葉斯分類(lèi)723.8 用K最近鄰分類(lèi)743.9 用神經(jīng)網(wǎng)絡(luò)分類(lèi)773.10 用線性判別函數(shù)分類(lèi)793.11 用邏輯回歸分類(lèi)803.12 用AdaBoost來(lái)整合分類(lèi)樹(shù)模型83第4章 給我一個(gè)數(shù)——回歸分析864.1 引言864.2 計(jì)算均方根誤差864.3 建立用于回歸的KNN模型884.4 運(yùn)用線性回歸944.5 在線性回歸中運(yùn)用變量選擇994.6 建立回歸樹(shù)1024.7 建立用于回歸的隨機(jī)森林模型1084.8 用神經(jīng)網(wǎng)絡(luò)做回歸1124.9 運(yùn)用K-折交叉驗(yàn)證1144.10 運(yùn)用留一交叉驗(yàn)證來(lái)限制過(guò)度擬合116第5章 你能化簡(jiǎn)它嗎——數(shù)據(jù)簡(jiǎn)化技術(shù)1185.1 引言1185.2 用K-均值聚類(lèi)法實(shí)現(xiàn)聚類(lèi)分析1185.3 用系統(tǒng)聚類(lèi)法實(shí)現(xiàn)聚類(lèi)分析1245.4 用主成分分析降低維度127第6章 從歷史中學(xué)習(xí)——時(shí)間序列分析1346.1 引言1346.2 創(chuàng)建并檢查日期對(duì)象1346.3 對(duì)日期對(duì)象進(jìn)行操作1386.4 對(duì)時(shí)間序列數(shù)據(jù)做初步分析1406.5 使用時(shí)間序列對(duì)象1436.6 分解時(shí)間序列1496.7 對(duì)時(shí)間序列數(shù)據(jù)做濾波1516.8 用HoltWinters 方法實(shí)現(xiàn)平滑和預(yù)測(cè)1526.9 創(chuàng)建自動(dòng)的ARIMA模型155第7章 這都是你的關(guān)系——社交網(wǎng)絡(luò)分析1577.1 引言1577.2 通過(guò)公共API下載社交網(wǎng)絡(luò)數(shù)據(jù)1577.3 創(chuàng)建鄰接矩陣和連邊列表1617.4 繪制社交網(wǎng)絡(luò)數(shù)據(jù)1647.5 計(jì)算重要的網(wǎng)絡(luò)度量指標(biāo)176第8章 展現(xiàn)你最好的一面——制作文檔和呈現(xiàn)分析報(bào)告1828.1 引言1828.2 用R Markdown 和 knitR創(chuàng)建數(shù)據(jù)分析報(bào)告1828.3 用shiny創(chuàng)建交互式Web應(yīng)用1918.4 用R Presentation為分析報(bào)告創(chuàng)建PDF幻燈片196第9章 事半功倍——高效且簡(jiǎn)潔的R代碼2019.1 引言2019.2 利用向量化操作2019.3 用apply函數(shù)操作整行或整列2039.4 用lapply和sapply將函數(shù)應(yīng)用于整組元素2069.5 在向量的一個(gè)子集上應(yīng)用函數(shù)2089.6 用plyr完成分割–應(yīng)用–組合策略2109.7 用數(shù)據(jù)表對(duì)數(shù)據(jù)進(jìn)行切片、切塊和組合213第10章 在哪兒——地理空間信息數(shù)據(jù)分析21910.1 引言21910.2 下載并繪制一個(gè)地區(qū)的谷歌地圖21910.3 在已下載的谷歌地圖上疊加數(shù)據(jù)22210.4 將ESRI形狀文件導(dǎo)入到R中22410.5 使用sp包繪制地理數(shù)據(jù)22610.6 從maps包中獲取地圖22810.7 從包含空間及其他數(shù)據(jù)的普通數(shù)據(jù)框中創(chuàng)建空間數(shù)據(jù)框22910.8 通過(guò)合并普通數(shù)據(jù)框和空間對(duì)象生成空間數(shù)據(jù)框23010.9 為已有的空間數(shù)據(jù)框添加變量234第11章 友好協(xié)作——連接到其他系統(tǒng)23711.1 引言23711.2 在R中使用Java對(duì)象23711.3 從Java中用JRI調(diào)用R函數(shù)24311.4 從Java中用Rserve調(diào)用R函數(shù)24511.5 從Java中執(zhí)行R腳本24811.6 使用xlsx包連接到Excel24911.7 從關(guān)系型數(shù)據(jù)庫(kù)—MySQL中讀取數(shù)據(jù)25211.8 從非關(guān)系型數(shù)據(jù)庫(kù)—MongoDB中讀取數(shù)據(jù)256