《數據分析(第2版)》介紹了數據分析的基本內容與方法,其特點是既重視數據分析的基本理論與方法的介紹,又強調應用計算機軟件SAS進行實際分析和計算能力的培養。主要內容有:數據描述性分析、非參數秩方法、回歸分析、主成分分析與因子分析、判別分析、聚類分析,時間序列分析以及常用數據分析方法的SAS過程簡介。《數據分析(第2版)》每章末附有大量實用、豐富的習題,并要求學生獨立上機完成。
《數據分析(第2版)》可作為高等院校信息科學及數理統計專業的本科生教材,也可供有關專業的研究生及工程技術人員參考。
1998年教育部進行高校專業調整時,設立了“信息與計算科學”專業。該專業的設立,受到很多高等院校的熱烈響應。據不完全統計,幾年來已有約280所院校招收了該專業的本科生,其中大部分院校計劃開設信息科學方面的系列課程。
為了配合高等院校在學科專業設置上的改革與深化,來自幾十所高等院校有關專業的部分領導和教師,于1999年、2000年召開了第一、二屆“信息科學專業發展與學術研討會”,與會者熱烈討論并探討了許多關于信息學科的學科發展和建設的基本問題。會議一致認為教材建設是目前最為緊迫的任務,因此成立了教材編審協調組來組織該系列教材的編寫。
2001年教材編寫協調組召集了有多位經驗豐富的教師和出版社參加的教材建設會議。會議明確了教材建設是一項長期的工作,并決定首先編寫和出版本套教材來滿足近期急需。為了保證教材的質量,會議對每本教材的要求、內容和大綱進行了具體研討,并請具有多年教學經驗的重點院校教授擔任各教材的負責人。
為了貼近教學的實際,每本教材都配有習題或思考題,同時對內容也作了結構化安排,以便教師能根據實際情況部分選講,本套教學用書不僅適用于教學,也可供相關讀者參考。
在教材編寫和出版過程中,作者對內容的取舍、章節的安排、結構的設計以及表達方式等方面多方聽取意見,并進行了反復修改。在感謝作者們辛勤勞作的同時,編委會還特別感謝科學出版社的鞠麗娜編輯,她不辭辛勞,在統籌印刷出版、督促進度、征求意見、組織審校等方面做了大量工作。這套教材能在保證質量的前提下及時與讀者見面,是和她的努力分不開的。
從長遠的教學角度考慮,為了適應不同類型院校、不同要求的課程需要,教材編審協調組將不斷組織教材的修訂、編寫(譯),從而使信息科學教學用書做到逐步充實、完善、提高和多樣化。在此衷心希望采用該系列用書的教師、學生和讀者對書中存在的問題及時提出修改意見和建議。
第1章 數據描述性分析
1.1 數據的數字特征
1.1.1 均值、方差等數字特征
1.1.2 中位數、分位數、三均值與極差
1.2 數據的分布
1.2.1 直方圖、經驗分布函數與QQ圖
1.2.2 莖葉圖、箱線圖及五數總括
1.2.3 正態性檢驗與分布擬合檢驗
1.3 多元數據的數字特征與相關分析
1.3.1 二元數據的數字特征及相關系數
1.3.2 多元數據的數字特征及相關矩陣
1.3.3 總體的數字特征及相關矩陣
習題
第2章 非參數秩方法
2.1 兩種處理方法比較的秩檢驗
2.1.1 兩種處理方法比較的隨機化模型及秩的零分布
2.1.2 Wilcoxon秩和檢驗
2.1.3 總體模型的Wilcoxon秩和檢驗
2.1.4 Smimov檢驗
2.2 成對分組設計下兩種處理方法的比較
2.2.1 符號檢驗
2.2.2 Wilcoxon符號秩檢驗
2.2.3 分組設計下兩處理方法比較的總體模型
2.3 多種處理方法比較的Kruskal-Wallis檢驗
2.3.1 多種處理方法比較中秩的定義及Kruskal-Wallis統計量
2.3.2 KruskaLWallis統計量的零分布
2.4 分組設計下多種處理方法的比較
2.4.1 分組設計下秩的定義及其零分布
2.4.2 Friedmsn檢驗
2.4.3 改進的Friedman檢驗
習題
第3章 回歸分析
3.1 線性回歸模型
3.1.1 線性回歸模型及其矩陣表示
3.1.2 餳綁2的估計
3.1.3 有關的統計推斷
3.2 逐步回歸法
3.3 Logistic回歸模型
3.3.1 線性Logistic回歸模型
3.3.2 參數的最大似然估計與Newton-Raphson迭代解法
3.3.3 Logistic模型的統計推斷
習題
第4章 主成分分析與因子分析
4.1 主成分分析
4.1.1 引言
4.1.2 總體主成分
4.1.3 樣本主成分
4.2 因子分析
4.2.1 引言
4.2.2 正交因子模型
4.2.3 參數估計方法
4.2.4 主成分估計法的具體步驟
4.2.5 方差最大的正交旋轉
4.2.6 因子得分
習題
第5章 判別分析
5.1 距離判別
5.1.1 判別分析的基本思想及意義
5.1.2 兩個總體的距離判別
5.1.3 判別準則的評價
5.1.4 多個總體的距離判別
5.2 Bayes判別
5.2.1 Bayes判別的基本思想
5.2.2 兩個總體的Bayes判別
5.2.3 多個總體的Bayes判別
5.2.4 逐步判別簡介
習題
第6章 聚類分析
6.1 距離與相似系數
6.1.1 聚類分析的基本思想及意義
6.1.2 樣品間的相似性度量——距離
6.1.3 變量間的相似性度量——相似系數
6.2 譜系聚類法
6.2.1 類間距離
6.2.2 類間距離的遞推公式
6.2.3 譜系聚類法的步驟
6.2.4 變量聚類
6.3 快速聚類法
6.3.1 快速聚類法的步驟
6.3.2 用Lm距離進行快速聚類
習題
第7章 時間序列分析
7.1 平穩時間序列
7.1.1 時間序列分析及其意義
7.1.2 隨機過程概念及其數字特征
7.1.3 平穩時間序列與平穩隨機過程
7.1.4 平穩性檢驗及自協方差函數、自相關函數的估計
7.2 ARMA時間序列及其特性
7.2.1 ARMA時間序列的定義
7.2.2 ARMA序列的平穩性與可逆性
7.2.3 ARMA序列的相關特性
7.3 ARMA時間序列的建模與預報
7.3.1 ARMA序列參數的矩估計
7.3.2 ARMA序列參數的精估計
7.3.3 ARMA模型的定階與考核
7.3.4 平穩線性最小均方預報
7.3.5 ARMA序列的預報
7.4 ARIMA序列與季節性序列
7.4.1 ARIMA序列及其預報
7.4.2 季節性序列及其預報
習題
第8章 常用數據分析方法的SAS過程簡介
8.1 SAS系統簡介
8.1.1 建立SAS數據集
8.1.2 利用已有的SAS數據集建立新的SAS數據集
8.1.3 SAS系統的數學運算符號及常用的SAS函數
8.1.4 邏輯語句與循環語句
8.2 常用數據分析方法的SAS過程
8.2.1 幾種描述性統計分析的SAS過程
8.2.2 非參數秩方法的SAS過程
8.2.3 回歸分析的SAS過程
8.2.4 主成分分析與因子分析的SAS過程
8.2.5 判別分析的SAS過程
8.2.6 聚類分析的SAS過程
8.2.7 時間序列分析的SAS過程——PROC ARIMA過程
8.2.8 SAS系統的矩陣運算——PROC IML過程簡介
主要參考文獻
3.2 逐步回歸法
許多實際問題往往涉及大量的自變量,當回歸函數的類型選定為線性函數后,一個重要的問題就是自變量的選取問題,因為在回歸分析中,一方面,為獲得較全面的信息,總希望模型中包含盡可能多的自變量;另一方面,考慮到獲取如此多自變量的觀測值的實際困難及費用,則希望回歸方程中包含盡可能少的且重要的自變量,加之理論上可證明預報值的方差隨著自變量數目的增加而增大,且包含較多自變量的模型擬合的計算量大,又不便于利用擬合的模型對實際問題作解釋,因此,在實際應用中,希望擬合這樣一個模型,它既能較好地反映問題的本質,又包含盡可能少的自變量,這兩個方面的一個適當折衷就是回歸方程的選取問題,其基本思想是在一定的準則下選取對因變量影響較為顯著的自變量,建立一個既合理又簡單實用的回歸模型。
本節介紹選取回歸方程的主要方法一一逐步回歸法。
逐步回歸法的基本步驟是依次擬合一系列回歸方程,后一個回歸方程是在前一個的基礎上增加或刪除一個自變量,其增加或刪除某個自變量的準則是用殘差平方和的相對增加或減少量來衡量,一般采用如下的偏F檢驗統計量,設模型中已有L-1個自變量,記這L-1個變量的集合為A,當不在A中的一個自變量X加入到這個模型中時。