本書內容廣泛,通俗易懂,對數學和數理統(tǒng)計的要求很低,是一本極具特色的統(tǒng)計學教科書和工具書,既適合那些學習統(tǒng)計學課程的經濟學、社會學、管理學和統(tǒng)計學專業(yè)的大學高年級本科生與研究生,也適合那些從事數據分析工作需正確理解各種多元統(tǒng)計方法的原理,掌握基本操作技巧的數據工程師,對于那些備考研究生的考生更不失為一本深入淺出、簡明扼要的參考書。作者擁有多年授課經歷和豐富的實際經驗,力求說理透徹,應用地道,注意將復雜方法溯源至常理、常識,對一個方法要解決的問題與解決問題的邏輯思路、前提條件,存在的障礙進行全面介紹,引導讀者進入每種方法實際應用時的情景設定: 比較重視交代方法的適用場合、變量類型和量綱、數據基礎,后續(xù)動作;尤其重視不同方法間以及同一類方法內部的子方法間的邏輯聯(lián)系,以及在介紹經典方法的同時,自然、平滑地引入適合處理大數據分析的方法。
本書注意將復雜方法溯源至常理、常識,對一個方法要解決的問題與解決問題的邏輯思路、前提條件,存在的障礙進行全面介紹,引導讀者進入每種方法實際應用時的情景想定:比較重視教材方法的適用場景、變量類型和量綱、數據基礎,后續(xù)動作;尤其重視不同方法間以及同一類方法內部的子方法間的邏輯聯(lián)系,以及在介紹經典方法的同時,自然平滑地引入適合處理大數據分析的方法。
公元2009年,受時任教育部應用統(tǒng)計科學研究中心主任趙彥云教授的鼓勵,作者作為第一負責人申請了一個名為“多元統(tǒng)計分析及其應用的統(tǒng)計理論研究”的教育部人文社會科學重點研究基地重大項目,并幸運地獲得了批準,項目編號為2009JJD910240,研究成果約定為一本專著。本書就是這一項目的主要成果之一,這其中還凝結了近20余年教學與應用等方面的經驗: 其中大部分內容在中國人民大學的本科生和研究生課堂講授過,涉及的所有方法都在研究課題或咨詢項目中有過實際應用。
經過幾年的努力,期間幾次延宕,現在這部專著終于要出版了。值此付梓之際,感慨良多。作者志大才疏,兼生性疏懶,倘若不是受到一些專家朋友的鼓勵(如暨南大學的劉建平教授對多元統(tǒng)計框架給予了肯定;首都經貿大學的紀宏教授2000年前后與本人的討論啟發(fā)了本書聚類分析部分的研究;北方工業(yè)大學的李從珠教授則把他的判別分析的著作供我參考;中國科學院的馮士雍研究員和中國標準化研究院的肖惠總工程師在20世紀80年代中國人體尺寸數據案例上極具價值的慷慨相助;而北京航空航天大學的王惠文教授對本書部分內容的稱許令我受寵若驚)和我的學生尤其是碩士、博士們的幫助(劉東碩士最早、楊進碩士繼之幫我驗證了方差分析與聯(lián)合分析結論一致的想法;劉亞文博士、鄭坤碩士驗證了判別分析與logistic回歸結果的一致;徐一丁博士驗證了聚類距離計算的不一致;碩士生王維和于煥杰演算了大部分例題),成書恐怕遙遙無期,而那些已畢業(yè)的學生關于“何時見到書”的追問更是極其有力的鞭策,往往使我羞愧萬分,不得不暗下決心,務必有個交代。學生之中,劉亞文和于煥杰兩位出力最多,前者縝密細致,每每發(fā)現許多學理細節(jié)方面的意外錯誤;后者聰明勤奮,常常能夠以令人吃驚的速度完成許多計算、繪圖、編輯、排版等繁瑣無比的工作。此外,我們項目組的主要成員廣東商學院林海明教授,在項目研究過程中發(fā)表了許多很好的論文,但由于本書定位為專著,出于尊重知識產權的考慮,在此領域其諸多貢獻并未體現于本書。借此機會,作者要向所有貢獻者致以最誠摯的謝意!
本書的內容在招標申請書已經列明,除個別的如對應分析限于篇幅未予介紹外,令人欣慰的是其余的都完全兌現了,有些不在計劃的如某些適用于大數據的分析與挖掘的內容也有涉獵,盡管作者認為,大數據的統(tǒng)計分析方法既不復雜,也不高級,但有關算法相對說實居于關鍵地位。敝帚自珍,高明不敢輕言,但學術上差不多畢生的心力融會于此,獨到處是有些的,相信會對讀者在透徹的理解與地道的應用方面有所裨益。現將項目申請書中關于內容的說明轉錄如下,茲以為序。
“由于現實問題往往比較復雜,并非一兩個變量所能概括反映,多元統(tǒng)計分析本應是統(tǒng)計數據處理的最適合的手段,但以往因沒有計算機或計算機不夠普及,極大限制了多元統(tǒng)計分析的應用,以至于多元統(tǒng)計分析長時期內被束之高閣,雖然有些多元統(tǒng)計分析方法如因子分析早在1904年就已提出,而真正被廣泛應用卻是20世紀80年代以后的事情。在我國,多元統(tǒng)計分析的普及年代更晚。有記載許寶祿先生20世紀50年代中期曾說當時從事數理統(tǒng)計專業(yè)的連他本人在內不超過12人;從研究生課程里抽出一部分多元統(tǒng)計分析內容納入本科生課程在中國人民大學統(tǒng)計學院其歷史也僅有10年左右;時至今日,在國內的大多數高校里,作為三大多元統(tǒng)計之一的回歸分析仍在多元統(tǒng)計分析課程之外獨立地充當一門課程。
改革開放以后,伴隨著我國整個教育的進步,統(tǒng)計教育的改善也堪稱突飛猛進,大學里設置統(tǒng)計學院系的越來越多,開出統(tǒng)計課程的越來越多;中小學里統(tǒng)計知識介紹甚至超越概率論進入了抽樣與推斷統(tǒng)計的領域。一方面得益于這樣的大環(huán)境和計算機與統(tǒng)計軟件如SPSS、SAS和STATSTICA等的普及,多元統(tǒng)計分析中納入教學內容的方法日益增加。另一方面,多元統(tǒng)計分析的應用領域,統(tǒng)計科學對科研經濟社會建設的全面滲透而日趨擴展,從地質學、生物學、醫(yī)學、心理學迅速擴展到經濟學、社會學、營銷學、管理學和教育學等諸多領域;應用頻率也大幅地日漸增加,發(fā)表在期刊上的多元統(tǒng)計分析文章明顯增多,具體信息見表1。|多元統(tǒng)計分析前言續(xù)表表1部分多元方法在CPCI(原ISI proceedings)檢索的文獻數及學科分類判別logistic聯(lián)合方差因子主成分聚類對應合計26668806591706100000 100000 1737985660 14469數學38.7 47.3 17.8 64.4 17.3 28.8 26.4 18.7 行為科學21.2 22.9 22.7 32.1 10.8 18.4 7.6 9.7 心理學19.7 20.7 24.2 28.6 8.7 17.3 7.2 8.5 神經科學12.7 12.1 5.3 26.5 10.8 10.4 6.6 7.4 生物化學14.3 15.5 26.2 47.8 12.9 35.5 15.5 生理學6.8 15.4 10.1 6.6 遺傳學9.9 8.2 14.3 33.2 9.4 35.2 11.2 老年病學12.2 31.9 6.8 14.2 12.9 5.1 兒科學11.7 22.7 5.2 13.5 7.5 6.4 心血管學7.4 18.1 11.9 12.5 免疫學5.1 11.3 3.3 8.6 22.4 9.4 健康護理5.8 20.1 15.2 7.4 環(huán)境生態(tài)學9.0 7.3 14.4 10.1 26.1 細胞生物學6.6 21.5 9.1 腫瘤學7.2 11.8 16.2 計算機科學15.9 11.8 6.6 12.6 9.5 13.0 人口學19.4 商業(yè)與經濟43.0 工程學6.2 11.1 8.4 0.0 10.1 化學6.4 7.3 11.9 13.0 6.4 農學4.9 6.2 0.0 8.5 6.5 7.4 微生物學6.4 17.4 4.4 傳染病學12.9 6.4 9.3 生物多樣性11.5 海洋及淡水生物學10.2 植物科學10.1 然而,由于多元統(tǒng)計方法的出現與實際應用間隔太久,在我國其大規(guī)模應用也就是近幾年的事情,對內容的掌握尚屬生疏與實用場合的明顯增多同時交匯,客觀上難免造成一些生吞活剝與誤用濫用現象的出現。除此之外,多元統(tǒng)計分析的很多方法都是其他學科而非統(tǒng)計學科的人士所提出,例如回歸分析是遺傳學家所發(fā)現,因子分析是心理學家所開創(chuàng),聯(lián)合分析擁有心理學和營銷學的血緣,而分層分析則有教育學的基因,這些外來‘物種’極大豐富了統(tǒng)計學的內容,促進了統(tǒng)計學的應用。但眾多原本起于其他學科的方法在融入統(tǒng)計學大冶爐的過程中,難免因帶有濃厚的原來學科的色彩而有些水土不服,術語龐雜混亂,原理的統(tǒng)計學基礎薄弱,因此當我們今天從統(tǒng)計學的視角重新審視多元統(tǒng)計分析的構成時,可以發(fā)現其中存在著一些明顯的問題,以下是幾例。
1. 聚類分析、回歸分析和判別分析并稱三大多元統(tǒng)計方法,其使用價值之大可見一斑,但迄今仍未解決其理論基礎問題,致使這一方法是否應歸到統(tǒng)計學科尚有疑問。
2. 距離判別、費歇判別和貝葉斯判別三種判別之間原理上存在怎樣的聯(lián)系?孰優(yōu)孰劣?各自的使用場合是什么?
3. 聯(lián)合分析與方差分析同屬自變量為分類型變量而因變量為數值型變量的分析方法,同樣使用F統(tǒng)計量作為判定依據,要達到的目標——衡量因素的重要性和優(yōu)選因素的水平,也是一樣的。兩者之間原理上存在怎樣的聯(lián)系?孰優(yōu)孰劣?各自的使用場合是什么?
4. logistic 回歸分析與判別分析同屬自變量為數值型變量而因變量為分類型變量的分析方法,要達到的目標也是一致的,但logistic 回歸分析多被看成回歸分析的推廣,這一方法與判別分析更近的‘親緣’卻不被公認,兩者之間原理上存在怎樣的聯(lián)系?孰優(yōu)孰劣?各自的使用場合是什么?
5. 主成分分析被認為是求得因子的方法之一,與其他求取因子方法相比孰優(yōu)孰劣?使用場合上有何區(qū)別?
6. 對應分析原本屬于列聯(lián)分析的復雜情形(因素水平較多),又被看做因子分析的深入,但列聯(lián)分析的‘自變量’和‘因變量’都是分類型變量,而因子限于處理數值型變量,一個數據如何既是數值型的又是分類型的?顯然存在著明顯的矛盾。
所有這些問題國內外文獻均無完整明確的敘述,教科書里對此也不提及。但毫無疑問,這些問題的解決將有助于明確上述方法本身的統(tǒng)計學理論背景,廓清方法間的聯(lián)系是包含的還是并列的、抑或是遞進的,使學生和使用者從數學上的‘在這些條件下,方法甲與方法乙等價’的模糊敘述中解脫出來,以清晰的邏輯和語言闡明在特定條件下究竟何種方法更優(yōu),或者倒過來說各個方法的適用場合怎樣,從而促進對多元統(tǒng)計分析的理論推廣,防止對各種多元統(tǒng)計分析方法的誤用濫用。鑒于多元統(tǒng)計分析是統(tǒng)計數據處理最重要的工具,同時是統(tǒng)計學應用最為廣泛的一個分支,因此這項研究的理論意義與實際價值都是不難理解的,在降低多元統(tǒng)計分析的學習成本和誤用概率方面尤其具有明顯的、巨大的促進作用。
本項研究的目標定為完成一篇對上述問題有很好答案的、確有新意的專著,期待可以成為全國統(tǒng)計學科發(fā)展與研究生培養(yǎng)的核心參考文獻之一。根據我們對有關課題的興趣與經驗的多年積淀,我們有信心使這項研究成功完成,也有信心這項研究結果可對多元統(tǒng)計分析的教學與科研有所助益。”
限于作者水平,本書難免存在一孔之見或錯漏舛誤,敬希同行不吝賜教,哪怕是嚴厲的理性批判,以使本書日后能夠漸臻完善,以饗讀者。
杜子芳2016年5月
第1章多元統(tǒng)計描述1
1.1多元統(tǒng)計分析的內容2
1.2數據及其來源4
1.3統(tǒng)計學的若干基本概念8
1.4變量與變量值12
1.5隨機變量與隨機變量值16
1.6隨機變量的分布及其特征20
1.7多元統(tǒng)計的分布圖與散點圖31
1.7.1分布圖系列32
1.7.2散點圖系列44
1.7.3混合圖系列55
第2章多元統(tǒng)計推斷58
2.1統(tǒng)計推斷概述59
2.2簡單隨機抽樣與簡單估計理論63
2.3多元的點估計及其優(yōu)良性71
2.3.1矩估計法71
2.3.2極大似然估計法72
2.3.3最小二乘估計74
2.3.4估計量的優(yōu)良性76
2.4區(qū)間估計77
2.4.1使用t分布的單一置信區(qū)間82
2.4.2龐弗羅尼多重置信區(qū)間83
2.4.3威沙特分布87
2.5缺失值的處理94
2.5.1EM算法95
2.5.2比估計與回歸估計97
2.6總體方差的估計101
第3章多元相關分析103
3.1多元相關分析概述104
3.2一對一的類型105
3.2.1一個分類變量對一個分類變量的情形105
3.2.2一個分類變量對一個數值變量的情形108
3.2.3一個數值變量與另一個數值變量的情形111
3.3多對多類型111
|多元統(tǒng)計分析目錄第4章列聯(lián)分析與對數線性分析121
4.1分類型數據的表示122
4.2高維列聯(lián)表的獨立性檢驗124
4.2.1壓縮: 基于部分自變量的邊緣分布的獨立性檢驗126
4.2.2分層: 基于部分自變量的條件分布的獨立性檢驗127
4.2.3“綜合”條件獨立性檢驗128
4.3對數線性模型131
4.4分類樹135
第5章方差分析與聯(lián)合分析138
5.1方差分析基本理論139
5.2單因素多變量方差分析142
5.3雙因素方差分析148
5.3.1雙因素單變量方差分析148
5.3.2雙因素多變量方差分析152
5.4多因素方差分析155
5.5聯(lián)合分析160
5.5.1聯(lián)合分析基本理論161
5.5.2聯(lián)合分析的步驟165
5.5.3聯(lián)合分析與方差分析的聯(lián)系168
5.5.4聯(lián)合分析與方差分析的實證比較171
第6章判別分析與logistic回歸分析179
6.1數據基礎180
6.2判別的準則181
6.2.1概率最大準則181
6.2.2判別損失最小準則183
6.3判別的方法185
第7章聚類分析207
7.1聚類分析的基本思想208
7.2類的定義209
7.3數據基礎213
7.4類間距離的度量216
7.5幾種聚類方法220
7.5.1譜系聚類220
7.5.2分解聚類220
7.5.3動態(tài)聚類222
7.5.4最優(yōu)聚類問題的探索228
7.6對變量的聚類236
第8章主成分分析與因子分析239
8.1主成分分析概論240
8.1.1數據基礎240
8.1.2主成分分析的思想241
8.1.3模型的假設與求解244
8.1.4主成分的性質245
8.1.5主成分的選取標準246
8.1.6樣本主成分分析247
8.1.7相關問題討論252
8.2因子分析259
8.2.1因子分析概述259
8.2.2因子分析基礎259
8.2.3因子分析模型262
8.2.4模型的求解與評價263
8.2.5因子旋轉266
8.2.6因子得分268
8.2.7因子分析案例269
第9章多元回歸分析280
9.1多元回歸思想概述281
9.2多元回歸模型282
9.2.1參數的區(qū)間估計與檢驗284
9.2.2模型的預測287
9.2.3常見問題的討論293
9.3與其他統(tǒng)計方法的比較296
9.3.1與方差分析的比較296
9.3.2與路徑分析的比較299
參考文獻307