適讀人群 :本書可以作為高等院校應用統計專業碩士的學習應用數理統計的教材,也可以作為非統計專業的研究生以及高年級本科生學習數理統計課程的教材或教學參考書。
本書內容涵蓋概率論預備知識、統計基礎、參數估計、假設檢驗、區間估計及回歸分析;
為適用應用統計專業碩士培養的新形式,本書強調方法的應用,淡化理論的證明;
為開闊讀者視野,附錄介紹了R語言的使用、非參數密度估計及非參數回歸等內容;
書中很多例題都附有R軟件實現,各章均配有一定數量的習題。
統計學主要是用來研究如何有效地收集、處理和分析實際數據的一門學科,統計學的本質在于挖掘原始數據中的潛在信息,通過有效且有針對性的統計分析與推斷,為解決實際問題提供具有參考價值的建議。在2011年以前,統計學科分別隸屬于兩個一級學科,即應用經濟學和數學;2011年以后,國務院學位委員會通過了新的學位授予和人才培養學科目錄,統計學科上升為一級學科。這一方面說明了統計學這個學科本身的重要性,為未來統計學的快速發展提供了更加廣闊的舞臺和空間,同時這也對高等院校人才培養模式提出了新的要求。
經國務院學位委員會批準,我國自2011年起開始招收培養應用統計專業碩士,到目前已經連續招收了六屆,且全國每年招生規模不斷擴大。該專業學位設置的主要目的是為政府部門、大中型企業、咨詢和研究機構培養高層次、應用型統計專門人才。相對于學術性碩士的培養而言,應用統計專業碩士培養的主要特點是“高層次、應用型”。從課程設置體系來看,“應用數理統計”課程是應用統計專業碩士培養最為重要的基礎課和核心課,是后繼各類專業課的基礎。從學科定義上來看,數理統計主要是用來研究如何有效地收集、處理和分析數據的一門學科,通過對隨機現象有限次的觀測或試驗得到的數據進行歸納、分析,并據此對整體的數量規律性做出推斷或判斷。數理統計既強調統計理論數學闡述,如參數估計、非參數估計、相關與回歸分析等,同時又非常注重統計方法的實際應用,數理統計對統計數據分析方法的影響是顯著的,在對應用統計專業碩士的培養中發揮著重要作用。
鑒于應用統計專業碩士推出的時間較短,國內有針對性的數理統計教材很少,為了適應應用統計專業碩士培養快速發展的新形式,我們著手編寫了本書。作者認為,“數理統計”作為應用統計專業碩士教學的一門基礎課,在課程內容選編上既要體現不同于本科課程內容的“高層次”,又要體現出不同于傳統學術型碩士課程內容的“應用型”,盡量做到理論方法與應用的有機融合。考慮到某些結論的證明過程過于煩瑣,初學者往往感到困惑,在編寫過程中我們強調方法的應用,淡化理論證明,注重案例教學。
值得注意的是,計算機的誕生與迅猛發展,為數據處理提供了強有力的技術支持。統計的學習與使用離不開計算機,離不開統計軟件。目前常用的統計軟件主要有SPSS、SAS、MATLAB、STATISTICA、R語言等。R 軟件作為一種免費的開源統計軟件,已經在統計學、運籌學、生物信息學、經濟學、工程學等諸多領域得到廣泛應用。由于設計上的特點,R語言并不局限某一類問題。配合不同的功能擴展包,以及各種靈活使用的基本工具,R 語言能夠應用的領域相當廣泛。在本書中,我們將采用R語言作為主要的教學軟件。對于一些常用的結論,我們將通過R語言來實現。本書強調統計方法的R語言實現也是基于應用的目的。
本書共分6章,其中第1章由姜玉英編寫,第2、3、6章由劉強編寫,第4、5章及附錄由王琳編寫,書中的大部分程序由王琳編寫,最后由劉強負責統一定稿。
本書內容涵蓋了概率論預備知識、統計基礎知識、參數估計、假設檢驗、區間估計及回歸分析。為了方便讀者學習和實際應用,本書在附錄中介紹了R語言的使用、非參數密度估計及非參數回歸等內容,以開闊讀者的應用視野。全部講授完本書大約需要48學時,如果將R軟件的學習與應用放到課后,則32學時左右即可完成本書內容的講授。
本書的初稿在首都經濟貿易大學應用統計專業碩士班講授過多年,雖然經過多次修改,總感不足,趁此出版之際,我們對講義又進行了大幅的整理與修訂,希望本書的出版能為應用統計專業碩士的教學貢獻一份綿薄之力。
在本書的撰寫過程中,北京工業大學薛留根教授、程維虎教授,首都經濟貿易大學統計學院紀宏教授、張寶學教授、馬立平教授都給予了極大的支持和熱心的幫助。電子工業出版社高等教育分社的譚海平社長和王二華編輯也為本書的出版付出了很大努力,在此一并表示感謝。本書的撰寫也得到了北京市青年拔尖人才培育計劃項目(CIT&TCD201404133)和首都經濟貿易大學專業學位碩士教育系列教材建設項目的資助。
由于作者水平有限,盡管盡了很大努力,但書中仍不免存在錯謬之處,懇請國內同行及讀者不吝指正。電子郵箱為:cuebliuqiang@163.com。
作 者
2016年11月
劉強教授,博士生導師,現任首都經濟貿易大學統計學院副院長,兼任全國工業統計教學研究會常務理事兼常務副秘書長,北京應用統計學會常務理事,中國商業經濟學會經濟數學研究分會常務理事,北京大數據協會理事等。主要從事應用數理統計、經濟數據分析、非參數統計以及復雜數據分析等方面的教學、科研工作。王琳,首都經濟貿易大學統計學院講師,美國匹茲堡大學生物統計系訪問學者。主要從事生物信息學和計算生物學方面的研究,主持包括國家自然科學基金在內課題多項,發表SCI學術論文近十篇。
目 錄
第1章 預備知識 1
1.1 隨機事件及其概率 2
1.1.1 樣本空間與隨機事件 2
1.1.2 事件間的關系及運算 2
1.1.3 概率的定義及性質 3
1.1.4 條件概率與事件的獨立性 4
1.2 隨機變量及其分布 5
1.2.1 隨機變量及其分布 5
1.2.2 離散型隨機變量及其分布率 6
1.2.3 連續型隨機變量及其概率密度 7
1.2.4 隨機變量函數的分布 9
1.3 多維隨機變量及其性質 10
1.3.1 多維隨機變量及其分布 10
1.3.2 邊緣分布與條件分布 11
1.3.3 隨機變量的獨立性 12
1.3.4 隨機向量函數的分布 12
1.3.5 隨機向量的變換及其分布 13
1.4 隨機變量的數字特征 13
1.4.1 數學期望與方差 13
1.4.2 矩、協方差陣及相關系數 16
1.4.3 條件數學期望 17
1.5 特征函數及其性質 18
1.6 大數定律與中心極限定理 19
1.6.1 隨機變量序列的收斂性 19
1.6.2 大數定律 20
1.6.3 中心極限定理 21
習題1 22
第2章 統計基礎 24
2.1 一些基本概念 24
2.1.1 總體與樣本 24
2.1.2 放回與不放回抽樣 26
2.1.3 參數與非參數分布族 26
2.1.4 統計量與抽樣分布 27
2.2 三大抽樣分布 29
2.2.1 c2分布 29
2.2.2 t分布 32
2.2.3 F分布 34
2.2.4 兩個重要的結論 36
2.3 常見分布族 37
2.3.1 伽馬分布族 37
2.3.2 Fisher Z分布族 38
2.3.3 貝塔分布族 39
2.3.4 韋布爾分布族 41
2.3.5 多項分布族 41
2.3.6 指數型分布族 42
2.4 常用統計量 43
2.4.1 經驗分布函數 44
2.4.2 次序統計量 45
2.4.3 樣本p分位數 47
2.5 充分統計量 48
2.5.1 充分統計量 48
2.5.2 因子分解定理 50
2.5.3 指數型分布族的充分統計量 52
2.6 完備統計量 52
2.6.1 分布族的完備性 52
2.6.2 完備統計量 53
2.6.3 指數型分布族的完備統計量 54
2.7 常用統計圖形 55
2.7.1 直方圖 55
2.7.2 莖葉圖 59
2.7.3 箱線圖 60
2.7.4 散點圖 62
2.7.5 折線圖 65
習題2 66
第3章 點估計 69
3.1 點估計與優良性 69
3.1.1 點估計的概念 69
3.1.2 無偏性 69
3.1.3 有效性 70
3.1.4 均方誤差準則 71
3.1.5 相合性 71
3.1.6 漸近正態性 73
3.2 矩估計 74
3.3 極大似然估計 75
3.3.1 極大似然估計的原理 76
3.3.2 極大似然估計的性質 80
3.4 一致最小方差無偏估計 80
3.4.1 一致最小方差無偏估計的概念 80
3.4.2 零無偏估計法 82
3.4.3 充分完備統計量法 83
3.5 Cramer-Rao不等式 83
3.5.1 C-R正則分布族與Fisher信息 83
3.5.2 統計量的Fisher信息 86
3.5.3 信息不等式與有效估計 86
3.6 U統計量 89
3.7 同變估計 90
3.7.1 同變性的引入 90
3.7.2 最優同變估計 91
3.7.3 Pitman估計 92
習題3 93
第4章 假設檢驗 95
4.1 基本概念 95
4.1.1 假設檢驗問題 95
4.1.2 拒絕域與檢驗統計量 96
4.1.3 兩類錯誤和功效函數 96
4.1.4 Neyman-Pearson原則 97
4.1.5 檢驗函數與充分統計量 98
4.2 Neyman-Pearson基本引理 99
4.2.1 最大功效檢驗 99
4.2.2 一致最大功效檢驗 101
4.3 似然比檢驗 102
4.4 正態總體的參數檢驗 104
4.4.1 均值的檢驗 104
4.4.2 方差的檢驗 109
4.5 非參數假設檢驗 112
4.5.1 皮爾遜?2擬合檢驗 113
4.5.2 柯爾莫哥洛夫-斯米爾諾夫
檢驗法 116
4.5.3 符號檢驗法 118
4.5.4 Wilcoxon符號秩檢驗 121
4.5.5 Wilcoxon-Mann-Whitney秩和
檢驗 124
4.5.6 游程檢驗 126
習題4 127
第5章 區間估計 130
5.1 區間估計的基本概念 130
5.2 置信區間(置信域)的構造 133
5.2.1 樞軸量法 133
5.2.2 假設檢驗法 136
5.2.3 近似分布法 138
5.3 一致最精確置信區間(置信限) 138
習題5 140
第6章 回歸分析 142
6.1 引言 142
6.2 線性回歸模型 144
6.2.1 最小二乘估計 145
6.2.2 最小二乘估計的性質 148
6.3 模型的評價與檢驗 150
6.3.1 模型的評價 150
6.3.2 模型的檢驗 152
6.4 響應變量的預測 156
6.5 廣義最小二乘估計 157
6.6 回歸診斷 158
6.6.1 殘差分析 159
6.6.2 影響分析 163
6.6.3 多重共線性分析 166
6.7 有偏估計 169
6.7.1 嶺估計 169
6.7.2 主成分回歸 172
6.8 Box-Cox變換 175
習題6 178
附錄A R語言簡介 181
附錄B 非參數密度估計 198
附錄C 非參數回歸 208
附錄D 常用的統計表 216
參考文獻 239