本書是“對比 Excel”的第 4 本書,全書依舊突出對比學習的特點,通過對比 Excel 的方式來講解如何利用 Python 學習統計學知識,即統計分析。本書是“對比 Excel”之前 3 本書的延續,同時也是數據分析師技能樹的擴展。本書的主線是圍繞統計學的理論知識展開的,層層遞進,依次為描述性分析、概率和概率分布、抽樣推斷與參數估計、假設檢驗、方差分析、卡方分析、回歸模型、相關性分析、時間序列。每個理論知識又由核心的 3 個部分組成:該理論知識在數據分析中的應用、理論知識講解、Excel 和Python 工具的實現,讓大家學完本書以后既學到了理論知識,也知道如何將理論知識在數據分析中應用,還知道如何用 Excel 和 Python 去實現。
張俊紅,某互聯網公司資深數據分析師,暢銷書《對比Excel,輕松學習Python數據分析》作者。對比學習法倡導者,入職數據分析師系列叢書作者。喜歡分享,致力于做一個數據科學路上的終身學習者、實踐者、分享者。公眾號“俊紅的數據分析之路”運營人。
第1章 認識統計學 / 1
1.1 統計學是什么 ................................................................................................... 1
1.2 統計學和數據分析有什么關系 ...................................................................... 1
1.3 Python 統計學和統計學有什么區別 .............................................................. 2
第2章 描述性分析 / 3
2.1 描述性分析在數據分析中的應用 .................................................................. 3
2.2 數據類型 ........................................................................................................... 3
2.3 數據整理與展示 ............................................................................................... 3
2.3.1 分類型數據整理與展示 ...................................................................... 4
2.3.2 數值型數據整理與展示 ...................................................................... 7
2.4 概括性分析 ..................................................................................................... 17
2.4.1 集中趨勢指標 .................................................................................... 18
2.4.2 離散程度指標 .................................................................................... 23
2.4.3 分布情況指標 .................................................................................... 25
2.5 其他容易混淆的概念 ..................................................................................... 28
2.5.1 均值與期望 ........................................................................................ 28
2.5.2 比例和比率 ........................................................................................ 30
2.5.3 百分比和百分點 ................................................................................ 31
第3章 概率和概率分布 / 33
3.1 概率和概率分布在數據分析中的應用場景 ................................................ 33
3.2 常見概念 ......................................................................................................... 33
3.2.1 什么是隨機事件 ................................................................................ 33
3.2.2 什么是隨機變量 ................................................................................ 34
3.2.3 什么是概率 ........................................................................................ 34
3.3 離散型隨機變量概率分布 ............................................................................ 36
3.3.1 概率分布表與概率分布圖 ................................................................ 36
3.3.2 累積分布函數與百分點函數 ............................................................ 37
3.3.3 期望與方差 ........................................................................................ 37
3.3.4 常見離散型概率分布 ........................................................................ 38
3.4 連續型隨機變量概率分布 ............................................................................ 46
3.4.1 概率密度與累積分布 ........................................................................ 46
3.4.2 期望與方差 ........................................................................................ 50
3.4.3 常見連續型概率分布 ........................................................................ 50
第4章 抽樣推斷與參數估計 / 65
4.1 抽樣推斷與參數估計在數據分析中的應用場景 ........................................ 65
4.2 抽樣的基本概念 ............................................................................................. 65
4.2.1 總體和樣本 ........................................................................................ 65
4.2.2 常用統計量 ........................................................................................ 66
4.3 常用的抽樣方式 ............................................................................................. 66
4.3.1 簡單隨機抽樣 .................................................................................... 67
4.3.2 分層抽樣 ............................................................................................ 67
4.4 為什么樣本可以代表總體 ............................................................................ 68
4.4.1 中心極限定理 .................................................................................... 68
4.4.2 大數定理 ............................................................................................ 70
4.5 參數估計的基本方法 ..................................................................................... 71
4.5.1 點估計 ................................................................................................ 71
4.5.2 區間估計 ............................................................................................ 72
4.6 區間估計的類型 ............................................................................................. 72
4.6.1 一個總體參數的區間估計 ................................................................ 72
4.6.2 兩個總體參數的區間估計 ................................................................ 80
第5章 假設檢驗 / 88
5.1 假設檢驗在數據分析中的應用場景 ............................................................ 88
5.2 假設檢驗基本思想 ......................................................................................... 88
5.3 假設檢驗中常見的兩種錯誤 ........................................................................ 90
5.4 顯著性水平和功效 ......................................................................................... 90
5.5 假設檢驗的基本步驟 ..................................................................................... 91
5.6 一個總體參數的檢驗 ..................................................................................... 94
5.6.1 總體均值的檢驗 ................................................................................ 94
5.6.2 總體比例的檢驗 ................................................................................ 98
5.6.3 總體方差的檢驗 ................................................................................ 99
5.7 兩個總體參數的檢驗 ................................................................................... 101
5.7.1 兩個總體均值之差的檢驗 .............................................................. 101
5.7.2 兩個總體比例之差的檢驗 .............................................................. 106
5.7.3 兩個總體方差比的檢驗 .................................................................. 107
5.8 假設檢驗中最小樣本量的確定 .................................................................. 109
5.9 A/B 測試的完整流程 .................................................................................... 111
第6章 方差分析 / 113
6.1 方差分析在數據分析中的應用場景 ........................................................... 113
6.2 方差分析的 3 個假設 .................................................................................... 113
6.3 正態性檢驗方法 ............................................................................................ 113
6.3.1 直方圖檢驗 ....................................................................................... 113
6.3.2 Q-Q 圖檢驗法 ................................................................................... 114
6.3.3 KS 檢驗 ............................................................................................. 114
6.3.4 AD 檢驗 ............................................................................................ 115
6.3.5 W 檢驗 .............................................................................................. 116
6.3.6 非正態數據轉換 ............................................................................... 116
6.4 方差齊性檢驗方法 ........................................................................................ 118
6.4.1 方差比檢驗 ....................................................................................... 118
6.4.2 Hartley 檢驗 ...................................................................................... 118
6.4.3 Bartlett 檢驗 ...................................................................................... 119
6.4.4 Levene 檢驗 ...................................................................................... 119
6.5 方差分析的基本步驟 ................................................................................... 120
6.6 方差分析的多重比較 ................................................................................... 125
6.6.1 LSD 多重比較法 .............................................................................. 125
6.6.2 Sidak 多重比較法 ............................................................................ 127
6.6.3 Bonferroni 多重比較法 ................................................................... 128
6.7 多因素方差分析 ........................................................................................... 129
6.7.1 無交互作用的多因素方差分析 ...................................................... 129
6.7.2 有交互作用的多因素方差分析 ...................................................... 134
第7章 卡方分析 / 140
7.1 卡方分析在數據分析中的應用 .................................................................. 140
7.2 理論講解 ....................................................................................................... 140
7.3 Excel 與 Python 實現 ................................................................................... 142
第8章 回歸模型 / 144
8.1 回歸模型在數據分析中的應用場景 .......................................................... 144
8.2 一元線性回歸 ............................................................................................... 144
8.2.1 多元回歸方程形式 .......................................................................... 144
8.2.2 最小二乘參數估計法 ...................................................................... 145
8.2.3 擬合程度判斷 .................................................................................. 147
8.2.4 顯著性檢驗 ...................................................................................... 147
8.2.5 Excel 與 Python 實現 ....................................................................... 149
8.3 多元線性回歸 ............................................................................................... 151
8.3.1 回歸方程形式 .................................................................................. 151
8.3.2 最小二乘參數估計 .......................................................................... 151
8.3.3 擬合程度判斷 .................................................................................. 151
8.3.4 顯著性檢驗 ...................................................................................... 152
8.3.5 多重共線性 ...................................................................................... 153
8.3.6 Excel 與 Python 實現 ....................................................................... 153
8.4 協方差分析 ................................................................................................... 155
8.4.1 理論講解 .......................................................................................... 155
8.4.2 Excel 與 Python 實現 ....................................................................... 157
第9章 相關性分析 / 159
9.1 相關性分析在數據分析中的應用場景 ...................................................... 159
9.2 相關系數的種類 ........................................................................................... 159
9.2.1 皮爾遜相關系數 .............................................................................. 159
9.2.2 斯皮爾曼相關系數 .......................................................................... 162
9.2.3 肯德爾相關系數 .............................................................................. 162
9.2.4 Excel 與 Python 實現 ....................................................................... 163
9.3 相關與因果 ................................................................................................... 164
第 10 章 時間序列 / 165
10.1 時間序列在數據分析中的應用 ................................................................ 165
10.2 平穩時間序列預測 .................................................................................... 165
10.2.1 簡單平均法 .................................................................................... 166
10.2.2 移動平均法 .................................................................................... 167
10.2.3 指數平滑法 .................................................................................... 169
10.3 時間序列預測模型 .................................................................................... 172
10.3.1 AR 模型 .......................................................................................... 172
10.3.2 MA 模型 ......................................................................................... 174
10.3.3 ARMA 模型 ................................................................................... 175
10.3.4 ARIMA 模型 .................................................................................. 176
10.4 時間序列分解預測 .................................................................................... 177
10.5 趨勢時間序列預測 .................................................................................... 187
10.5.1 線性趨勢預測 ................................................................................ 187
10.5.2 指數趨勢預測 ................................................................................ 189