本書以業務為導向,詳細地講解了如何通過大數據分析來解決商業問題。其目的在于運用大數據分析思維,幫助讀者把學術知識應用于真實的業務場景,解決實際的業務問題。
本書基于業務問題,就如何搭建分析框架,厘清分析思路,按照標準分析步驟對數據進行恰當的預處理,選擇合適的分析方法和分析模型,使用恰當的分析工具對數據進行分析,以及對分析結果進行可視化和符合業務要求的解讀等內容展開講解,幫助業務專家做出合適的業務判斷,制定準確的業務策略。
本書既可作為各行各業的一線業務在線人員、業務決策人員、數據分析人員、企業管理人員的學習用書,也可以作為廣大本科院校、高職高專院校的大數據相關專業的教材用書,還可作為從事大數據分析與應用培訓的參考教材。
傅一行
----------------------------
傅一航,大數據培訓講師。計算機軟件與理論碩士(研究方向:數據挖掘、搜索引擎)。在華為工作十年,獲得多個獎項及五項國家專利,對大數據技術有深入實踐和研究!
專注于大數據分析、數據挖掘、數據建模、機器學習等應用技術,以及大數據系統部署解決方案,旨在將大數據技術應用于商業領域,幫助決策者實現管理決策、運營決策、營銷決策!
第Ⅰ部分
數據決策理論篇
第1章?從0到1解構大數據002
1.1 數字化背景002
1.2 大數據的三層認知003
1.3 什么是大數據005
1.4 大數據十字特征006
1.5 DIKW體系009
1.6 數據的本質010
1.7 大數據不在于大,而在于全011
013
第2章?數據決策的底層邏輯014
2.1 數據的決策邏輯014
2.2 探索規律,按照規律來決策015
2.3 發現變化,發現短板來決策017
2.4 理清關系,找影響因素做決策020
2.5 預測未來,通過預判來決策022
024
第3章?數據決策環節025
3.1 數據決策路徑025
3.2 業務數據化026
3.3 數據信息化027
3.4 信息策略化028
3.5 案例:賺差價的營業員028
030
第Ⅱ部分
數據分析基礎篇
第4章?數據分析概述032
4.1 認識業務分析階段032
4.1.1 現狀分析033
4.1.2 原因分析033
4.1.3 預測分析033
4.2 了解數據分析方法034
4.2.1 描述性分析034
4.2.2 診斷性分析034
4.2.3 預測性分析035
4.2.4 推斷性分析035
4.2.5 專題性分析035
4.3 熟知數據分析過程035
4.3.1 第一步:明確目的036
4.3.2 第二步:收集數據038
4.3.3 第三步:整理數據039
4.3.4 第四步:分析數據040
4.3.5 第五步:呈現數據043
4.3.6 第六步:形成結論044
045
第5章?數據分析框架046
5.1 數據分析思路046
5.2 精準營銷分析框架(6R準則)047
5.2.1 正確的客戶048
5.2.2 正確的產品049
5.2.3 合理的價格049
5.2.4 最佳的時機050
5.2.5 合適的方式050
5.2.6 恰當的信息050
5.2.7 喜愛的套餐051
5.3 精準營銷分析過程052
5.4 用戶行為分析框架(5W2H)055
5.4.1 WHY056
5.4.2 WHAT056
5.4.3 WHO056
5.4.4 WHEN056
5.4.5 WHERE057
5.4.6 HOW057
5.4.7 HOW MUCH057
5.5 零售行業指標體系058
5.5.1 人(銷售員、消費者)058
5.5.2 貨(商品)059
5.5.3 場(店鋪)059
060
第6章?數據預處理061
6.1 預處理任務061
6.2 數據集成062
6.2.1 樣本追加063
6.2.2 變量合并063
6.2.3 連接示例067
6.3 數據清洗068
6.3.1 重復值處理068
6.3.2 錯誤值處理069
6.3.3?離群值處理070
6.3.4 缺失值處理074
6.4 樣本處理076
6.4.1 數據篩選076
6.4.2 隨機抽樣076
6.4.3 數據平衡077
6.5 變量處理078
6.6 質量評估079
080
第Ⅲ部分
描述統計分析篇
第7章?數據統計分析基礎082
7.1 認識數據集082
7.1.1 數據集格式082
7.1.2 數據存儲類型083
7.1.3 數據統計類型084
7.2 統計分析基礎085
7.2.1 操作模式085
7.2.2 關鍵要素086
7.2.3 三個操作步驟087
7.2.4 透視表組成結構088
7.3 常用統計指標089
7.3.1 集中趨勢090
7.3.2 離散程度092
7.3.3 分布形態094
7.3.4 統計匯總函數096
097
第8章?數據統計分析方法098
8.1 對比分析法098
8.1.1 案例:用戶特征分析099
8.1.2 案例:增量不增收100
8.1.3 統計分析思路框架102
8.2 結構分析法103
8.2.1 案例:靜態結構分析104
8.2.2 案例:動態結構分析104
8.2.3 案例:財務結構分析105
8.3 分布分析法106
8.3.1 案例:運營商用戶消費分布107
8.3.2 案例:銀行用戶消費分析107
8.3.3 案例:運營商流量分布109
8.4 趨勢分析法110
8.4.1 案例:手機銷量淡旺季110
8.4.2 案例:訂單需求的周期性111
8.4.3 案例:破解零售店的銷售規律112
8.5 交叉分析法113
8.5.1 案例:各區域產品銷量113
8.5.2 案例:產品偏好分析114
8.5.3 案例:違約影響因素分析117
8.6 杜邦分析法120
8.6.1 案例:凈資產收益率分析121
8.6.2 案例:市場占有率分析121
8.6.3 案例:銷售策略分析122
8.7 漏斗分析法122
8.7.1 案例:電商轉化率分析123
8.7.2 案例:消費者行為分析模型125
126
第9章?數據的可視化分析127
9.1 繪圖基本原則127
9.2 柱形圖128
9.2.1 簡單柱形圖128
9.2.2 復式柱形圖129
9.2.3 堆積柱形圖129
9.2.4 百分比堆積柱形圖130
9.2.5 畫圖原則131
9.3 直方圖131
9.3.1 分布形態132
9.3.2 溢出值考慮133
9.3.3 多直方圖134
9.3.4 畫圖原則134
9.4 箱形圖135
9.4.1 簡單箱形圖135
9.4.2 分組箱形圖136
9.4.3 畫圖原則137
9.5 餅圖137
9.5.1 簡單餅圖137
9.5.2 復合餅圖138
9.5.3 畫圖原則138
9.6 瀑布圖139
9.6.1 結構瀑布圖139
9.6.2 變化瀑布圖140
9.6.3 畫圖原則141
9.7 折線圖141
9.7.1 簡單折線圖141
9.7.2 多折線圖141
9.7.3 畫圖原則142
9.8 散點圖/氣泡圖142
9.8.1 散點圖142
9.8.2 氣泡圖143
9.8.3 畫圖原則143
9.9 漏斗圖144
9.9.1 漏斗圖介紹144
9.9.2 畫圖原則144
9.10 象限圖144
9.10.1 象限圖介紹145
9.10.2 畫圖原則145
9.11 帕累托圖145
9.11.1 帕累托圖介紹145
9.11.2 畫圖原則146
146
第Ⅳ部分
影響因素分析篇
第10章?相關分析148
10.1 影響因素分析148
10.2 相關分析150
10.2.1 相關分析種類151
10.2.2 散點圖151
10.2.3 相關系數153
10.2.4 顯著性檢驗154
10.3 簡單相關分析步驟155
10.3.1 第1步:繪制散點圖156
10.3.2 第2步:計算相關系數157
10.3.3 第3步:顯著性檢驗158
10.3.4 第4步:進行業務判斷158
10.4 三種相關系數158
10.4.1 Pearson相關系數159
10.4.2 Spearman相關系數160
10.4.3 Kendall相關系數161
10.5 相關系數的選擇164
10.6?案例:消費水平影響因素分析165
10.7 偏相關分析167
10.7.1 偏相關概念168
10.7.2 計算公式168
10.7.3 顯著性檢驗168
10.7.4 案例:消費水平的偏相關分析169
170
第11章?方差分析171
11.1 方差分析的基本知識171
11.1.1 基本原理172
11.1.2 方差分析前提條件178
11.2 方差分析類別179
11.3 單因素方差分析179
11.3.1 單因素方差分析步驟179
11.3.2?案例:單因素方差分析應用180
11.4 多因素方差分析183
11.4.1 基本原理183
11.4.2?案例:營銷廣告策略分析186
11.4.3?案例:消費水平的影響因素
分析189
11.5 協方差分析193
11.5.1 基本原理193
11.5.2?案例:生豬飼料效果差異性
評估194
11.5.3?案例:消費水平的影響因素
分析195
197
第12章?列聯分析198
12.1 列聯分析的基本知識198
12.1.1 列聯表199
12.1.2 期望值199
12.2 卡方檢驗200
12.3 列聯分析步驟201
12.4?案例:客戶流失的影響因素分析201
205
第Ⅴ部分
統計推斷分析篇
第13章?概率論基礎207
13.1 基本概念207
13.2 概率分布209
13.3 離散型概率分布210
13.3.1 概率分布表示210
13.3.2 伯努利分布212
13.3.3 二項分布212
13.3.4 泊松分布216
13.3.5 幾何分布219
13.4 連續型概率分布221
13.4.1 概率分布表示221
13.4.2 均勻分布225
13.4.3 指數分布226
13.4.4 正態分布229
13.5?其他常用分布233
13.5.1?χ2分布233
13.5.2 F分布236
13.5.3 T分布238
13.6 隨機變量的數字特征239
13.6.1 數學期望240
13.6.2 方差240
241
第14章?參數估計243
14.1 抽樣估計基礎243
14.1.1 基本概念243
14.1.2 抽樣方法244
14.1.3 大數定律246
14.1.4 中心極限定理247
14.2 參數估計250
14.2.1 點估計250
14.2.2 均值點估計252
14.2.3 比例點估計253
14.2.4 產品壽命估計254
14.3 區間估計255
14.3.1 基本概念255
14.3.2 均值區間估計256
14.3.3 方差區間估計260
14.3.4 比例區間估計263
14.4 抽樣誤差265
14.5 樣本容量確定266
14.5.1 均值評估的樣本容量266
14.5.2 比例評估的樣本容量267
268
第15章?假設檢驗269
15.1 基本思想269
15.1.1 反證法270
15.1.2 小概率270
15.2 檢驗種類270
15.3 基本步驟271
15.4 顯著性檢驗274
15.5 常用檢驗統計量277
15.5.1 均值檢驗277
15.5.2 方差檢驗283
15.5.3 比例檢驗286
15.6 兩類錯誤287
15.7?案例:SPSS中假設檢驗288
15.7.1 案例:周歲兒童身高T檢驗288
15.7.2 案例:信用卡消費水平T
檢驗289
290
第16章?雙樣本假設檢驗291
16.1 兩獨立樣本檢驗291
16.1.1 均值差異檢驗292
16.1.2 方差齊性檢驗295
16.2 兩配對樣本檢驗296
16.2.1 案例:存活天數差異297
16.2.2 案例:施肥對幼苗成長影響298
16.2.3 案例:針織品斷裂強力差異
檢驗299
16.3?案例:Excel中雙樣本檢驗300
16.3.1 案例:供應商交付周期差異
評估300
16.3.2 案例:農作物產量差異分析302
16.3.3 案例:樁長度的估計值與
實際值的差異評估304
16.4?案例:SPSS中雙樣本檢驗305
16.4.1 案例:促銷與非促銷效果
差異檢驗305
16.4.2 案例:煙齡和膽固醇關系
檢驗307
16.4.3 案例:減肥茶效果檢驗308
309