人類各項科學技術的發展帶來了海量數據,大數據的概念鋪天蓋地。統計學這一專注于數據分析的學科理應適應于這一時代的重大變革和發展。顯然大數據帶給統計學的沖擊是全方面的,不只是局限于理論或者計算。國際上眾多統計學家都在思考統計學在大數據時代應該扮演的角色。然而,提高統計學專業的學生相關計算機編程能力卻是刻不容緩。在這一背景之下,上海財經大學統計與管理學院開設了專業統計學碩士數據科學與商務統計方向,力圖增強相關碩士生從事大數據分析的計算能力以及分析商務數據(包括營銷數據、信用數據等)的應用能力。在這一指導思想之下,上海財經大學統計與管理學院開設了一系列相關課程。本講義就是針對該專業方向的《分布式統計計算》一課。這門課程向學生介紹分布式計算的思想以及在統計學上的應用,將統計學傳統方法和分布式計算方法相結合,通過不同的統計學問題來強化學生的分布式統計計算的編程能力和對統計計算的理解。
馮興東教授于2009年畢業于美國伊利洛伊大學香檳分校(University
of Illinois at Urbana-Champaign),獲得統計學博士學位。之后在美國國家統計科學研究所(National Institute of Statistical Sciences)從事博士后研究工作,研究內容主要集中在蛋白質數據分析,該項研究屬于和美國多個著名高校癌癥研究實驗室的聯合合作項目。 2011年始任教于上海財經大學統計與管理學院。研究興趣包括大數據統計計算、數據降維、分位數回歸、穩健性統計以及在金融和生物數據的應用等等。馮興東博士主持或參與多項國家自然科學基金項目;其多項研究成果發表于《The Annals of Applied Statistics》、《Biometrika》、《Journal of the American Statistical Association》、《The Annals of Statistics》等國際權威統計期刊上。
前言1
1Apache Spark簡介1
1.1Apache Spark的歷史與現狀1
1.2安裝和運行Apache Spark2
1.3Apache Spark編程簡介5
1.3.1Scala語言5
1.3.2Spark編程11
1.4公共數據集14
2Breeze程序包15
2.1創建向量、矩陣及其簡單計算15
2.2整行或整列的運算19
2.3常用數學計算20
2.4常用分布20
2.5基于Breeze包的分布式計算23
3隨機模擬和統計推斷24
3.1隨機數的產生24
3.1.1逆累積分布函數法25
3.1.2拒絕法26
3.1.3案例: 從回歸模型中模擬數據27
3.2EM優化31
3.2.1EM基本算法31
3.2.2收斂性分析31
3.2.3分布式EM算法32
3.2.4案例: 高斯混合模型33
4馬爾科夫鏈蒙特卡洛37
4.1MetropolisHastings算法38
4.2Slice取樣法40
4.3Gibbs取樣法41
5優化方法43
5.1交替方向乘子法43
5.1.1算法介紹43
5.1.2案例: 分位數回歸分布式參數估計45
5.2數值計算方法50
5.2.1隨機梯度下降算法51
5.2.2有限內存BFGS算法61
6自舉法65
6.1自由自舉法66
6.2子集合自舉法68
7常用大數據統計學習方法71
7.1聚類分析71
7.1.1K組中心法72
7.1.2隱狄利克雷分配法74
7.1.3功效迭代聚類法77
7.2分類分析78
7.2.1Logistic回歸79
7.2.2線性支持向量機79
7.2.3線性判別分析81
7.2.4決策樹82
8數據降維87
8.1主成分分析87
8.2奇異值分解88
8.3案例89
8.3.1讀取圖片90
8.3.2處理圖片91
8.3.3存儲圖片92
8.3.4提取主成分向量93
附錄部分課程案例97
案例1基于EM算法的t分布參數估計97
案例2基于SCAD懲罰的線性回歸分析115
參考文獻124