全書共九章,內容包括數據概述、聚類分析、判別分析、主成分分析、因子分析、線性模型、統計診斷、有偏估計、變量選擇。各章都有豐富的例題和案例,為加深每章內容的理解,每章的練習也分為理論和實證部分,書后附有參考答案,為使書中案例貼近數據的應用實際,采用了獲取方便的證券市場高頻數據,并使用國際通用的R軟件進行數據收集、處理、加工和分析,便于讀者自己動手和實際應用需要。全書內容講解簡明扼要,注重應用,讓讀者收集數據開始,掌握數據收集、整理和大數據統計分析的全過程。
1952年,芝加哥大學的馬科維茲(Markowitz)首次采用股票收益率歷史數據的方差,作為風險衡量指標,并指出與證券市場的整體運行相關聯的宏觀系統風險不能通過投資分散化加以消除,稱為不可分散風險。馬科維茲在投資者效用的基礎上,將復雜的投資決策問題簡化為一個風險(方差)-收益(均值)的二維問題,即在相同的期望收益條件下,投資者選擇投資風險最小的證券(組合),或在相同的投資風險下,選擇預期收益率證券(組合)。開統計方法應用于金融市場之先河。1978年,西蒙斯(Simons)開發了許多數學模型用來進行分析和交易,這些基本上是自動完成。他用計算機編程建立模型分析股票價格,從而能進行很輕松的交易并獲利。這些模型是建立在海量的數據基礎上的,所以具有可靠性并可進行實際預測,1989~2009年,他操盤的大獎章基金平均年回報率高達35%,較同期標普500指數年均回報率高20多個百分點,比金融大鱷索羅斯和股神巴菲特的操盤表現都高出10余個百分點。即便是在次貸危機爆發的2007年,該基金的回報率仍高達85%。西蒙斯成就了世界上最偉大的對沖基金之一:大獎章基金。大數據的歷史相對較晚一些。2008年年末,大數據才得到部分美國知名計算機科學研究人員的認可,但在2013年,大數據就已經風靡全球,成為一個時代的符號。我們早在2002年開始從事金融數據挖掘研究和教學,2011年正式給本科生開設證券數據統計建模與實證分析課程,2013年結合大數據發展,給碩士生和博士生開設了金融大數據統計方法與實證的課程。
前言
第1章 大數據概述
一、大數據的數字特征
二、大數據的圖表示
練習1
第2章 聚類分析
一、相似性度量
二、系統聚類法
三、變量聚類法
四、動態聚類法
練習2
第3章 判別分析
一、距離判別
二、費歇判別
三、貝葉斯判別
練習3
第4章 主成分分析
一、基本思想
二、樣本主成分
三、特征值因子的篩選
四、主成分分類
練習4
第5章 因子分析
一、因子分析模型
二、因子旋轉
三、因子得分
練習5
第6章 線性模型
一、線性模型及參數的最小二乘估計
二、最小二乘估計的性質
三、線性模型的顯著性檢驗
四、正回歸
練習6
第7章 回歸診斷
一、殘差
二、殘差圖
三、異常點
練習7
第8章 有偏估計
一、均勻壓縮估計
二、主成分估計
三、嶺估計
練習8
第9章 變量選擇
一、變量選擇準則
二、逐步回歸
三、絕對約束估計
四、彈性約束估計
五、非負約束估計
練習9
練習提示與參考答案
參考文獻
附錄R 應用程序