本書共分10章。第1章介紹了數據挖掘方法的歷史,另外討論了統計學習的一般模型。第2、3、4章介紹了三種數據挖掘模型:人工神經網絡、支持向量機和隱馬爾可夫模型。第5章介紹了一種新型支持向量誘導回歸模型,第6章介紹了一種基于快速訓練算法的HMM/SVM混合系統,第7章介紹了分解向前算法及PCA/ICA降維SVM模型,第8章介紹了不對稱支持向量機改進算法,第9章介紹了一種基于隱馬爾可夫模型的多重序列分析方法,第10章介紹了一類基于SVM/RBF的氣象模型預測系統。
本書是站在數據挖掘的獨特角度對神經網絡、支持向量機和隱馬爾可夫理論這三個重要的理論與方法進行重新剖析,并進行方法論基礎上的應用,通過講故事似的生動而系統地闡述數據挖掘的本質,來引領讀者對數據挖掘的深入理解和應用。
麗水學院商學院教授
第1章 緒論 1
1.1 研究背景 2
1.2 數據挖掘的基本數學問題 5
1.2.1 相關概念 5
1.2.2 統計學習的一般模型 10
1.3 數據的變換 11
參考文獻 13
第2章 神經網絡挖掘理論 19
2.1 神經智能 19
2.2 生物神經元和人工神經元 21
2.2.1 生物神經元 21
2.2.2 人工神經元 23
2.2.3 建立數學模型 24
2.2.4 單層與多層網絡結構 27
2.2.5 網絡學習方式 32 第1章 緒論 1
1.1 研究背景 2
1.2 數據挖掘的基本數學問題 5
1.2.1 相關概念 5
1.2.2 統計學習的一般模型 10
1.3 數據的變換 11
參考文獻 13
第2章 神經網絡挖掘理論 19
2.1 神經智能 19
2.2 生物神經元和人工神經元 21
2.2.1 生物神經元 21
2.2.2 人工神經元 23
2.2.3 建立數學模型 24
2.2.4 單層與多層網絡結構 27
2.2.5 網絡學習方式 32
2.2.6 經典學習規則 34
2.3 LMS和SDA方法 35
2.3.1 平均平方誤差函數 36
2.3.2 LMS和SDA算法 39
2.4 后向傳播算法 43
2.4.1 概況 43
2.4.2 多層網絡BP算法 44
參考文獻 50
第3章 基于支持向量的挖掘理論 52
3.1 支持向量與分類超平面 52
3.1.1 一維情形 52
3.1.2 二維情形 54
3.1.3 三維情形 56
3.1.4 n維情形( ) 57
3.1.5 核函數(內積回旋)思想 58
3.1.6 核函數定義 63
3.2 風險控制策略 65
3.2.1 VC維概念 65
3.2.2 經驗風險最小化原則 66
3.2.3 結構風險最小化原則 67
3.3 樣本被錯分的討論 68
3.3.1 最大間隔分類超平面 68
3.3.2 數據被錯分的條件 70
3.4 最優化策略 71
3.5 分類與回歸 74
3.5.1 分類算法 74
3.5.2 回歸算法 78
3.5.3 解的全局最優討論 80
3.6 幾種經典算法描述 82
3.6.1 分解算法 82
3.6.2 分塊算法 83
3.6.3 序貫最小化算法 84
3.6.4 核函數構造算法 85
參考文獻 85
第4章 隱馬爾可夫挖掘理論 87
4.1 馬爾可夫思想 87
4.2 隱馬爾可夫鏈 90
4.3 隱馬爾可夫模型 94
4.3.1 隱馬爾可夫模型定義 94
4.3.2 三個基本算法 95
參考文獻 102
第5章 新型支持向量誘導回歸模型及應用 104
5.1 新型支持向量誘導回歸模型 104
5.1.1 不敏感損失函數 104
5.1.2 系統模型 106
5.2 時間序列分析的相空間重構 108
5.2.1 相空間重構 108
5.2.2 性能評價指標 109
5.2.3 重構模式的近似算法 110
5.3 預測置信度估計 110
5.4 實驗結果 111
5.4.1 參數的確定 111
5.4.2 預測指數分析 112
5.4.3 預測結果 113
5.4.4 SVM和傳統神經網絡的比較 115
5.4.5 討論 116
參考文獻 117
第6章 基于快速訓練算法的HMM/SVM混合系統 118
6.1 L值定義 118
6.2 快速訓練算法和HMM/SVM混合過濾模型 119
6.2.1 基于HMM的快速訓練算法 119
6.2.2 HMM/SVM的雙層混合系統模型 120
6.3 實驗結果 121
6.3.1 數據的獲取及序列的編碼 122
6.3.2 DNA的兩類和多類分類識別 123
6.3.3 討論 126
參考文獻 127
第7章 分解向前算法及PCA/ICA降維SVM模型 129
7.1 主成分分析(PCA)的數學模型 129
7.2 獨立成分分析(ICA)的數學模型 131
7.3 分解向前支持向量機 133
7.3.1 三個距離區域 133
7.3.2 分解向前算法 134
7.3.3 DFSVM算法復雜度分析 136
7.3.4 PCA-DFSVM及ICA-DFSVM降維模型 137
7.4 實驗結果 138
7.4.1 SCOP數據庫 138
7.4.2 實驗1 138
7.4.3 實驗2 139
7.4.4 各項實驗指標比較 140
7.4.5 討論 141
參考文獻 141
第8章 不對稱支持向量機改進算法及應用 143
8.1 不對稱支持向量機 143
8.1.1 樣本的不對稱性 143
8.1.2 不對稱支持向量機算法 143
8.1.3 不對稱SVM分類迭代模型 146
8.2 幾種多分類問題的算法復雜度估計 146
8.3 實驗結果 149
8.3.1 實驗1 150
8.3.2 實驗2 151
8.3.3 MISVM和標準SVM實驗指標比較 153
參考文獻 155
第9章 基于隱馬爾可夫模型的多重序列分析 156
9.1 研究背景 156
9.2 多重序列比對 157
9.2.1 多重序列比對的描述 157
9.2.2 特征序列 158
9.3 隱馬爾可夫模型的序列描述 158
9.4 建立多重序列隱馬爾可夫輪廓圖 160
9.5 實驗結果和討論 161
9.5.1 Pfam數據庫簡介 161
9.5.2 建立隱馬爾可夫模型 162
9.5.3 檢驗HMMS模型 162
9.5.4 用HMMS進行蛋白質家族的模式分類 163
9.6 關于模型的局限性討論 164
參考文獻 165
第10章 一類基于SVM/RBF的氣象模型預測系統 167
10.1 支持向量機回歸模型 167
10.1.1 回歸支持向量機 167
10.1.2 模型中幾個重要參數分析 168
10.2 溫度序列數據分析 169
10.3 決策函數的確定 170
10.4 預測結果分析 171
10.5 結論 173
參考文獻 173
前 言
數據挖掘領域目前越來越引起人們的重視,在過去的幾十年里,數據挖掘技術已經從人們的零散的方法發展成為了一系列系統的知識理論。隨著大數據時代的到來,人們在這方面投入了更大的研究興趣,數據挖掘的內容越來越豐富,數據挖掘的應用范圍也越來越廣泛,從經濟到管理、從生物到醫學、從農業到商業,到處都呈現出數據挖掘學科發展的欣欣向榮的局面。進行數據挖掘的動力在于挖掘的信息能對我們的經濟生活提供重要的幫助。商業數據挖掘可以為商家提供重要的商機,氣象數據挖掘可以幫助我們防止自然災害和提高農作物產量,醫學數據挖掘可以幫助我們檢測疾病并進行及早治療、管理數據挖掘可以幫助管理者提高決策效率等。
本書向讀者介紹了幾種重要的數據挖掘概念與算法,包括神經網絡、支持向量機、隱馬爾可夫理論,本書由淺入深,循序漸進,采用生動樸實的語言向讀者介紹了這些理論的來龍去脈,使讀者對這些理論與方法有更深入的理解。神經網絡部分,從人的大腦結構開始,從生物的刺激反應到建立數學模型,遵循了知識的發現過程。支持向量機部分,由最大間隔分類超平面和支持向量介紹入手,從一維到多維,從獨特的角度介紹了這一理論的深刻內涵。隱馬可夫理論部分,從馬爾可夫鏈的介紹開始,通過引入雙重隨機過程使這一理論得到自然展現。
本書分為三個主要部分。緒論部分、主要理論部分及應用部分。緒論部分介紹了神經網絡和支持向量機理論的產生過程,同時介紹了數據挖掘的基本數學問題,對眾多算法概念進行了剖析,并討論了統計學習的一般模型和常用數據變換方法。主要理論部分由神經網絡挖掘理論、基于支持向量的挖掘理論及隱馬爾可夫挖掘理論3章組成,神經網絡挖掘理論部分包括神經智能、生物神經元和人工神經元、LMS和SDA方法及后向傳播算法;基于支持向量的挖掘理論部分由支持向量與分類超平面、風險控制策略、樣本被錯分的討論、最優化策略、分類與回歸、幾種經典算法描述組成;隱馬爾可夫挖掘理論部分由馬爾可夫思想、隱馬爾可夫鏈、隱馬爾可夫模型組成。應用部分介紹了這三種主要的數據挖掘技術在經濟和計算生物學中的應用,在這些章節,改進了傳統算法,提出了多個數據挖掘模型,包括第5章的新型支持向量誘導回歸模型,第6章的基于快速訓練算法的HMM/SVM混合系統,第7章的分解向前算法及PCA/ICA降維SVM模型,第8章的不對稱支持向量機改進算法模型,第9章的基于隱馬爾可夫模型的多重序列分析模型,第10章的一類基于SVM/RBF的氣象模型預測系統。這些應用章節的內容也較為豐富,包含了許多有關數據挖掘的知識內容,如降維方法、數據編碼、計算復雜度分析等。
本書內容豐富,可供理工科中應用數學、計算機科學、計算生物學、統計學等相關專業具有一定數學背景并對數據挖掘方法有興趣的高校教師、研究生使用,也可供從事機器學習與模式識別的相關領域研究的科研人員和數據挖掘工作者參考。
感謝在本書編寫過程中給予過我幫助、扶持和關心的朋友,同是也感謝我的妻子,每天承擔了許多家務,得讓我有時間來靜心工作,也感謝我的女兒,容忍了我由于睡眠而導致的有時性格的喜怒無常。
在本書撰寫時,參考了國內外學者所著的有關相關文獻,受益匪淺,特此向原作者致謝。由于作者水平有限,書中肯定存在不少疏漏與不足,懇請讀者批評指正。
羅澤舉
2014年8月于麗水學院