本書對數據挖掘的基本算法進行了系統介紹,不僅介紹了每種算法的基本原理,而且配有大量例題以及源代碼,并對源代碼進行了分析。這種理論與實踐相結合的方式有助于讀者較好地理解和掌握抽象的數據挖掘算法。 全書共11章,內容涵蓋了數據預處理、關聯規則挖掘算法、分類算法和聚類算法,具體章節包括緒論、數據預處理、關聯規則挖掘、決策樹分類算法、貝葉斯分類算法、人工神經網絡算法、支持向量機、Kmeans聚類算法、K中心點聚類算法、神經網絡聚類算法:SOM,以及數據挖掘的發展等內容。 本書可作為高等院校數據挖掘課程的教材,也可作為從事數據挖掘工作以及其他相關工程技術工作人員的參考書。
本書主要特色是理論與實踐相結合。全書不僅對數據挖掘常見算法的基本原理進行了詳細而系統的介紹,而且給出了其實現的源代碼和運行結果界面,讀者可以通過算法的源程序來深入理解算法的原理,這種理論與實踐相結合的方式,使讀者可以非常容易理解數據挖掘各個常見算法的含義,達到學以致用的目的。
對常見的數據挖掘算法,本書均以例題的方式進行了應用說明,并且對各算法的優缺點進行了總結,給出了各種算法的具體應用領域,這種方式可以很好地使讀者理解算法的原理和應用。
數據挖掘涉及數據庫技術、人工智能、統計學、機器學習等多學科領域,并且已經在各行各業有了非常廣泛的應用。為適應我國數據挖掘的教學工作,作者在數據挖掘教學實踐的基礎上,參閱了多種國內外最新版本的教材,編寫了本書。本書可以作為高等院校研究生的教材,也可以為相關行業的工程技術人員提供有益的參考。
本書在第2版的基礎上對其中欠妥之處進行了修改,內容安排和第2版一致,循序漸進地對數據挖掘原理進行了通俗易懂的講解,并更新了部分思考題、增加了微課視頻,讀者通過掃描二維碼即可觀看相關知識點的講解,更加方便讀者學習和理解。本書最大的特點是理論與實踐相結合,全書幾乎所有的算法都配有實例和源程序,這種理論與實踐相結合的方法克服了重理論、輕實踐的內容組織方式,便于讀者理解和掌握其中知識。具體而言,本書11章內容之間的關系如下圖所示。
本書配有教學課件,讀者可登錄www.tup.com.cn網站自行下載。
由于編者水平有限,本書難免存在缺點和不足之處,懇請專家和讀者批評指正。
編者
2023年9月
第1章緒論1
1.1數據挖掘的概念1
1.2數據挖掘的歷史及發展1
1.3數據挖掘的研究內容及功能5
1.3.1數據挖掘的研究內容5
1.3.2數據挖掘的功能6
1.4數據挖掘的常用技術及工具9
1.4.1數據挖掘的常用技術9
1.4.2數據挖掘的工具12
1.5數據挖掘的應用熱點13
1.6小結15
思考題15第2章數據預處理16
2.1數據預處理的目的16
2.2數據清理18
2.2.1填充缺失值18
2.2.2光滑噪聲數據18
2.2.3數據清理過程19
2.3數據集成和數據變換20
2.3.1數據集成20
2.3.2數據變換21
2.4數據歸約23
2.4.1數據立方體聚集23
2.4.2維歸約23
2.4.3數據壓縮24
2.4.4數值歸約25
2.4.5數據離散化與概念分層28
2.5特征選擇與提取31
2.5.1特征選擇31
2.5.2特征提取32
2.6小結33
思考題34第3章關聯規則挖掘35
3.1基本概念35
3.2關聯規則挖掘算法Apriori算法原理36
3.3Apriori算法實例分析38
3.4Apriori算法源程序分析41
3.5Apriori算法的特點及應用49
3.5.1Apriori算法特點49
3.5.2Apriori算法應用50
3.6小結51
思考題51第4章決策樹分類算法53
4.1基本概念53
4.1.1決策樹分類算法概述53
4.1.2決策樹分類算法步驟53
4.2決策樹分類算法ID3算法原理55
4.2.1ID3算法原理55
4.2.2熵和信息增益56
4.2.3ID3算法58
4.3ID3算法實例分析59
4.4ID3算法源程序分析63
4.5ID3算法的特點及應用70
4.5.1ID3算法特點70
4.5.2ID3算法應用71
4.6決策樹分類算法C4.5算法原理71
4.6.1C4.5算法71
4.6.2C4.5算法的偽代碼73
4.7C4.5算法實例分析74
4.8C4.5算法源程序分析76
4.9C4.5算法的特點及應用98
4.9.1C4.5算法特點98
4.9.2C4.5算法應用98
4.10小結99
思考題99第5章貝葉斯分類算法100
5.1基本概念100
5.1.1主觀概率100
5.1.2貝葉斯定理101
5.2貝葉斯分類算法原理1082
5.2.1樸素貝葉斯分類模型102
5.2.2貝葉斯信念網絡104
5.3貝葉斯算法實例分析107
5.3.1樸素貝葉斯分類器107
5.3.2貝葉斯信念網絡應用109
5.4貝葉斯算法源程序分析111
5.5貝葉斯算法特點及應用116
5.5.1樸素貝葉斯分類算法116
5.5.2貝葉斯信念網117
思考題118第6章人工神經網絡算法119
6.1基本概念119
6.1.1生物神經元模型119
6.1.2人工神經元模型120
6.1.3主要的神經網絡模型121
6.2BP算法原理123
6.2.1Delta學習規則的基本原理123
6.2.2BP神經網絡的結構123
6.2.3BP神經網絡的算法描述124
6.2.4標準BP神經網絡的工作過程126
6.3BP算法實例分析127
6.4BP算法源程序分析131
6.5BP算法的特點及應用139
6.5.1BP算法特點139
6.5.2BP算法應用141
6.6小結141
思考題141第7章支持向量機143
7.1基本概念143
7.1.1支持向量機理論基礎143
7.1.2統計學習核心理論143
7.1.3學習過程的一致性條件143
7.1.4函數集的VC維144
7.1.5泛化誤差界145
7.1.6結構風險最小化歸納原理145
7.2支持向量機原理146
7.2.1支持向量機核心理論146
7.2.2最大間隔分類超平面146
7.2.3支持向量機實現147
7.2.4核函數分類150
7.3支持向量機實例分析151
7.4支持向量機的特點及應用153
7.4.1支持向量機的特點153
7.4.2支持向量機的應用154
7.5小結155
思考題155第8章Kmeans聚類算法156
8.1簡介156
8.2Kmeans聚類算法原理156
8.3Kmeans聚類算法實例分析158
8.4Kmeans聚類算法源程序分析161
8.5Kmeans聚類算法的特點及應用167
8.5.1Kmeans聚類算法的特點167
8.5.2Kmeans聚類算法的應用168
8.6小結168
思考題169第9章K中心點聚類算法170
9.1簡介170
9.2K中心點聚類算法原理170
9.3K中心點聚類算法實例分析171
9.4K中心點聚類算法源程序分析172
9.5K中心點聚類算法的特點及應用179
9.5.1K中心點聚類算法的特點179
9.5.2K中心點聚類算法的應用179
9.6小結179
思考題180第10章神經網絡聚類算法SOM181
10.1簡介181
10.2競爭學習算法基礎181
10.2.1SOM網絡的結構181
10.2.2SOM網絡的原理182
10.3SOM算法原理184
10.3.1SOM網絡的拓撲結構184
10.3.2SOM權值調整域185
10.3.3SOM網絡運行原理186
10.3.4學習方法186
10.4SOM算法實例分析187
10.4.1問題描述187
10.4.2網絡設計及學習結果188
10.4.3結果輸出188
10.5SOM算法源程序分析189
10.6SOM算法的特點及應用198
10.6.1SOM算法的特點198
10.6.2SOM算法的應用198
10.7小結199
思考題199第11章數據挖掘的發展200
11.1Web數據挖掘200
11.1.1Web數據挖掘定義200
11.1.2Web數據挖掘分類200
11.1.3Web數據挖掘的數據源201
11.1.4Web數據挖掘中知識的分類203
11.1.5Web數據挖掘的關鍵問題204
11.2空間數據挖掘205
11.2.1空間數據挖掘的定義與特點205
11.2.2空間數據挖掘的體系結構205
11.2.3空間數據挖掘可獲得的知識類型206
11.2.4空間數據挖掘的方法208
11.3流數據挖掘211
11.3.1流數據的特點211
11.3.2流數據挖掘關鍵技術211
11.3.3流數據挖掘的實際應用及前景213
11.4數據挖掘與可視化技術213
11.4.1什么是可視化213
11.4.2數據可視化技術分類215
11.4.3數據挖掘可視化技術的應用217
11.5小結218
思考題218參考文獻219