本書的第1章,對數據挖掘的研究歷史和現狀、當前數據挖掘熱點做了簡要介紹;第2章為數據挖掘技術,對數據挖掘概念及功能、數據挖掘流程、數據挖掘工具、數據挖掘在醫學上的應用進行了描述;第3章介紹了主要的數據挖掘的算法及理論依據;第4章研究了因子分析在臨床檢驗中的應用,對大量臨床檢驗數據信息中的女性生化指標進行數據挖掘,為女性預防保健和評價女性健康水平提供參考依據;第5章分析了逐步聚類在血流變檢驗中的應用;第6章為逐步聚類在肺癌CT 圖像特征的應用研究,得到了孤立性肺結節肺癌患者的CT 圖像醫學特征分類;第7章是因子聚類分析在中風與血流變關系的應用研究;第8章是模糊聚類和Logistic回歸在試管嬰兒成功因素的應用;第9章為關聯規則在中風疾病與血流變關系中的應用;第10章為Apriori算法在試管嬰兒成功因素分析中的應用;第11章是灰色預測在女性膽固醇隨年齡變化中的應用,對女性健康保健和疾病有一定的預防意義。
本書對數據挖掘技術在醫學中的應用進行了研究,介紹了數據挖掘中的因子分析法、模糊聚類法、關聯規則方法、Logistic 回歸法、灰色預測方法理論基礎。
全書以醫學信息挖掘為主線,運用以上五種方法或多種方法的結合對醫學數據(中風患者的血流變數據、肺癌圖像、試管嬰兒成功數據、女性膽固醇數據等)進行了數據挖掘,包括數據采集、數據預處理、數據挖掘與分析、數據挖掘結果分析,并提出相應的建議。定量地描述疾病與臨床數據指標之間的關系,為提高疾病診斷的準確性提供新的思路。
張維朋,中國礦業大學電路與系統碩士研究生,現于寧波大紅鷹學院任教,副教授,研究方向為數據挖掘技術。近年主持國家星火計劃項目1 項,浙江省公益項目2 項,市廳級項目多項,以di一作者發表SCI/EI 收錄核心論文10 余篇,并參與guo家級、省部級項目10 余項,指導學生參加第十四屆“挑戰杯”全國大學生課外學術科技作品競賽“智慧城市”專項賽獲三等獎。
徐穎,河北大學計算機應用技術碩士研究生,現于寧波大紅鷹學院任教,講師,研究方向為數據分析、數據挖掘。善于定量分析各種結構化與非結構化數據,科研經驗較豐富。近年來發表核心論文1 篇,主持并完成市廳級項目3 項,在研市廳級課題1 項,參與guo家級課題1 項,市廳級課題多項。
目 錄
第1章 緒論……………………………………………………………………… 1
1.1 引言……………………………………………………………………… 1
1.2 數據挖掘的研究歷史和現狀…………………………………………… 2
1.3 當前數據挖掘的研究熱點……………………………………………… 4
第2章 數據挖掘技術………………………………………………………… 5
2.1 數據挖掘的定義………………………………………………………… 5
2.2 數據挖掘系統的主要成分……………………………………………… 5
2.3 數據挖掘的功能………………………………………………………… 6
2.4 數據挖掘的流程………………………………………………………… 8
2.5 數據挖掘在醫學領域的應用…………………………………………… 11
2.6 數據挖掘系統工具……………………………………………………… 12
第3章 數據挖掘的算法及依據…………………………………………… 17
3.1 聚類……………………………………………………………………… 17
3.2 模糊理論與聚類的結合………………………………………………… 20
3.3 因子分析………………………………………………………………… 23
3.4 Logistic回歸…………………………………………………………… 26
3.5 關聯規則………………………………………………………………… 28
3.6 灰色預測………………………………………………………………… 31
第4章 女性生化指標的因子分析………………………………………… 35
4.1 因子分析在女性生化指標中的應用意義……………………………… 35
4.2 因子分析在臨床檢驗中的應用過程…………………………………… 36
4.3 結果分析………………………………………………………………… 40
4.4 結論和討論……………………………………………………………… 41
第5章 逐步聚類在血流變檢驗中的應用………………………………… 43
5.1 研究血流變指標的臨床意義…………………………………………… 43
5.2 將數據挖掘技術引入血流變的應用…………………………………… 44
5.3 逐步聚類基本原理……………………………………………………… 45
5.4 原始數據的準備工作…………………………………………………… 46
5.5 原始數據預處理………………………………………………………… 48
5.6 逐步聚類步驟…………………………………………………………… 52
5.7 逐步聚類結果…………………………………………………………… 58
5.8 逐步聚類方法的優缺點………………………………………………… 64
5.9 結果分析………………………………………………………………… 65
5.10 運用方差分析驗證聚類結果的可靠性……………………………… 69
第6章 逐步聚類在肺癌CT圖像特征的應用研究…………………… 75
6.1 孤立性肺結節肺癌與CT 圖像特征關系研究現狀及意義…………… 75
6.2 研究方法………………………………………………………………… 76
6.3 結果分析………………………………………………………………… 80
6.4 討論……………………………………………………………………… 81
第7章 因子分析與聚類方法在中風與血流變關系的應用研究…… 82
7.1 中風與血流變關系的應用研究的意義………………………………… 82
7.2 研究方法………………………………………………………………… 83
7.3 結果分析………………………………………………………………… 88
7.4 結論和討論……………………………………………………………… 89
第8章 模糊聚類和Logistic回歸在試管嬰兒成功因素的應用……… 90
8.1 研究背景及現狀………………………………………………………… 90
8.2 數據預處理……………………………………………………………… 91
8.3 建立Logistic回歸模型………………………………………………… 93
8.4 關鍵因素的相對重要性分析…………………………………………… 94
8.5 樣本的模糊聚類過程…………………………………………………… 99
8.6 兩組患者的醫學特征比較…………………………………………… 101
8.7 主要結論……………………………………………………………… 103
第9章 關聯規則在中風疾病與血流變關系中的應用……………… 105
9.1 研究中風疾病的意義………………………………………………… 105
9.2 關聯規則在醫學中研究現狀………………………………………… 105
9.3 關聯規則的分析過程………………………………………………… 106
9.4 中風疾病與血流變關系的關聯規則結果分析……………………… 111
9.5 結論和討論…………………………………………………………… 112
第10章 Apriori算法在試管嬰兒成功因素分析中的應用…………… 114
10.1 試管嬰兒成功因素研究的意義……………………………………… 114
10.2 試管嬰兒成功率關聯規則的獲取…………………………………… 115
10.3 試管嬰兒成功因素結果分析………………………………………… 117
10.4 結論和討論…………………………………………………………… 118
第11章 灰色預測在女性膽固醇隨年齡變化中的應用……………… 120
11.1 研究女性膽固醇隨年齡變化的的意義……………………………… 120
11.2 GM (1,1)模型原理……………………………………………… 121
11.3 數據的收集與數據整理……………………………………………… 122
11.4 灰色GM (1,1)預測模型的建立………………………………… 122
11.5 模型檢驗……………………………………………………………… 124
11.6 模型檢驗評價………………………………………………………… 125
11.7 外推預測……………………………………………………………… 126
11.8 結果分析……………………………………………………………… 126
11.9 結論與討論…………………………………………………………… 127
第12章 總結與展望………………………………………………………… 129
12.1 總結…………………………………………………………………… 129
12.2 展望…………………………………………………………………… 130
附錄A 中風患者血流變數據指標值……………………………………… 131
附錄B 孤立性肺結節圖像特征…………………………………………… 151
附錄C 試管嬰兒培育情況表……………………………………………… 154
參考文獻………………………………………………………………………… 162