主要研究內容與特色: (1) 利用文本挖掘和專家經驗構建機器學習關鍵問題分析框架,總結機器學習在醫療大數據挖掘中面臨的若干關鍵問題。 (2) 利用簡約核構建面向不完整視角問題的高效機器學習方法。 (3) 利用非對稱損失函數構建面向類別不平衡問題的機器學習與深度學習方法。讀者對象: 從事人工智能、機器學習、醫療大數據分析方向的學術界與工業界的相關人士。 (4)圍繞不完整視角與類別不平衡這兩個關鍵問題展開深入研究,有效提升了醫學診斷的決策效率。
本書圍繞醫療大數據挖掘中的熱點問題,展開深入的理論與應用研究,可有效地輔助醫學診斷。有助于減少專業醫師的培訓成本,為醫學診斷提供有效的輔助工具,進而改善醫療資源分配不均的現象,并為人類的生命健康做出重要貢獻。
隨著計算機技術的飛速發展,醫療信息的規模性和豐富性顯著增強,機器學習成為賦能醫療大數據的核心技術。但不可否認的是,基于機器學習的醫療大數據挖掘仍然面臨諸多挑戰。本書從實際出發,研究機器學習在醫療大數據挖掘中的問題與方法,一方面希望所研究成果豐富并完善相應領域的理論研究與方法體系,另一方面希望能在實際的醫療大數據挖掘中得到有效應用,為醫學工作者提供有效的輔助診斷工具,有助于疾病的早預防、早發現、早治療,提升臨床決策的效率。大量實驗證實本研究能夠快速、準確地完成醫療大數據的分析任務,但這并不意味著機器學習能夠取代醫學專家的地位。嚴格來說,兩者相輔相成。首先,在數據的準備階段,需要依賴專家的經驗對數據進行標注;其次,在模型的構建階段,融入專家的經驗知識有望取得比現有方法更優的性能;最后,在決策階段,模型得到的預測結果需要經過專家的解釋和認可才能用于臨床實踐。
本書具體內容設置如下:首先提出一個結合文本挖掘與專家經驗的機器學習問題分析框架,利用該框架詳細分析并討論醫療大數據挖掘的研究現狀,總結機器學習在醫療大數據中面臨的關鍵問題,然后對這些機器學習問題和相應的機器學習方法進行描述,并針對多視角學習和類別不平衡學習深入研究。
在此基礎之上,未來的研究可從以下幾個方面展開。
(1)優化算法角度:本書使用的數據體量有限,隨著醫療數據維度和規模的爆炸式增長,設計針對高維以及大規模問題的有效求解算法具有迫切的現實意義。
(2)模型推廣角度:本書面向分類任務構建模型,未來可考慮將任務推廣至回歸或聚類任務中。另外,可將模型與其他學習范式結合,如多標簽學習、多示例學習、偏標記學習等,旨在提升模型解決復雜問題的能力。
(3)拓廣應用角度:本書主要為機器學習在醫療大數據挖掘中面臨的不完整視角問題與類別不平衡問題提供解決方案。事實上,該領域還存在諸多亟待解決的問題,如數據標注問題、隱私問題等。根據這些問題的特性設計不同的模型和算法將有助于完善機器學習在醫療大數據挖掘中的理論與應用。
(4)法律監管角度:機器學習作為人工智能的核心技術,是目前各行各業最炙手可熱的賽道,醫療領域自然也不例外。但由于醫療數據與人類生命健康密切相關,任何技術的誤用或濫用都可能導致無法挽回的損失。基于此,明確并制定機器學習在醫療大數據挖掘中的法律規范、責任歸屬以及操作標準將成為該領域長足發展的必要條件。
本書可作為機器學習領域研究生的擴充閱讀資料,也可供醫療大數據領域正在進行理論研究和應用研究的讀者參考。本書得到北京郵電大學經濟管理學院、中國科學院大學經濟與管理學院、中國科學院虛擬經濟與數據科學研究中心、中國科學院大數據挖掘與知識管理重點實驗室等單位的支持,以及國家自然科學基金(項目編號:12071458,71901179)及北京郵電大學中央高校基本科研業務專項基金(項目編號:2023RC10)的資助,在此一并感謝!
由于著者水平有限,書中難免有不妥之處,懇請讀者批評指正。
著 者
2023年6月
付賽際,北京郵電大學講師。研究方向:醫療大數據挖掘、機器學習與最優化。近年來在Information Sciences, Knowledge-Based Systems, Information Processing & Management發表論文10余篇。現任Annals of Data Science編委。參加國家自然科學基金面上項目、重點項目若干項。
第1章 醫療大數據挖掘 1
1.1?醫療大數據 1
1.2 醫療大數據文獻分析 4
1.2.1 數據準備 4
1.2.2 文本挖掘 5
1.2.3 專家經驗 5
1.3 挖掘現狀與關鍵問題 10
1.3.1 醫學圖像分類 10
1.3.2 醫學圖像檢測 17
1.3.3 醫學圖像分割 20
1.3.4 醫學圖像生成 23
1.3.5 關鍵問題 25
第2章 機器學習問題 28
2.1 二分類問題 28
2.2 多分類問題 29
2.3 多標簽分類問題 30
2.4 多視角分類問題 31
2.5 多示例分類問題 31
2.6 多任務分類問題 33
2.7 遷移學習問題 34
2.8 弱監督分類問題 34
2.9 數據生成問題 35
第3章 機器學習方法 37
3.1 傳統機器學習方法 37
3.1.1 k近鄰 37
3.1.2 樸素貝葉斯 38
3.1.3 決策樹 40
3.1.4 隨機森林 41
3.1.5 自適應增強 41
3.1.6 支持向量機 42
3.2 深度學習方法 44
3.2.1 CNN 44
3.2.2 RNN 46
3.2.3 GAN 46
第4章 多視角學習 48
4.1 多視角學習方法 48
4.1.1 基于完整視角的學習方法 48
4.1.2 基于不完整視角的學習方法 50
4.2 基礎模型 53
4.2.1 RSVM 53
4.2.2 PSVM-2V 54
4.3 RPSVM-2V 55
4.4 理論分析 58
4.5 拓展模型 60
4.5.1 RSVM-2K 60
4.5.2 RMKL 62
4.6 實驗分析 64
4.6.1 實驗設置 64
4.6.2 實驗結果 65
4.6.3 參數敏感性分析 71
4.6.4 譜分析 74
第5章 類別不平衡學習(一) 77
5.1 類別不平衡學習方法 77
5.1.1 采樣 77
5.1.2 代價敏感學習 78
5.1.3 集成學習 79
5.2 DEC 81
5.3 修正Stein損失函數 81
5.4 CSMS 83
5.5 理論分析 86
5.6 模型優化 86
5.7 實驗分析 88
5.7.1 實驗設置 88
5.7.2 實驗結果 89
5.7.3 參數敏感性分析 93
5.7.4 收斂性分析 93
第6章 類別不平衡學習(二) 98
6.1 v-SVM 98
6.2 LINEX損失函數 99
6.3 v-CSSVM 99
6.4 理論分析 101
6.5 模型優化 102
6.5.1 ADMM 102
6.5.2 GD 104
6.6 實驗分析 105
6.6.1 實驗設置 105
6.6.2 實驗結果 106
6.6.3 參數敏感性分析 109
6.6.4 收斂性分析 110
第7章 類別不平衡學習(三) 113
7.1 深度學習中的類別不平衡損失函數 113
7.1.1 WCE 114
7.1.2 FL 114
7.1.3 其他 115
7.2 深度LINEX損失函數 116
7.2.1 BC-LINEX 116
7.2.2 MC-LINEX 117
7.2.3 損失函數比較 119
7.3 模型優化 120
7.3.1 BC-LINEX權重更新 120
7.3.2 MC-LINEX權重更新 121
7.4 實驗分析 122
7.4.1 實驗設置 122
7.4.2 實驗結果 125
7.4.3 參數敏感性分析 130
附錄A 132
A.1 定理4.1證明 132
A.2 定理4.2證明 132
A.3 第4章附表 135
附錄B 148
B.1 第5章附表 148
附錄C 150
C.1 定理6.1證明 150
C.2 第6章附表 152
參考文獻 155