《復雜數據分析方法及其應用研究》主要從數據挖掘與商務智能的角度,系統地介紹了如何利用復雜數據分析的相關理論和方法來提升復雜事件的識別和預測的效果,同時還結合實際應用問題說明了復雜數據分析的應用過程。主要內容包括復雜數據分析方法綜述、基于局部支持向量數據描述的復雜數據分析算法研究、類重疊問題及其處理方法研究、一致性分類方法研究和復雜概念分析應用研究等。
《復雜數據分析方法及其應用研究》可供從事數據挖掘與商務智能研究和應用的科研人員及高等院校信息管理與信息系統專業、管理科學與工程等相關專業師生參考使用。
復雜事件如金融欺詐、網絡入侵、設備故障等是各類組織長期關注的管理難題,其突發性和破壞性可能給組織帶來難以估量的損失。在實踐需求的推動下,復雜數據分析研究迅速成為數據挖掘領域的熱點問題,并廣泛應用于網絡入侵檢測、C2C電子商務共謀欺詐識別等實踐問題。現有的復雜數據分析方法往往將問題局限在數據表面特征問題上,忽略了數據的固有結構特點,只能在一定程度上解決復雜數據分析問題,當將其應用于復雜結構數據,或者稱為數據中的復雜概念時,往往效果欠佳。
本書的目的是期望對復雜數據分析的方法及其應用等進行系統研究。全書共分6章,內容安排如下:
第1章對復雜數據分析的背景知識和相關研究分析方法進行了介紹,分別從類不均衡問題、類重疊問題和集成學習問題三個角度進行了闡述。同時還對本書采用的研究方法、研究內容和結構進行了說明。第2章對相關方法進行了綜述,主要包括復雜數據分析的理論研究、算法研究和評價指標研究。第3章介紹了基于局部支持向量數據描述的復雜數據分析方法,針對每個類別的樣本進行單類學習獲得單類模型,然后利用單類模型確定類重疊區域,并針對類重疊區域進行局部單類學習,最后優化綜合分類模型,從而獲得對數據邊界描述更加精確的模型,提高復雜數據分析精度。第4章系統地研究了分類中的類重疊問題,討論類重疊問題及其處理方法研究,提出了四種類重疊學習算法,分別是舍棄法、合并法、層次法和分隔法。第5章主要介紹了一致性分類方法,在AdaBoost的基礎上提出一種基于局部聚類的組合復雜數據分析方法,通過局部聚類將數據轉換成較為均衡的形式,然后通過改進權重更新機制的Ada-Boost算法進行學習。討論了知識地圖的相關概念和知識地圖在知識檢索中的應用等內容。第6章則以實際應用為背景,對復雜數據分析方法的應用進行了研究,利用實際的網絡入侵檢測和C2C電子商務共謀欺詐數據集對復雜數據分析方法的應用過程進行了介紹。最后對本書介紹的復雜數據分析方法及其應用研究進行了系統的歸納總結。
第一章 緒論
1.1 背景介紹
1.1.1 類不均衡問題
1.1.2 類重疊問題
1.1.3 集成學習問題
1.2 相關研究分析
1.2.1 復雜數據研究分析
1.2.2 類重疊問題研究分析
1.2.3 集成學習研究分析
1.3 研究意義與目的
1.4 研究方法與研究內容
1.4.1 研究方法
1.4.2 研究內容與本書結構
第二章 相關研究綜述
2.1 復雜數據分析的理論研究
2.2 復雜數據分析的算法研究
2.2.1 重抽樣
2.2.2 成本敏感學習
2.2.3 集成學習方法
2.2.4 劃分方法
2.2.5 調整歸納偏置
2.2.6 單類學習
2.2.7 特征選擇方法
2.2.8 其他方法
2.3 復雜數據分析的評價指標研究
2.3.1 點指標
2.3.2 圖指標
2.4 本章小結
第三章 基于局部支持向量數據描述的復雜數據分析算法研究
3.1 引言
3.2 數據固有結構對復雜數據分析算法的影響
3.3 支持向量數據描述的原理及算法
3.4 基于局部支持向量數據描述的復雜數據分析算法
3.5 本章小結
第四章 類重疊問題及其處理方法研究
4.1 引言
4.2 基本分類算法介紹
4.2.1 樸素貝葉斯(NB)
4.2.2 K最近鄰法(k-NN)
4.2.3 支持向量機(SVMs)
4.2.4 決策樹C4.5
4.2.5 規則分類器(RIPPER)
4.3 類重疊問題對分類的影響
4.4 類重疊學習框架
4.4.1 SVDD:重疊區域識別方法
4.4.2 NB:重疊區域識別方法
4.4.3 類重疊問題的處理算法
4.5 基于SVMs的分析
……
第五章 一致性分類方法研究
第六章 復雜數據分析應用研究
結論
參考文獻