本書是一本全面介紹數據挖掘和知識發現技術的專業書籍,系統地闡述了數據挖掘和知識發現技術的產生、發展、應用以及相關概念、原理和算法,對數據挖掘中的主要技術分支,包括關聯規則、分類、聚類、序列、空間以及Web挖掘等進行了理論剖析和算法描述。本書的許多內容是作者們在攻讀博士學位期間的工作總結,一方面,對于相關概念和技術的闡述盡量先從理論分析入手,在此基礎上進行技術歸納; 另一方面,為了保證技術的系統性,所有的挖掘模型和算法描述都在統一的技術歸納框架下進行。同時,為了避免抽象算法描述給讀者帶來的理解困難,本書的所有典型算法都通過具體跟蹤執行實例來進一步說明。 全書共分8章,各章相對獨立成篇,以利于讀者選擇性學習。在每章后面都設置專門一節來對本章內容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關內容進行整理,而且也起到對本章內容相關文獻的注釋性索引功能。 本書可作為計算機專業研究生或高年級本科生教材,也可以作為從事計算機研究和開發人員的參考資料。作為教材,教師可以根據課時安排進行選擇性教學。為了更好地讓教師進行選擇性教學,本書配有專門的教師用書,對內容的重點、難點和課時分配給出了對應的建議,對重要的和難度較大的習題進行了分析和解答。對于研究人員,本書是一本高參考價值的專業書籍。對于軟件技術人員,可以把它當作提高用書或參考資料,一些算法可以通過改造用于實際的應用系統中。
《數據挖掘原理與算法(第3版)》在經典教材的基礎上,重點增加了大數據挖掘等新的數據挖掘的需求和技術分析,對Web挖掘的內容進行了重新編排,并增加了必要的新方法。近年來出現的公認的典型算法和技術也得到加強,使之很好地適應讀者在教學或者學習中的新需求。
本書內容相對全面,各章之間耦合度小。作為教材,教師可以根據學生類型、學時安排等進行選擇性教學。作為參考書,讀者可以根據自己的基礎進行選擇性學習或查閱。在每章后面都設置專門一節來對本章內容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關內容進行整理,而且對讀者,特別是研究人員,也起到文獻的注釋性索引功能。
此商品有兩種封面,隨機發貨。
《數據挖掘原理與算法》經過第1版和第2版,歷經十幾年的歷程,得到了研究者、教師、學生及計算機從業者的肯定和鼓勵,在此表示衷心的感謝。據不完全統計,前兩版已經被國內二十多所高校作為研究生或者本科生教材使用。在使用過程中,許多人也對第2版中的文字錯誤、內容編排等提出一些很好的建議。加之數據挖掘技術本身的發展對再次改版提出了強烈需求。第3版除了對必要的文字等錯誤進行修正外,重點增加了大數據挖掘等新的數據挖掘的需求和技術分析,對Web挖掘的內容進行了重新編排,并增加了必要的新方法。這樣,第3版的內容及其編排更趨合理,近年來出現的公認的典型算法和技術也得到加強,使之很好地適應讀者在教學或者學習中的新需求。
數據庫技術從20世紀80年代開始,已經得到廣泛的普及和應用。隨著數據庫容量的膨脹,特別是數據倉庫以及Web等新型數據源的日益普及,人們面臨的主要問題不再是缺乏足夠的信息可以使用,而是面對浩瀚的數據海洋如何有效地利用這些數據。面對這一挑戰,數據挖掘和知識發現技術應運而生,并顯示出強大的生命力。數據挖掘和知識發現使數據處理技術進入了一個更高級的階段。它不僅能對過去的數據進行查詢,而且能夠找出過去數據之間的潛在聯系,進行更高層次的分析,以便更好地解決決策、預測等問題。歷經十幾年的發展,數據挖掘技術本身已經積累了一批有價值的理論和技術成果。同時,包括統計學、人工智能等在內的相關學科的發展,從某種程度上對數據挖掘技術的發展起到了極大的推動作用。根據麻省理工學院的《科技評論》評估,“數據挖掘”技術是對未來人類產生重大影響的十大新興技術之一。毫不夸張地說,如今的數據挖掘已經成為計算機、信息科學以及相關領域的一個時髦名詞,而且在諸如銀行、電信、保險、交通、零售(如超級市場)以及天文學、分子生物學等領域得到應用。可以預見,隨著大數據概念的提出和應用,數據挖掘也必將是支撐大數據分析的最重要和最核心的技術之一。
誠然,要真正理解數據挖掘技術并不是一件容易的事。一方面,數據挖掘技術覆蓋范圍很廣泛,需要從理論到應用、從概念到算法的完整過程; 另一方面,作為比較新的交叉研究領域,不同背景的研究人員(數據庫、人工智能、數學等)可能提供不同的視點,而且本身仍在發展中。本書第一作者長期從事相關方面的教學工作,其中面臨的問題之一就是教材的選擇。由于目前相關書籍較少,而且側重點不同,內容的完整性和科學性有待商榷。由于沒有合適的教材可用,在教學的初期不得不通過指定大量參考書或文獻來解決,之后也采用補充講義的形式來擴充。同時,對于一些軟件工程師或工程碩士、在職碩士進修班等要求提高實踐能力的人員來說,也需要在科學的理論(原理)框架下理解和掌握數據挖掘技術。基于這樣的要求,第一作者在多年各類教學和軟件工程的實踐基礎上,對積累的素材進行了整理和加工,并且邀請段立娟博士、王實博士和石云博士參與本書的編寫。本書的許多內容是作者們在攻讀博士學位期間的工作總結。這些保證了本書的系統性、先進性和實用性。
本書可作為計算機專業研究生教材、高年級本科生的選修教材,也可以作為從事計算機研究和開發人員的參考資料。為了保證內容的先進性和深度,對重點內容進行了重點闡述。本書內容相對全面,各章之間耦合度小。作為教材,教師可以根據學生類型、學時安排等進行選擇性教學。作為參考書,讀者可以根據自己的基礎進行選擇性學習或查閱。在每章后面都設置專門一節來對本章內容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關內容進行整理,而且對讀者,特別是研究人員,也起到文獻的注釋性索引功能。本書的所有典型算法都通過具體跟蹤執行實例來進一步說明,這對于讀者正確理解和應用算法是有益的。對于工程技術人員來說,這些算法完全可以在理解的基礎上進行改進或改造應用到實際工作中。
全書共8章。第1章是緒論,系統地介紹了數據挖掘的概念、產生背景以及應用價值; 第2章給出了知識發現的過程分析和應用體系結構設計,并對數據挖掘應用系統的主要功能部件和關鍵步驟進行了較為詳盡的剖析; 第3章全面闡述了關聯規則挖掘的原理和算法,并對一些新的焦點問題(如多維、數量、約束關聯規則挖掘)的最新成果盡可能地加以介紹; 第4章給出分類的主要理論和算法描述; 第5章討論聚類的常用技術和算法; 第6章對時間序列分析技術和序列挖掘算法進行論述; 第7章系統地介紹了Web挖掘的主要研究領域和相關技術及算法; 第8章是對空間數據挖掘技術和算法的分析和講解。
特別感謝北京工業大學劉椿年教授和中國科學院高文和孫玉方研究員,作為作者的導師,他們在作者攻讀博士學位期間對本書素材的積累提供了極大的幫助。本書也凝聚了北京工業大學和中央財經大學一些研究生的心血,他們在本書算法實例整理和驗證等方面做了很多工作,在此就不一一列舉了。此外,也感謝使用第2版圖書的教師和學生,他們的使用給予我們進一步編好該書的動力,同時提出的許多意見也提升了第3版內容編排的質量。
作者2015年9月于北京
第1章緒論
1.1數據挖掘技術的產生與發展
1.1.1數據挖掘技術的商業需求分析
1.1.2數據挖掘產生的技術背景分析
1.1.3大數據時代的數據挖掘技術需求分析
1.2數據挖掘研究的發展趨勢
1.3數據挖掘概念
1.3.1從商業角度看數據挖掘技術
1.3.2數據挖掘的技術含義
1.3.3數據挖掘研究的理論基礎
1.4數據挖掘技術的分類問題
1.5數據挖掘常用的知識表示模式與方法
1.5.1廣義知識挖掘
1.5.2關聯知識挖掘
1.5.3類知識挖掘
1.5.4預測型知識挖掘
1.5.5特異型知識挖掘
1.6不同數據存儲形式下的數據挖掘問題
1.6.1事務數據庫中的數據挖掘
1.6.2關系型數據庫中的數據挖掘
1.6.3數據倉庫中的數據挖掘
1.6.4在關系模型基礎上發展的新型數據庫中的
數據挖掘
1.6.5面向應用的新型數據源中的數據挖掘
1.6.6Web數據源中的數據挖掘
1.7粗糙集方法及其在數據挖掘中的應用
1.7.1粗糙集的一些重要概念
1.7.2粗糙集應用舉例
1.7.3粗糙集方法在KDD中的應用范圍
1.8數據挖掘的應用分析
1.8.1數據挖掘與CRM
1.8.2數據挖掘與社會網絡
1.8.3數據挖掘應用的成功案例分析
1.9本章小結和文獻注釋
習題1
第2章知識發現過程與應用結構
2.1知識發現的基本過程
2.1.1數據抽取與集成技術要點
2.1.2數據清洗與預處理技術要點
2.1.3數據的選擇與整理技術要點
2.1.4數據挖掘技術要點
2.1.5模式評估技術要點
2.2數據庫中的知識發現處理過程模型
2.2.1階梯處理過程模型
2.2.2螺旋處理過程模型
2.2.3以用戶為中心的處理模型
2.2.4聯機KDD模型
2.2.5支持多數據源多知識模式的KDD處理模型
2.3知識發現軟件或工具的發展
2.3.1獨立的知識發現軟件
2.3.2橫向的知識發現工具集
2.3.3縱向的知識發現解決方案
2.3.4KDD系統介紹
2.4知識發現項目的過程化管理
2.5數據挖掘語言介紹
2.5.1數據挖掘語言的分類
2.5.2數據挖掘查詢語言
2.5.3數據挖掘建模語言
2.5.4通用數據挖掘語言
2.5.5DMQL挖掘查詢語言介紹
2.6本章小結和文獻注釋
習題2
第3章關聯規則挖掘理論和算法
3.1基本概念與解決方法
3.2經典的頻繁項目集生成算法分析
3.2.1項目集空間理論
3.2.2經典的發現頻繁項目集算法
3.2.3關聯規則生成算法
3.3Apriori算法的性能瓶頸問題
3.4Apriori的改進算法
3.4.1基于數據分割的方法
3.4.2基于散列的方法
3.4.3基于采樣的方法
3.5項目集空間理論的發展
3.5.1Close算法
3.5.2FPtree算法
3.6項目集格空間和它的操作
3.7基于項目集操作的關聯規則挖掘算法
3.7.1關聯規則挖掘空間
3.7.2三個實用算子
3.7.3大頻繁項目集格的生成算法
3.7.4ISSDM算法執行示例
3.8改善關聯規則挖掘質量問題
3.8.1用戶主觀層面
3.8.2系統客觀層面
3.9約束數據挖掘問題
3.9.1約束在數據挖掘中的作用
3.9.2約束的類型
3.10時態約束關聯規則挖掘
3.11關聯規則挖掘中的一些更深入的問題
3.11.1多層次關聯規則挖掘
3.11.2多維關聯規則挖掘
3.11.3數量關聯規則挖掘
3.12數量關聯規則挖掘方法
3.12.1數量關聯規則挖掘問題
3.12.2數量關聯規則的分類
3.12.3數量關聯規則挖掘的一般步驟
3.12.4數值屬性離散化問題及算法
3.13本章小結和文獻注釋
習題3
第4章分類方法
4.1分類的基本概念與步驟
4.2基于距離的分類算法
4.3決策樹分類方法
4.3.1決策樹基本算法概述
4.3.2ID3算法
4.3.3C4.5算法
4.4貝葉斯分類
4.4.1貝葉斯定理
4.4.2樸素貝葉斯分類
4.4.3EM算法
4.5規則歸納
4.5.1AQ算法
4.5.22算法
4.5.3FOIL算法
4.6與分類有關的其他問題
4.6.1分類數據預處理
4.6.2分類器性能的表示與評估
4.7本章小結和文獻注釋
習題4
第5章聚類方法
5.1概述
5.1.1聚類分析在數據挖掘中的應用
5.1.2聚類分析算法的概念與基本分類
5.1.3距離與相似性的度量
5.2劃分聚類方法
5.2.1k平均算法
5.2.2PAM
5.2.3其他方法
5.3層次聚類方法
5.3.1AGNES算法
5.3.2DIANA算法
5.3.3其他聚類方法
5.4密度聚類方法
5.5其他聚類方法
5.5.1STING算法
5.5.2SOM算法
5.5.3COBWEB算法
5.5.4模糊聚類算法FCM
5.6本章小結和文獻注釋
習題5
第6章時間序列和序列模式挖掘
6.1時間序列及其應用
6.2時間序列預測的常用方法
6.2.1確定性時間序列預測方法
6.2.2隨機時間序列預測方法
6.2.3其他方法
6.3基于ARMA模型的序列匹配方法
6.3.1基本概念
6.3.2利用基本概念建立模型
6.3.3構造判別函數
6.4基于離散傅里葉變換的時間序列相似性查找
6.4.1完全匹配
6.4.2子序列匹配
6.5基于規范變換的查找方法
6.5.1基本概念
6.5.2查找方法
6.6序列挖掘
6.6.1基本概念
6.6.2數據源的形式
6.6.3序列模式挖掘的一般步驟
6.7AprioriAll算法
6.8AprioriSome算法
6.9GSP算法
6.10本章小結和文獻注釋
習題6
第7章Web挖掘技術
7.1Web挖掘的意義
7.2Web挖掘的分類
7.3Web挖掘的含義
7.3.1Web挖掘與信息檢索
7.3.2Web挖掘與信息抽取
7.4Web挖掘的數據來源
7.4.1服務器日志數據
7.4.2在線市場數據
7.4.3Web頁面
7.4.4Web頁面超鏈接關系
7.4.5其他信息
7.5Web內容挖掘方法
7.5.1爬蟲與Web內容挖掘
7.5.2虛擬的Web視圖
7.5.3個性化與Web內容挖掘
7.5.4對Web頁面內文本信息的挖掘
7.5.5對Web頁面內多媒體信息挖掘
7.5.6Web頁面內容的預處理
7.6Web訪問信息挖掘方法
7.6.1Web訪問信息挖掘的特點
7.6.2Web訪問信息挖掘的意義
7.6.3Web訪問信息挖掘的數據源
7.6.4Web訪問信息挖掘的一般過程
7.6.5Web訪問信息挖掘的數據清理
7.6.6用戶識別方法
7.6.7會話識別方法
7.6.8其他預處理技術
7.6.9Web訪問挖掘的應用方法
7.6.10Web訪問信息挖掘的要素構成
7.6.11Web訪問信息挖掘應用
7.7Web結構挖掘方法
7.7.1頁面等級(分級)的評價方法
7.7.2PageRank算法
7.7.3頁面和中心頁面
7.7.4Web站點結構的預處理
7.8本章小結和文獻注釋
習題7
第8章空間挖掘
8.1引言
8.2空間數據概要
8.2.1空間數據的復雜性特征
8.2.2空間查詢問題
8.2.3空間數據結構
8.2.4專題地圖
8.3空間數據挖掘基礎
8.4空間統計學
8.5泛化與特化
8.5.1逐步求精
8.5.2泛化
8.5.3臨近方法
8.5.4統計信息網格方法
8.6空間規則
8.7空間分類算法
8.7.1ID3擴展
8.7.2空間決策樹
8.8空間聚類算法
8.8.1基于隨機搜索的聚類方法CLARANS擴展
8.8.2大型空間數據庫基于距離分布的聚類算法DBCLASD
8.8.3BANG
8.8.4小波聚類
8.8.5近似值
8.9空間挖掘的其他問題
8.10空間數據挖掘原型系統介紹
8.11空間數據挖掘的研究現狀
8.12空間數據挖掘的研究與發展方向
8.13空間數據挖掘與相關學科的關系
8.13.1空間數據挖掘與空間數據庫
8.13.2空間數據挖掘與空間數據倉庫
8.13.3空間數據挖掘與空間聯機分析處理
8.13.4空間數據挖掘與地理信息系統
8.14數字地球
8.15本章小結和文獻注釋
習題8
參考文獻