本書介紹數據挖掘的基本技術和相應的算法,突出案例的示范作用,并用R語言實現.旨在緊扣重大科技突破和新興市場對大數據分析的需求,從高維海量數據中挖掘有用的信息,形成可運行的智能算法,解決實際問題,給業界帶來實際的豐厚回報,不斷拓展新的產業領域,延伸產業鏈條,形成集群發展、多點支撐的戰略性新興產業發展格局.
全書共9章,分別介紹了R語言基礎、關聯規則的挖掘、感知機、樸素貝葉斯算法、K近鄰法、決策樹、支持向量機、提升算法和隱馬爾可夫模型.本書為專業學位研究生所編寫,也可以作為統計、金融數學、計算機科學和計算機軟件專業的本科生教材,還可以作為零基礎讀者的自學教材.各章自成體系,讀者可以從頭逐章學習,也可隨意挑選自己所需要的章節學習.
前言
隨著信息技術的革命性發展,人類社會已經進入了大數據時代,未來各行業
的核心競爭力在很大程度上依賴于將數據轉化為信息和知識的速度和能力,
這取決于數據挖掘的應用水平.數據挖掘可以解決眾多國家重大需求問題,提
供了社會科學的方法論;
實現基于數據的決策,支持管理科學與實踐的革命
;
提供科學研究的新范式,支持基于數據的科學發現;
形成高新科技的新
領域,推動行業深化發展并形成大數據產業;
形成社會進步的新引擎,深刻
改變人們的思維、生產、生活方式,推動社會的進步.任何地區或國家要想獲
得競爭優勢,數據挖掘技術是一個極具戰略價值的領域.
數據挖掘的核心是從高維、海量的大數據中提取有用的信息,解決實際問題
,給業界帶來實際的豐厚回報.這一事實使得數據挖掘非常適合于今天的大數
據時代.如果沒有數據挖掘,要跟上海量信息數據流的步伐幾乎是不可能的.
對數據的探索、分析、預測成為數據挖掘領域的熱門技能之一.也許你閱讀電
子郵件時,垃圾郵件可能已被某個數據挖掘算法(很可能是貝葉斯算法)過
濾掉了;
在網頁上瀏覽時,可能會看到一些由數據挖掘算法預測出吸引你的
廣告;
在申請貸款或信用卡時,申請的批準與否取決于數據挖掘算法的輸出
結果;
有人盜取了你的信用卡,發卡銀行希望當此卡被用于欺詐消費時他們
部署的數據挖掘算法能夠識別出該類偷盜消費.
鑒于R語言本身是一款十分優秀的數據挖掘和數據可視化共享軟件,提供了一
套功能強大且易于學習的工具,是一個跨平臺、零成本的數據挖掘編程環境
,還包括大量用于數據挖掘的添加包.這些工具可以幫助你發現數據背后隱藏
的信息,應用到自己的研究項目中.
本書以數據挖掘算法為主線,突出案例教學,算法采用R語言來實現,重在培
養讀者解決實際問題的能力,提升其職業能力.脈絡清晰,各章自成體系,讀
者可以從頭逐章學習,也可隨意挑選自己所需要的章節內容學習.
本書的撰寫是易正俊教授在援疆期間聯合伊犁師范學院(辛巧)、石河子大
學(陽紅英)和新疆農業大學(黃華)共同完成的.另外,參加本書編寫工作
的還有易校石、曾杰和謝恒悅三位研究生,沒有他們的支持和討論,寫作本
書是根本不可能的,是他們與我們一起努力,最終為讀者帶來了具有豐富案
例的這本數據挖掘教材.
由于編者水平有限,書中難免有錯,敬請讀者批評指正.
作者2017年12月