黄子片在线观看免费网站,视频在线观看一区二区三区,狠狠色狠狠色综合久久伊人

大數據挖掘與應用

定價：¥49.5

中教價：¥38.12 (7.70折）

庫存數： 0

購買數量：

     本教材對大數據挖掘的基本技術進行了介紹, 內容涵蓋大數據簡介、數據預處理技術、關聯規則挖掘、KNN分類算法、邏輯回歸分類方法、隨機森林分類算法、樸素貝葉斯分類算法、支持向量機分類算法、K均值聚類算法、K-modes聚類算法、DBSCAN聚類算法等基本理論的介紹, 在介紹基本理論的同時通過舉例說明算法的原理, 并以阿里云大數據平臺為依托進行應用介紹, 教材最后以綜合應用的形式介紹數據挖掘的熱點應用。

　　（1）教育部-阿里云產學合作專業綜合改革項目規劃教材

　　（2）對大數據挖掘與應用的基本算法進行了系統的介紹。

　　（3）每種算法不僅包括對算法基本原理的介紹，而且配有大量例題以及基于阿里云數加平臺的演示。

　　（4）理論與實踐相結合的方式極大地方便了讀者對抽象的數據挖掘算法的理解和掌握。

　　（5）內容覆蓋了數據預處理、關聯規則挖掘算法、分類算法和聚類算法以及常見的數據挖掘應用。

　　大數據泛指大規模、超大規模數據集，因可從中挖掘出有價值的信息而備受關注。數據挖掘是一個涉及數據庫技術、人工智能、統計學、機器學習等多個學科的領域，并且已經在各行各業有著非常廣泛的應用。為適應我國數據挖掘的教學工作，筆者在數據挖掘教學實踐的基礎上，參閱了多種國內外*新版本的教材，編寫了本書。本書可以作為高等院校研究

　　生的教材，也可以為相關行業的工程技術人員提供有益的參考。

　　本書是教育部阿里云產學合作項目，在內容安排上循序漸進，對大數據挖掘的基本算法進行詳細的講解。本書的*大特點是理論與實踐相結合，算法理論與產業一線實踐相結合，全書幾乎所有的算法都配有實例和基于阿里云數加平臺的演示。這種理論與實踐相結合的方法克服了重理論、輕實踐的內容組織方式，極大地方便了讀者的理解。具體而言，本書17章內容之間的關系如下圖所示。

　　本書提供教學課件，讀者可從www.tup.com.cn網站自行下載。由于編者水平有限，本書必定存在不妥和不足之處，懇請專家和讀者批評指正。

　　編者

　　2017年3月

*篇基礎篇

第1章大數據簡介

1.1大數據

1.1.1大數據的定義

1.1.2大數據的特點

1.1.3大數據處理的挑戰

1.2大數據挖掘

1.2.1大數據挖掘的定義

1.2.2大數據挖掘的特點

1.3大數據挖掘的相關方法

1.3.1數據預處理技術

1.3.2關聯規則挖掘

1.3.3分類

1.3.4聚類

1.3.5孤立點挖掘

1.3.6演變分析

1.3.7特異群組分析

1.4大數據挖掘類型

1.4.1Web數據挖掘

1.4.2空間數據挖掘

1.4.3流數據挖掘

1.5大數據挖掘的常見應用

1.5.1社交網絡分析

1.5.2文本分析

1.5.3推薦系統

1.6常用的大數據統計分析方法

1.6.1百分位

1.6.2皮爾森相關系數

1.6.3直方圖

1.6.4T檢驗

1.6.5卡方檢驗

1.7常用的大數據挖掘評估方法

1.8大數據平臺相關技術

1.8.1分布式存儲技術

1.8.2分布式任務調度技術

1.8.3并行計算技術

1.8.4其他技術

1.9大數據平臺實例——阿里云數加平臺

1.9.1數加平臺簡介

1.9.2數加平臺產品簡介

1.9.3數加平臺優勢特色

1.9.4機器學習平臺簡介

1.9.5機器學習平臺功能

1.9.6機器學習平臺操作流程

1.10小結

思考題

第二篇技術篇

第2章數據預處理技術

2.1數據預處理的目的

2.2數據采樣

2.2.1加權采樣

2.2.2隨機采樣

2.2.3分層采樣

2.3數據清理

2.3.1填充缺失值

2.3.2光滑噪聲數據

2.3.3數據清理過程

2.4數據集成

2.4.1數據集成簡介

2.4.2常用數據集成方法

2.5數據變換

2.5.1數據變換簡介

2.5.2數據規范化

2.6數據歸約

2.6.1數據立方體聚集

2.6.2維歸約

2.6.3數據壓縮

2.6.4數值歸約

2.6.5數據離散化與概念分層

2.7特征選擇

2.7.1特征選擇簡介

2.7.2Relief算法

2.7.3Fisher判別法

2.7.4基于GBDT的過濾式特征選擇

2.8特征提取

　　第3章

　　關聯規則挖掘

　　3.1基本概念

　　關聯規則挖掘是用來發現大量數據中項集之間有趣的關聯聯系。如果兩項或多項屬性之間存在關聯，那么其中一項的屬性就可以依據其他屬性值進行預測，關聯規則挖掘是數據挖掘中的一個重要課題，*近幾年已被業界深入研究和廣泛應用。

　　關聯規則研究有助于發現交易數據庫中不同商品（項）之間的聯系，找出顧客購買行為模式，如購買了某一商品對購買其他商品的影響。分析結果可以應用于商品貨架布局、貨存安排以及根據購買模式對用戶進行分類。

　　關聯規則挖掘問題可以分為兩個子問題：*步是找出事務數據庫中所有大于等于用戶指定的*小支持度的數據項集；第二步是利用頻繁項集生成所需要的關聯規則，根據用戶設定的*小置信度進行取舍，*后得到強關聯規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心，關聯規則的基本描述如下。

　　1.項與項集

　　數據庫中不可分割的*小單位信息稱為項（或項目），用符號i表示，項的集合稱為項集。設集合I={i1,i2,…,ik}是項集，I中項目的個數為k，則集合I稱為k項集。例如，集合{啤酒，尿布，奶粉}是一個3項集。

　　2.事務

　　設I={i1,i2,…,ik}是由數據庫中所有項目構成的集合，事務數據庫T={t1,t2,…,tn}是由一系列具有唯一標識的事務組成。每一個事務ti(i=1,2,…,n）包含的項集都是I的子集。例如，如果顧客在商場里同一次購買多種商品，這些購物信息在數據庫中有一個唯一的標識，用以標識這些商品是同一顧客同一次購買的，則稱該用戶的本次購物活動對應一個數據庫事務。

　　3.項集的頻數（支持度計數）

　　包括項集的事務數稱為項集的頻數（支持度計數）。

　　4.關聯規則

　　關聯規則是形如XY的蘊含式，其中X、Y分別是I的真子集，并且X∩Y=。X稱為規則的前提，Y稱為規則的結果。關聯規則反映X中的項目出現時，Y中的項目也跟著出現的規律。

　　5.關聯規則的支持度（support）

　　關聯規則的支持度是交易集中同時包含X和Y的交易數與所有交易數之比，它反映了X和Y中所含的項在事務集中同時出現的頻率，記為support（XY），即

　　support(XY)=support(X∪Y)=P(XY)(31)

　　6.關聯規則的置信度（confidence）

　　關聯規則的置信度是交易集中同時包含X和Y的交易數與包含X的交易數之比，記為confidence（XY），置信度反映了包含X的事務中出現Y的條件概率。

　　confidence（XY）=support(X∪Y)support(X)=P(Y|X)(32)

　　7.*小支持度與*小置信度

　　通常用戶為了達到一定的要求，需要指定規則必須滿足的支持度和置信度閾限值，此兩個值稱為*小支持度閾值(min_sup)和*小置信度閾值(min_conf)。其中，min_sup描述了關聯規則的*低重要程度，min_conf規定了關聯規則必須滿足的*低可靠性。

　　8.強關聯規則

　　如果support（XY）≥min_sup且confidence(XY)≥min_conf，則稱關聯規則

　　XY為強關聯規則；否則，稱XY為弱關聯規則。通常所說的關聯規則一般是指強關聯規則。

　　9.頻繁項集

　　設UI，項目集U在數據集T上的支持度是包含U的事務在T中所占比例，即

　　support(U）=‖{t∈T|Ut}‖‖T‖（33）

　　式中，‖·‖表示集合中元素數目。對項目集I，在事務數據庫T中所有滿足用戶指定的*小支持度的項目集，即不小于min_sup的I的非空子集，稱為頻繁項目集或大項目集。

　　10.項目集空間理論

　　Agrawal等建立了用于事務數據庫挖掘的項目集空間理論，理論的核心為：頻繁項目集的子集仍是頻繁項目集，非頻繁項目集的超集是非頻繁項目集。

　　3.2關聯規則挖掘算法——Apriori算法原理

　　3.2.1Apriori算法原理解析

　　*著名的關聯規則發現方法是R.Agrawal提出的Apriori算法。

　　1.Apriori算法基本思想

　　Apriori算法基本思想是通過對數據庫的多次掃描計算項集的支持度，發現所有的頻繁項集，從而生成關聯規則。Apriori算法對數據集進行多次掃描。*次掃描得到頻繁1項集的集合L1，第k（k>1）次掃描首先利用第k-l次掃描的結果Lk-1產生候選k項集的集合Ck，然后在掃描的過程中確定Ck中元素的支持度，*后在每一次掃描結束時計算頻繁k項集的集合Lk，算法當候選k項集的集合Ck為空時結束。

　　2.Apriori算法產生頻繁項集的過程

　　產生頻繁項集的過程主要分為連接和剪枝兩步，如下所示。

　　（1）連接步。為了找Lk(k≥2），通過Lk-1與自身作連接產生候選k項集的集合Ck，設l1和l2是Lk-1中的項集，記li［j］表示li的第j個項。Apriori算法假定事務或項集中的項按字典次序排序，對于（k-1）項集li，對應的項排序為：li1

　　3.Apriori算法的主要步驟

　　（1）掃描全部數據，產生候選1項集的集合C1。

　　（2）根據*小支持度，由候選1項集的集合C1產生頻繁1項集的集合L1。

　　（3）對k>1，重復執行步驟（4）、（5）和（6）。

　　（4）由Lk執行連接和剪枝操作，產生候選（k+l）項集的集合Ck+1。

　　（5）根據*小支持度，由候選（k+l）項集的集合Ck+1，產生頻繁（k+1）項集的集合Lk+1。

　　（6）若L≠，則k=k+1，跳往步驟（4）；否則，跳往步驟（7）。

　　（7）根據*小置信度，由頻繁項集產生強關聯規則，結束。

　　4.Apriori算法描述