數據挖掘已經廣泛應用于各行各業,并催生了數據分析師的興起。本書結合項目實踐,首先對數據挖掘的核心問題進行了總結,并以保險推薦為例說明數據挖掘過程中每個步驟需要關注之處; 然后,結合香水銷售分析,討論可視化圖形的基本應用。為增強本書的實用性,提高讀者的動手能力,后續章節詳細地分析了數據挖掘在銀行信用卡、餐飲、商務酒店、制造業、公安等領域的應用。此外,本書還介紹了卷積神經網絡在音頻數據處理方面的實際應用。
本書內容深入淺出,案例生動形象,可以作為高校相關專業數據挖掘機器學習商務數據分析等課程的實驗教材,也可以供學習數據分析的社會人士參考。
數據挖掘是一個多學科交叉的領域,本書通過少數實際的具體案例,闡述數據分析項目分析的過程以及一些要點,可作為普通高等學校數據挖掘、商務數據分析、商務智能等課程的案例和實驗指導材料,也可供有志于數據分析師的讀者參考。
前言
目前,高校的數據分析類課程(如數據挖掘、機器學習、大數據分析等)教學方式大多以知識點為核心組織教學,學生主要以學習知識為主,工程應用實踐機會較少。教師將所要教授的知識點在課堂上講述,課后再以作業練習、課程實驗、課程設計等形式幫助學生深入理解課堂上所學的知識。盡管為提高教學效果,目前許多高校嘗試了大型開放式網絡課程(Massive Open Online Course,MOOC)、翻轉課堂、移動課堂、同伴學習和小規模限制性在線課程(Small Private Online Course,SPOC)等教學方法的改革,但總體上來說,對于應用性較強的課程教學,還存在改進的空間,尤其是對學生的動手實踐能力要求較高的數據分析類課程。現有的教學方法在傳授理論知識時,缺少實際應用環節的支持,學生缺少在實際應用的背景下充分理解所學知識的機會,難以培養學生應用專業知識分析解決問題的技能和創新思維能力。
數據分析的方法是科學,但這些方法的選擇和應用過程因問題而異,帶有很強的藝術性。在現有專業課程教學模式下,學生僅僅了解需要學習基本的理論知識,缺少實踐動手經歷,難以獲得這些知識的應用技巧,很少接觸與企業實際項目相關的內容,因此學生的應用能力較弱,與企業實際的需求脫節。例如,在數據分析課程中,一般的教學方式是教師將具體數據分析的方法教授給學生,學生能夠理解算法或方法的內容,但難以解決實際項目中應用具體算法碰到的問題。目前亟待克服數據分析類課程教學脫離企業所需能力的培養痛點,在課程學習的知識基礎上,解決實際問題,引導學生解決數據分析實際問題的必要技能和思維方法。
實際上,數據分析絕大部分的教材和書籍還基本停留在基本理論和方法的介紹,實驗部分的內容比較簡單或者缺失,實際應用的內容不足。還有些實戰性的書籍沒有按照教材的方式編寫,案例也比較粗略,數據分析過程中的一些技能解釋膚淺。有關實際項目中數據分析過程思路的分析以及難點解析對教學,尤其是對實驗或案例教學非常重要。最近幾年,作者與多家企業合作,在數據分析領域辛苦耕耘,親自參與了多個實際數據分析項目,熟悉數據分析過程的酸甜苦辣,希望通過本教材彌補國內數據分析實用教材的不足,也希望本教材的出版能改善國內數據分析類課程教學資料短缺的情況。
學習數據分析的最好方法就是做中學,使用實際數據解決實際問題,而不是單純學習技術。實際上,有效的數據分析需要對業務進行深入理解,在此基礎上形成有效的分析思路,并通過實驗反復比較,才能真正解決客戶的問題。在數據時代,現實應用中往往不乏數據。從生活中的小數據、簡單問題開始,做各種假設,探索其中的規律。不斷嘗試常用的分析語言、工具和技術,在應用中不斷學習新的知識,彌補課堂教學的不足,尤其是體會數據分析過程中書本上難得看到的分析技巧,并在應用中舉一反三。如此反復,隨著分析問題的深入,不斷提高分析能力,體會數據分析的艱辛和解決客戶問題的快樂。
本教材不局限于數據分析基本理論和基本方法的介紹,而是立足實際應用,突出實際數據分析項目中的思路,以及數據分析中的難點。但希望讀者具有一定的統計學、機器學習(數據挖掘)、數據科學,以及必要的相關專業知識。也不追求過多的案例堆積,希望讀者能理解數據分析的思路,舉一反三。這些內容是作者多年項目實踐和教學成果的總結,其中的分析思路只有參與實際的項目,才能體驗到數據分析的難點和藝術性,這是目前教學過程中培養學生工程性思維的重要問題,也是真正提高學生創新能力和動手能力的手段。這些內容是數據分析的基礎,也是從事大數據分析必須掌握的知識和技能。有關數據挖掘常用算法的介紹,讀者可以參閱作者已經出版的教材《商務智能(第4版)》(清華大學出版社,2016年)或其他專業書籍。
全書分為11章,具體的內容簡介如下:
第1章從數據分析的流程出發,討論了在數據分析各個階段需要做的工作以及經常遇到的主要問題,尤其是數據挖掘算法使用時容易遇到的難題。數據挖掘過程有一定的標準,但是針對具體的業務需求,如何設計合理、有效的數據分析流程,需要有一定的經驗和技巧,數據的預處理、算法的選擇等主要步驟都充分體現了數據挖掘的藝術性。
第2章以保險產品推薦項目為例,突出了數據挖掘選擇合適的算法并非很簡單的事情,需要在理解分析問題以及對多種算法熟悉的基礎上,通過實驗對初選的幾種算法進行比較、調優,才能選擇對解決問題效果比較好的算法。
第3章介紹了多維分析常用的可視化圖形,這是數據分析的基本功。這些圖形可以幫助數據分析師探索數據,找出數據中存在的問題以及基本規律。
第4章介紹了IBM SPSS Modeler 18數據挖掘工具的常用組件。在學習數據分析的不同階段,根據學習者的基礎、問題的分析難度等,可以選擇不同的工具或平臺。盡管分析工具并不是數據挖掘最重要的事情,但學習成本低、功能強大的分析工具對于問題的解決也是不可少的。對于編程基礎有限的數據分析師,可以選擇類似IBM SPSS Modeler 18的挖掘工具或TensorFlow等開源工具。盡管如此,對于有一定數據分析基礎的讀者,推薦學習Python、R等針對數據分析的語言,這些語言比較靈活,功能也十分強大。
第5章對香水的銷售數據進行分析,討論受歡迎的香水以及特點,并找出影響香水銷售的主要因素,為香水的營銷提供依據。
第6章對銀行的客戶信用記錄、申請客戶信息、拖欠歷史記錄、消費歷史記錄等人口屬性、交易數據進行綜合分析,討論用戶銀行信用卡拖欠和欺詐行為特征,為銀行推廣信用卡以及風險管理提供依據。
第7章從大眾點評網抓取火鍋店海底撈的菜品介紹以及客戶評論數據,以客戶為中心,分析客戶對火鍋的偏好,為火鍋店的選址、菜品的選擇和設計,以及火鍋店的競爭力都提供了參考。
第8章以攜程網上某商務賓館的客戶評分、評論數據為基礎,通過情感分析,分析了客戶對商務賓館的偏好,并了解客戶的消費行為,比較多家商務賓館的競爭優劣勢,為商務賓館改進經營提供了參考。
第9章在某耐熱導線工廠最近2年的質量管理數據的基礎上,分析了這些數據存在的問題,探索耐熱導線的加工流程中幾個工序之間半成品或成品質量指標的關系,提高最終產品的合格率。
第10章利用公安人口數據和違法犯罪人員行為特點的數據,建立風險評分模型,實現對高危人群的特征分析,識別具有違法、犯罪、可疑或可能的高危人員。
第11章討論深度學習在音頻處理領域的應用,介紹了常用的深度神經網絡模型,重點分析卷積神經網絡在音頻質量評價領域的應用。
數據挖掘是一個多學科交叉的領域,本書通過少數實際的具體案例,闡述數據分析項目的過程以及一些要點,可作為普通高等學校數據挖掘商務數據分析商務智能等課程的案例和實驗指導材料,也可供有志于數據分析師的讀者參考。配套實驗數據、源代碼、軟件等可以從清華大學出版社網站下載。由于作者水平有限,書中難免有錯誤之處,希望讀者不吝指出。
在寫作的過程中,胡遠文、于召鑫、黃黎明、蒲實、朱榮斌等在資料收集方面做了一些工作,在此表示感謝。
趙衛東2017年8月
復旦大學