本書從企業實踐出發,內容覆蓋數據、平臺、分析和應用等企業內數據流轉的主要環節。布局上,按照數據與平臺篇、分析篇和應用篇分別撰寫。數據與平臺篇(第1~3章),立足找到數據、整合數據、使用數據三個角度,介紹數據在企業內的分布和處理邏輯,以便快速為分析準備素材。分析篇(第4~11章),選取企業實際案例,介紹常用的數據挖掘與機器學習算法,以業務場景為導向展示數據分析過程和技巧。應用篇(第12~15章),選取當前主流的四個應用場景,介紹如何實現數據驅動,讓數據“自動”流轉于各個環節。
(1)從數據、基礎平臺、分析方法、行業應用4個維度,義場景化方式講解數據從獲取、預處理、挖掘、建模、結論分析與展現到系統應用的流程,以及機器學習的重要技術
(2)三位金融領域的大數據專家近10年行業實戰經驗總結,包含大量行業解決方案和案例,并公開源代碼
Preface 前 言不畏浮云遮望眼,只緣身在最高層。 —王安石《登飛來峰》數據科學家 = 統計學家 + 程序員 + 講故事的人 + 藝術家—Shlomo Aragmon本書的創作初衷大數據方面的書籍可謂琳瑯滿目,有的講解理論,有的介紹方法,有的傳播理念。但是,大數據從業人員(如數據工程師、數據分析師、業務分析師、算法設計師等)應該掌握哪些知識與技能,如何應用數據解決現實的業務問題呢?恐怕最能給出答案的還是實際的數據從業者。為此,三位作者基于近10年的數據分析與應用經驗,融合各自在商業銀行、互聯網金融和電商領域的切身體驗,寓理論于實戰,選取多個詳實的案例,站在企業實際應用的角度介紹數據分析應用過程并公布源代碼,并最終形成本書。本書對于讀者開展數據分析工作能夠提供直接幫助,為有志于在大數據領域發展的讀者啟航。 本書特點本書有三大特點。其一,內容全面,覆蓋大數據生態中的數據、基礎平臺、分析方法和應用四個領域,對數據應用從業務需求、數據準備、數據分析、挖掘建模、演示報告、成果應用等全流程進行了詳細闡述;其二,以業務場景為主線,精選銀行和互聯網方面最具代表性的案例,站在數據消費者和分析師的角度,身臨其境地介紹了數據如何產生價值,寓理論于實戰,讓讀者能知其所以然;其三,寫作手法上遵循大道至簡原則,用淺顯的語言介紹復雜的數據分析應用過程,歸納數據分析師乃至數據科學家應該修煉的要點,既關注技術細節,又不拖泥帶水,能為讀者提供直接幫助。 本書定位本書既可作為數據分析與商業分析人員的入門指引和案頭工具,亦可為統計學、計算機科學、市場營銷等專業研究生拓寬視野。 源代碼下載對書中源代碼感興趣的讀者,可與作者聯系(郵箱:64346837@qq.com)。
陳春寶,先后獲得了經濟學碩士和工業工程博士學位,擁有10年數據分析及應用經驗,目前任職于股份制商業銀行總行,在數據挖掘、機器學習和業務咨詢方面有著獨到的見解,他的工作跨大數據、營銷、風險、運營等多個領域,擅長診斷各類業務問題,應用商業和數據分析手段獲得創新性的解決方案,并幫助業務部門有效的實施。他曾經擔任交通銀行*中心的數據分析經理,以及美國MSA公司咨詢顧問,擁有銀行、*、煙草、醫藥與電信等行業幾十個項目的數據挖掘分析與SAS建模經驗。基于大數據構建的預測模型,創新了商業模式并為公司帶來新的收入來源,參與設計的算法獲得人民銀行科技發展二等獎。他還長期負責企業內的數據分析人員培訓和管理,并先后擔任兩個大數據專業期刊的責任編輯,近幾年經常作為嘉賓活躍在高校與企業的一系列大數據活動中。曾擔任上海交通大學工程碩士企業導師,SCI&EI索引期刊發表論文10余篇。
Contents 目 錄前言第一部分 數據與平臺篇第1章 數據與數據平臺31.1 數據的基本形態41.1.1 數據環境與數據形態41.1.2 生產數據51.1.3 原始數據51.1.4 分析數據61.2 數據平臺71.2.1 數據倉庫平臺91.2.2 大數據平臺131.2.3 MPP數據庫221.2.4 NoSQL數據庫231.3 應用系統241.4 本章小結25第2章 數據體系262.1 數據閉環272.2 數據緩沖區282.2.1 系統解耦292.2.2 批量導出312.2.3 FTP傳輸402.2.4 批量導入422.3 ETL492.3.1 ETL工具502.3.2 ETL作業522.4 作業調度562.5 監控和預警562.5.1 使用監控工具進行監控572.5.2 使用BI工具進行監控572.6 本章小結57第3章 實戰:打造數據閉環593.1 數據緩沖區的基本規則603.1.1 文件存儲規則613.1.2 文件命名規則613.1.3 文件清理規則623.2 自動加載的流程623.2.1 掃描文件633.2.2 下載文件643.2.3 解壓文件653.2.4 加載文件653.3 自動加載程序的數據庫設計663.3.1 數據文件信息表673.3.2 數據文件狀態表683.3.3 加載配置信息表693.3.4 數據緩沖區信息表703.3.5 目標服務器表703.4 自動加載程序的多線程實現713.4.1 ScanFiles723.4.2 DownLoadAndUnZip753.4.3 LoadToHive773.4.4 LoadToOracle783.4.5 自動加載程序的部署架構793.4.6 程序的維護和優化803.5 本章小結80第二部分 分 析 篇第4章 數據預處理834.1 數據表的預處理844.2 變量的預處理854.2.1 缺失值的處理854.2.2 極值的處理904.3 變量的設計914.3.1 暴力衍生914.3.2 交叉升維924.4 變量篩選954.4.1 篩選顯著變量954.4.2 剔除共線性964.5 本章小結100第5章 聚類,簡單易用的客戶細分方法1015.1 從客戶細分說起1025.1.1 為什么要做客戶細分1025.1.2 怎么做客戶細分1035.1.3 聚類分析,無監督的客戶細分方法1075.2 譜系聚類1075.2.1 基本步驟1075.2.2 案例:公司客戶差異化服務1105.2.3 譜系聚類方法的題外話1155.3 K-means算法1165.3.1 基本步驟1165.3.2 案例:電商賣家細分1175.3.3 K-means算法的題外話1215.4 本章小結121第6章 關聯規則挖掘,發現產品加載和交叉銷售機會1226.1 銷售的真諦:讓客戶買得更多1236.1.1 案例:電商的生意經1236.1.2 案例:富國銀行的“商店”經營模式1246.1.3 案例總結1256.2 交叉銷售1266.2.1 為什么要做交叉銷售1266.2.2 怎么做交叉銷售1266.3 關聯規則挖掘,發現交叉銷售機會1286.3.1 Apriori算法1296.3.2 Apriori算法的主要指標1296.3.3 Apriori算法的基本步驟1316.4 案例:信用卡產品交叉銷售1316.4.1 準備數據1326.4.2 SAS實現1326.4.3 結果分析1336.4.4 序列關聯分析1366.4.5 結果應用1376.5 本章小結138第7章 社交網絡分析,從“關系的角度分析問題1397.1 先看幾張美輪美奐的圖片1407.2 社交網絡分析方法1427.2.1 定義1427.2.2 應用場景1427.2.3 網絡識別算法1437.3 案例:電商通過訂單數據識別供應鏈1447.3.1 供應鏈及供應鏈金融1447.3.2 識別核心企業及其上下游關系1447.3.3 分析結果的業務應用1497.4 案例:P2P投資風險防范1517.4.1 案例背景1517.4.2 防范方法1527.5 本章小結153第8章 線性回歸,預測客戶價值1558.1 數值預測1568.2 回歸與擬合1578.2.1 回歸就是擬合1578.2.2 在Excel中添加趨勢線預測1588.3 案例:信用卡客戶價值預測1598.3.1 確定預測目標1598.3.2 準備建模數據1618.3.3 模型擬合1638.3.4 模型評估1658.4 基于客戶價值分層的業務策略1678.5 本章小結167第9章 Logistic回歸,精準營銷的主要支撐算法1699.1 大數據時代的精準營銷1709.1.1 精準營銷1709.1.2 基于大數據的精準營銷模式1719.1.3 如何做到精準1729.2 Logistic回歸算法介紹1739.2.1 算法原理1739.2.2 關鍵步驟1749.3 案例:信用卡消費信貸產品的精準營銷1769.3.1 案例背景1769.3.2 數據準備1769.3.3 數據預處理1809.3.4 建模1829.3.5 模型評估1859.4 預測模型的應用與評估1899.5 本章小結189第10章 決策樹類算法,反欺詐模型“專家”19110.1 決策樹,重要的分類器19110.2 決策樹的關鍵思想19210.2.1 理財客戶畫像案例背景19210.2.2 關鍵思想一:遞歸劃分19410.2.3 關鍵思想二:剪枝19710.3 案例:電商盜卡交易風險識別19810.3.1 案例背景19810.3.2 以SAS實現19910.3.3 以Clementine實現20110.3.4 以R實現20410.4 隨機森林20810.5 本章小結209第11章 數據可視化,是分析更是設計21011.1 數據演示之道21011.1.1 好“色”之圖21111.1.2 版式有形21211.1.3 數據發聲21411.2 個性化地圖21511.2.1 案例背景:存款增長率指標展示21511.2.2 獲取地理位置的經緯度數據21611.2.3 定制地圖背景和圖標21711.2.4 生成地圖22011.3 文本分析22211.3.1 案例:電商的客戶評價分析22211.3.2 分詞22311.3.3 詞云制作22411.3.4 情感分析22511.4 本章小結227第三部分 應 用 篇第12章 標簽系統23112.1 認識標簽系統23112.2 標簽系統的設計23312.2.1 標簽系統的層次結構23312.2.2 標簽系統的更新規則23312.2.3 機器學習模型轉化為標簽23512.3 標簽系統的實現23612.3.1 標簽映射表23712.3.2 標簽系統的前端實現23812.3.3 標簽系統的數據后端實現23812.3.4 標簽系統的在線接口實現24212.4 本章小結242第13章 數據自助營銷平臺24413.1 數據自助營銷平臺的價值所在24513.1.1 自動化營銷,提升工作效率24513.1.2 降低營銷成本,提升用戶體驗24713.1.3 個性化營銷,提升響應率24813.1.4 統一管理,便于效果追蹤24913.2 數據自助營銷平臺的實現原則24913.2.1 數據營銷活動的節點24913.2.2 數據自助營銷平臺的基礎:標簽系統25113.2.3 數據自助營銷平臺的批量任務25213.2.4 實時數據營銷25413.3 數據自助營銷平臺的場景實例25413.3.1 客戶生命周期管理25413.3.2 用卡激勵計劃25713.4 本章小結260第14章 基于Mahout的個性化推薦系統26114.1 Mahout的推薦引擎26214.1.1 Mahout的安裝配置26214.1.2 Mahout的使用方式26314.1.3 協同過濾算法26414.1.4 Mahout的推薦引擎26514.2 規模與效率26814.2.1 Mahout推薦算法的適用范圍26814.2.2 通過分布式解決規模和效率的問題27014.3 實現一個推薦系統27514.3.1 系統框架27514.3.2 推薦系統的刷新27614.3.3 部署一個可用的推薦系統27614.4 本章小結280第15章 圖計算與社會網絡28115.1 社會網絡和屬性圖28215.2 Spark GraphX與Neo4j28315.2.1 Scala編程語言28415.2.2 Cypher查詢語言28515.3 使用Spark GraphX和Neo4j處理社會網絡28615.3.1 背景說明28615.3.2 數據準備28615.3.3 Spark GraphX處理原始網絡28715.3.4 Neo4j交互式查詢分析29115.3.5 更多的應用場景29515.4 本章小結296