本書由微信公眾號“狗熊會”(ID: CluBear)創始人王漢生教授(熊大)及其核心團隊聯合創作完成。本書可以被看作商業分析領域入門級通俗且有趣的讀物,深入淺出,雅俗共賞,適合數據分析師、工程師、產品經理、銷售人員、商務拓展人員以及數據企業高管閱讀。
本書主要由六章組成。第一章介紹了熊大樸素的數據價值觀,解讀數據與價值的邏輯關系;第二章介紹了最基本的數據可視化方法(統計圖表)的規范與有趣應用;第三章介紹了回歸分析,通過精彩案例展示了如何將一個業務問題定義成一個數據可分析問題;第四章介紹了機器學習,可以看作對第三章技術上的一個重要補充;第五章展示了各種常見的非結構化數據(文本、圖像)分析的有趣案例;第六章介紹了數據合規的相關內容。
王漢生,北京大學光華管理學院商務統計與經濟計量系教授、博士生導師。曾獲國家杰出青年科學基金項目資助。教育部“長江學者”特聘教授,全國工業統計學教學研究會青年統計學家協會創始會長,美國數理統計學會(IMS)會員,美國統計協會(ASA)會員,國際統計學會(ISI)當選會員。歷任9種國際學術期刊副主編。在國內外各種專業刊物上發表文章100余篇,與人合著英文專著1本,與人合著中文教材4本。愛思唯爾中國高被引學者(數學類,2014—2019年;應用經濟學類,2020年;統計學類,2021—2022年)。主要研究領域為變量選擇、數據降維、高維數據分析以及復雜網絡數據分析,所有這些研究都以大規模、復雜、超高維數據分析為核心,其相關應用領域包括但不局限于中文文本、網絡結構、位置軌跡。
曾擔任博雅立方科技有限公司首席科學家(2009—2015年)、百分點首席統計學家(2015年至今)。此外,和量邦科技、考拉征信、彩虹無線、蓬景數字、西門子、三一重工、格靈深瞳、天罡儀表、廣聯達等眾多企業有聯合研究工作,涉及量化投資、互聯網征信、車聯網、移動設備廣告實時競價、搜索引擎營銷、電子商務、重裝制造業等多個重要行業。
緒 論 大數據時代之“皇帝的新裝”
第一章 樸素的數據價值觀
什么是數據?
數據的商業價值
數據到價值的轉化:回歸分析的道與術
弄清客戶需求
關于p值的爭論與思考
第二章 數據可視化
實力派:準確+有效
偶像派:簡潔+美觀
柱狀圖
堆積柱狀圖
柱狀圖之妙用
餅 圖
直方圖
折線圖
散點圖
箱線圖
莖葉圖
統計表
第三章 回歸分析
什么是回歸分析?
線性回歸:北京市二手房房價影響因素分析
線性回歸:電影票房影響因素分析
線性回歸:數據分析崗位招聘情況解析
0-1回歸:某移動通信公司客戶流失預警分析
0-1回歸:車險數據分析與商業價值
0-1回歸:點擊率預測在RTB廣告投放中的應用
定序回歸:信用卡逾期數據分析
計數回歸:英超進球誰最強
生存回歸:新產品在架時長研究
第四章 機器學習
樸素貝葉斯:政府熱線電話
樸素貝葉斯:基于商品名稱的多分類問題
決策樹:什么因素決定非誠勿擾
決策樹:二手車保值比率
回歸樹與提升算法:旅游產品銷量影響因素
深度學習:圖像自動識別
深度學習:LSTM模型自動作曲
深度學習:打麻將
聚類分析:狗熊牌皮鞋的廣告投放
第五章 非結構化數據 245
文本分析:《瑯琊榜》的小說三要素
文本分析:《倚天屠龍記》
文本分析:從用戶評論看產品改善
文本分析:網易云音樂評論數據分析
網絡結構數據:《甄嬛傳》中的愛恨情仇
網絡結構數據:統計期刊合作者社區發現
圖像數據:通過圖片識別PM2.5
第六章 數據合規
我國cookie隱私第一案
“被遺忘權”第一案
數據安全第一案