《數據驅動:從方法到實踐》是一本從理論到實踐的全面且細致的企業數據驅動指南,作者見證并獻身百度大數據的建設,毫無保留地將成敗摸索實踐的真實場景進行完整還原,并對近十年大數據從業經驗與心得做了歸納和總結,同時詳解大數據本質、理念與現狀,并圍繞數據驅動四環節采集、建模、分析、指標,深入淺出地講述企業如何從零到一將完整的數據驅動方案落地,全面展示大數據在各領域內的應用情況與趨勢展望。
Alistair Croll、宋星、曹政、車品覺、王淮、呂厚昌等業界大咖聯合力薦!
本書以四大行業實踐談數據驅動如何交付業務價值,破解企業數據驅動實踐中面臨的困惑、幻想與失望,傳遞真正數據驅動價值!
推薦序 1
如果我們將企業比作人類,那么許多企業正處于壯年的巨大健康危機之中。曾經,世界500強企業的生命周期是65年,而現在僅有20年。近10年來,眾多規模大、可靠的企業已被數據新貴企業所替代,例如蘋果公司、亞馬遜、騰訊、谷歌、百度、阿里巴巴等。
更糟糕的是,企業進行自我重塑的概率變得越來越低。公司戰略委員會指出,95%的企業數字化的轉變是失敗的。《創新者的窘境》一書的作者克雷頓?克里斯滕森認為這一數字已達到99%。
當然也有好消息:科技賦予我們衡量一切事物的能力,我們能更好地認識自己。在這點上,曾經的任何時代都難以企及。
麻省理工學院的一項研究表明1,相比依靠直覺來實現決策的企業,那些通過數據驅動實現決策的企業擁有更高的生產效率和利潤。這類企業的生產效率和利潤普遍高于競爭對手5%~6%。顯然,未來是否擁有數據分析能力,將決定一家企業是成功,還是逐漸銷聲匿跡。
我們經常說,數據是新石油。數據的準確性代替了意見的主觀性,讓我們更好地了解我們的供應商、我們的顧客以及我們自身。同時數據也是人工智能的基礎,因為我們正是通過數據的運用來實現機器學習的。
對石油來說,一直被埋藏在地下的石油并無價值。它的價值在于應用,石油開采需要一個生態系統:煉油廠、加油站、汽車、規則、道路等。數據也是如此,僅僅收集數據并無價值,你需要提取、清洗、分析,讓分析結果得以執行與運用,并反饋至生態系統中。
隨著自動化操作和機器學習代替了部分傳統工作,我們為此很疑惑:還有哪些工作需要人類來做?答案其實很簡單:我們需要辯證地思考究竟人類需要機器來做什么。無論是初入職場的新人、分析師,還是企業管理者,提出正確的問題是他們最重要的能力。
但是,這實現起來很難。提問者既需要了解企業當前的商業模式、競爭格局以及可控資源,也需要意識到現有商業模式已經變得過時、不穩定,而且亟待改變。
信息隨時隨刻在產生,它為世界指出兩條路:一條路布滿著那些故步自封、因循守舊企業的尸體;另一條則為擁有數據思維和掌握數據駕馭能力的企業鋪就康莊大道。而此時此刻,你正處于交叉路口,手中恰好握著一張指引正確路徑的地圖。
Alistair Croll
哈佛商學院訪問執行官,Coradiant 公司聯合創始人
《精益數據分析》一書作者
1 《數據驅動的決策是如何影響企業績效的》社會科學研究網1819486(2011年)。
推薦序1
推薦序2
數據驅動的概念已經被各個行業廣泛認同,但認同與落實之間,還是有相當的距離,這里最大的障礙是,技術人員缺乏對業務的理解,而業務人員又無法理解和充分利用技術,有數據卻用不好、不會用是很常見的弊病。即便是一些有數據分析、研發實力的企業,也面臨從需求到實現的巨大研發成本和時間周期等問題,導致決策效率低,對瞬息萬變的市場情況,無法做出快速有效的應對。
百度早期的技術資源有限,主要技術資源優先考慮產品研發迭代,對數據分析的支持力度不足。2005年我參與創建百度的商業分析部門,因為無法得到充足的技術資源,只好自己動手,在產品部門架構內處理數據,解決業務訴求所需的數據分析,所幸那時候百度的業務數據規模有限,每日的部分業務數據日志尚處于GB級別,按照我們有限的技術能力,單服務器勉強可以應付。
2007年之后,百度的業務規模急速擴大,業務部門也越來越重視數據決策方向的訴求,幸而此時技術資源也得到了有效的擴充,在桑文鋒同學的有力支持下,百度的數據分析能力和整體架構都得到了翻天覆地的革新和發展,針對諸多核心產品升級,數據決策的意義和價值也得到了充分的彰顯。
能解決一個巨頭公司數據分析領域的技術瓶頸,提升數據決策能力,已經是一項了不起的成就,但文鋒的目標顯然不止于此,搭建一套通用靈活的技術架構,顯然有更廣闊的應用場景。讓一線業務人員在不需要充分理解技術的前提下,快速針對業務訴求完成數據分析,實現數據決策,這是神策數據(Sensors Data)項目的一個愿景。
我從百度出來后進入了游戲行業,后來輾轉到海外發展,對國內行業的現狀了解不多。說來也有意思,好幾個游戲行業同行創業者,在不同場合主動跟我提及神策數據非常有價值,對他們的業務幫助很大,我才注意到文鋒的創業項目,并欽佩于他們現在所取得的成就,這個成就,不是說這家公司收了多少服務費,賺了多少錢,而是他們真的有效提升了整個行業的數據決策能力,有效降低了數據決策的操作成本和門檻,這個價值是從業者們尤為要感謝的。
感謝文鋒,提前讓我閱讀了這本書籍,我覺得,對于希望提升數據決策能力、了解數據決策真相的從業者,這本書是很好的讀物,其內容并非晦澀難懂的技術描述,而更多是對數據驅動和數據分析的理解,并以親身案例作為輔助講解。建立正確的認識是做好數據決策的前提,而其中所提到的很多問題場景,相信也是很多從業者經常遇到和面對的。
以上,希望對您的閱讀和選擇,有所幫助。
曹 政
曾任百度商業分析部經理,現知名IT自媒體博主
互聯網游戲出海領域創業者
推薦序2
推薦序3
我一直覺得數據分析是一種修行,修的是思考的能力,行的是落實成為方案的方法。經過多年的工作,正是不經一番寒徹骨,怎得梅花撲鼻香。回想我與文鋒初次見面便談到數據化的過程,阿里與百度都經歷過這樣的挑戰,我想這便是他請我寫推薦序的原因吧。
以前企業中只有一小部分人具備數據分析的能力,隨著近幾年數據平臺的成熟,數據從收集到使用越來越方便,以往想要出一份分折報告可能要等上數周的日子已經一去不復返。曾經有一位業務方代表對我說過,在等候分析報告出來與拍腦之間,我選擇了后者,因為時機更重要。可想而知決策的速度很關鍵。在后信息時代,DT1的普適度將變得更直接、簡單。未來的智能時代,我很相信很多分析報告也將被自動化的智能決策所取代,屆時智慧的人類也將要升級到神策的階段,人更要學會駕馭決策上的決策、邏輯上的邏輯。
當然,理想歸理想,在智能決策的路上還需要很多同行們努力,而文鋒在書內的描述正是他這幾年創業的發現與精華。
車品覺
紅杉中國專家合伙人、全國信標委大數據標準工作組副組長
1 DT,Data Technology,數據處理技術。
推薦序4
當今物聯時代,業界同仁都在談大數據和人工智能。大數據已成眾多公司的核心資產,大數據戰略已成眾多公司的核心戰略。之所以如此,一是因為大數據技術的普及,二是因為大數據已經為無數企業帶來了實打實的核心價值。大數據4V1中最重要的還是接地氣的價值驅動Value。使用大數據技術,挖掘大數據價值,不斷優化用戶體驗、客戶體驗、產品體驗,已然成為當今企業成功的金科玉律。
1996年我在美國正式進入職場。我在職業生涯的早期就對數據情有獨鐘,那個時候還沒有大數據這個提法。這不僅僅是出于對數據技術的喜好,也是因為我在做數據項目的時候,真正體會到了數據給業務帶來的不同。1998年我加入Yahoo!,成為第一個專門做數據的工程師,用一句話總結我在Yahoo! 7年的工作,那就是使用大數據更好地理解用戶,驅動用戶產品創新,更好地服務用戶。2005年我離開Yahoo!加入Google是源于好奇心,當時Google的流量是Yahoo!的1/10,但收益卻跟Yahoo!一樣多。為什么搜索會這么賺錢?用一句話總結我在Google 6年的工作,那就是使用大數據能更好地理解客戶廣告訴求,驅動廣告產品創新,更好地服務廣告主。
2011年我有幸加入百度帶領數據團隊。百度是一個對大數據工作非常重視的公司。大數據工作是百度的核心競爭力之一,其核心搜索業務也是建立在大數據
1 4V,Volume(大量)、Velocity(高速)、Variety(多樣)和Value(價值)。
技術之上的。文鋒是我在百度工作期間的愛將。在百度工作的幾年中,我跟文鋒、曹犟、力力、耀洲等聰明能干、充滿活力的同學們一起,在實戰中不斷總結與學習,一同推進大數據技術的進步,這是一段非常享受并有成就感的經歷。
我在百度大數據工作時,跟小伙伴們一起啟動了不少項目,一切都圍繞發揮大數據價值而發力。大數據價值從讓數據說話開始,大數據驅動決策。幾乎每一個產品都是一個閉環的生態。從產品上線的第一天起,用戶就在不斷用手或腳投票,告訴你哪里好用、哪里需要改進。用戶越多,這個閉環正負反饋的信息量就越大。當我們可以快速地把這些信息以報表分析的形式,展現給我們的產品經理、產品研發工程師及各級決策者們的時候,就能不斷地發現機會、迭代改進產品。當數據量達到一定規模后,數據所反饋的趨勢就越清楚,這不僅體現在更好地理解現有需求上,也會不斷挖掘新的需求,預測引導用戶需求,不斷改進創新產品。
搜索如此,廣告如此,新領域創新也是如此。從預防疾病,提升百姓健康體驗,到挖掘旅游熱點,提供最佳出游體驗,到因材施教,顛覆特權教育,到預測交通流量,改善交通擁堵,大數據驅動顛覆式創新。
大數據的另一個更重要的價值在于讓數據為用戶工作,驅動個性化服務。當數據量達到一定規模后,因人工智能算法已經普及,故對用戶每一次產品使用背后意圖的把握就會越來越精準,從而可以做到為用戶提供有針對性的個性化服務。這種個性化可以從用戶群組個性化開始,也就是對不同類型的受眾提供不同的服務,可以做到針對每個用戶的個性化服務,甚至細化到對每一個用戶每一個動作的個性化服務。大數據價值在這一點上的發力可以真正引爆產品生態閉環的馬太效應。
文鋒在書中把他過去豐富的實踐經驗做了非常好的總結,干貨滿滿,源于實踐又高于實踐。文鋒一直想成為中國大數據產業興旺的推動者,他創建了神策數據(Sensors Data),不斷踐行自己的理想。本書字里行間生動活潑,也體現出作者對大數據領域的理想情懷和腳踏實地的實干家精神。對大數據行業的每一位實踐者和企業家來說,本書都非常值得一讀。
呂厚昌(Alex Lu)
曾任百度高級總監,Pinterest大數據部負責人
第1章 從百度大數據工作的經歷說開 / 1
百度數據板塊:網頁數據和用戶行為數據 / 3
搜索引擎發展 / 4
用戶行為分析踐行:百度知道的回答量提升 7.5% / 5
從零到一構建百度大數據分析平臺 / 6
數據源與 Event 模型的重要性 / 9
大數據是屠龍術 / 10
第2章 大數據思維與數據驅動 / 11
大數據的概念 / 14
大數據之大 / 14
大數據之全 / 15
大數據之細 / 16
大數據之時 / 16
大數據的本質 / 17
數據驅動理念與現狀 / 20
數據驅動的價值 / 20
企業內部數據驅動現狀 / 21
理想的數據驅動 流 / 23
大數據時代到來的條件 / 24
數據采集能力增強 / 25
數據處理能力增強 / 26
數據意識的提升 / 27
第3章 數據驅動的環節 / 29
數據采集與埋點 / 32
數據采集的現狀 / 32
數據采集遵循法則 / 34
科學的數據采集和埋點方式 / 36
數據的準確性 / 40
數據建模 / 44
數據模型與建模 / 44
多維數據模型 / 46
多維事件模型 / 49
多維事件模型的探索經歷 / 52
數據分析方法 / 55
行為事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
點擊分析 / 67
用戶路徑 / 73
用戶分群 / 75
屬性分析 / 80
指標體系構建 / 82
第一關鍵指標法 / 82
海盜指標法 / 86
第4章 數據驅動產品和運營決策 / 89
數據驅動運營監控 / 91
用戶獲取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引薦(Referral) / 99
營收(Revenue) / 101
數據驅動產品改進和體驗優化 / 102
數據驅動商業決策 / 104
數據驅動落地企業,要從管理者做起 / 106
數據驅動商業決策的價值 / 108
第5章 數據驅動產品智能 / 109
數據平臺及用戶智能 / 114
如何計算熱門榜單 / 114
客服系統中的行為數據 / 114
為什么需要數據平臺 / 115
數據平臺提供的能力 / 116
數據應用與用戶智能 / 119
基于用戶行為數據的用戶智能應用 / 119
用戶智能分類:基于規則與機器學習 / 123
用戶智能應用用戶畫像 / 132
兩種用戶畫像:User Persona與User Profile / 132
用戶畫像(User Profile)標簽體系的建立 / 135
用戶智能應用個性化推薦 / 139
個性化推薦的概念 / 139
架構實現 / 140
數據流 / 142
業務分析與模型選擇 / 143
實驗與迭代 / 144
第6章 各行業實踐數據分析全過程 / 147
互聯網金融數據驅動實踐 / 149
實踐案例 / 150
企業服務數據驅動實踐 / 158
數據驅動能夠為企業服務做什么 / 159
面臨的挑戰 / 160
數據應用的階段 / 161
實踐案例 / 168
零售行業數據驅動實踐 / 175
實踐案例 / 176
電子商務數據驅動實踐 / 186
打破企業發展經營困局:從粗放式到精細化 / 186
電商企業數據驅動瓶頸 / 187
實踐案例 / 187
寫在最后的話 / 197