《數(shù)據(jù)驅(qū)動:從方法到實踐》是一本從理論到實踐的全面且細致的企業(yè)數(shù)據(jù)驅(qū)動指南,作者見證并獻身百度大數(shù)據(jù)的建設(shè),毫無保留地將成敗摸索實踐的真實場景進行完整還原,并對近十年大數(shù)據(jù)從業(yè)經(jīng)驗與心得做了歸納和總結(jié),同時詳解大數(shù)據(jù)本質(zhì)、理念與現(xiàn)狀,并圍繞數(shù)據(jù)驅(qū)動四環(huán)節(jié)采集、建模、分析、指標,深入淺出地講述企業(yè)如何從零到一將完整的數(shù)據(jù)驅(qū)動方案落地,全面展示大數(shù)據(jù)在各領(lǐng)域內(nèi)的應(yīng)用情況與趨勢展望。
Alistair Croll、宋星、曹政、車品覺、王淮、呂厚昌等業(yè)界大咖聯(lián)合力薦!
本書以四大行業(yè)實踐談數(shù)據(jù)驅(qū)動如何交付業(yè)務(wù)價值,破解企業(yè)數(shù)據(jù)驅(qū)動實踐中面臨的困惑、幻想與失望,傳遞真正數(shù)據(jù)驅(qū)動價值!
推薦序 1
如果我們將企業(yè)比作人類,那么許多企業(yè)正處于壯年的巨大健康危機之中。曾經(jīng),世界500強企業(yè)的生命周期是65年,而現(xiàn)在僅有20年。近10年來,眾多規(guī)模大、可靠的企業(yè)已被數(shù)據(jù)新貴企業(yè)所替代,例如蘋果公司、亞馬遜、騰訊、谷歌、百度、阿里巴巴等。
更糟糕的是,企業(yè)進行自我重塑的概率變得越來越低。公司戰(zhàn)略委員會指出,95%的企業(yè)數(shù)字化的轉(zhuǎn)變是失敗的。《創(chuàng)新者的窘境》一書的作者克雷頓?克里斯滕森認為這一數(shù)字已達到99%。
當然也有好消息:科技賦予我們衡量一切事物的能力,我們能更好地認識自己。在這點上,曾經(jīng)的任何時代都難以企及。
麻省理工學(xué)院的一項研究表明1,相比依靠直覺來實現(xiàn)決策的企業(yè),那些通過數(shù)據(jù)驅(qū)動實現(xiàn)決策的企業(yè)擁有更高的生產(chǎn)效率和利潤。這類企業(yè)的生產(chǎn)效率和利潤普遍高于競爭對手5%~6%。顯然,未來是否擁有數(shù)據(jù)分析能力,將決定一家企業(yè)是成功,還是逐漸銷聲匿跡。
我們經(jīng)常說,數(shù)據(jù)是新石油。數(shù)據(jù)的準確性代替了意見的主觀性,讓我們更好地了解我們的供應(yīng)商、我們的顧客以及我們自身。同時數(shù)據(jù)也是人工智能的基礎(chǔ),因為我們正是通過數(shù)據(jù)的運用來實現(xiàn)機器學(xué)習(xí)的。
對石油來說,一直被埋藏在地下的石油并無價值。它的價值在于應(yīng)用,石油開采需要一個生態(tài)系統(tǒng):煉油廠、加油站、汽車、規(guī)則、道路等。數(shù)據(jù)也是如此,僅僅收集數(shù)據(jù)并無價值,你需要提取、清洗、分析,讓分析結(jié)果得以執(zhí)行與運用,并反饋至生態(tài)系統(tǒng)中。
隨著自動化操作和機器學(xué)習(xí)代替了部分傳統(tǒng)工作,我們?yōu)榇撕芤苫螅哼有哪些工作需要人類來做?答案其實很簡單:我們需要辯證地思考究竟人類需要機器來做什么。無論是初入職場的新人、分析師,還是企業(yè)管理者,提出正確的問題是他們最重要的能力。
但是,這實現(xiàn)起來很難。提問者既需要了解企業(yè)當前的商業(yè)模式、競爭格局以及可控資源,也需要意識到現(xiàn)有商業(yè)模式已經(jīng)變得過時、不穩(wěn)定,而且亟待改變。
信息隨時隨刻在產(chǎn)生,它為世界指出兩條路:一條路布滿著那些故步自封、因循守舊企業(yè)的尸體;另一條則為擁有數(shù)據(jù)思維和掌握數(shù)據(jù)駕馭能力的企業(yè)鋪就康莊大道。而此時此刻,你正處于交叉路口,手中恰好握著一張指引正確路徑的地圖。
Alistair Croll
哈佛商學(xué)院訪問執(zhí)行官,Coradiant 公司聯(lián)合創(chuàng)始人
《精益數(shù)據(jù)分析》一書作者
1 《數(shù)據(jù)驅(qū)動的決策是如何影響企業(yè)績效的》社會科學(xué)研究網(wǎng)1819486(2011年)。
推薦序1
推薦序2
數(shù)據(jù)驅(qū)動的概念已經(jīng)被各個行業(yè)廣泛認同,但認同與落實之間,還是有相當?shù)木嚯x,這里最大的障礙是,技術(shù)人員缺乏對業(yè)務(wù)的理解,而業(yè)務(wù)人員又無法理解和充分利用技術(shù),有數(shù)據(jù)卻用不好、不會用是很常見的弊病。即便是一些有數(shù)據(jù)分析、研發(fā)實力的企業(yè),也面臨從需求到實現(xiàn)的巨大研發(fā)成本和時間周期等問題,導(dǎo)致決策效率低,對瞬息萬變的市場情況,無法做出快速有效的應(yīng)對。
百度早期的技術(shù)資源有限,主要技術(shù)資源優(yōu)先考慮產(chǎn)品研發(fā)迭代,對數(shù)據(jù)分析的支持力度不足。2005年我參與創(chuàng)建百度的商業(yè)分析部門,因為無法得到充足的技術(shù)資源,只好自己動手,在產(chǎn)品部門架構(gòu)內(nèi)處理數(shù)據(jù),解決業(yè)務(wù)訴求所需的數(shù)據(jù)分析,所幸那時候百度的業(yè)務(wù)數(shù)據(jù)規(guī)模有限,每日的部分業(yè)務(wù)數(shù)據(jù)日志尚處于GB級別,按照我們有限的技術(shù)能力,單服務(wù)器勉強可以應(yīng)付。
2007年之后,百度的業(yè)務(wù)規(guī)模急速擴大,業(yè)務(wù)部門也越來越重視數(shù)據(jù)決策方向的訴求,幸而此時技術(shù)資源也得到了有效的擴充,在桑文鋒同學(xué)的有力支持下,百度的數(shù)據(jù)分析能力和整體架構(gòu)都得到了翻天覆地的革新和發(fā)展,針對諸多核心產(chǎn)品升級,數(shù)據(jù)決策的意義和價值也得到了充分的彰顯。
能解決一個巨頭公司數(shù)據(jù)分析領(lǐng)域的技術(shù)瓶頸,提升數(shù)據(jù)決策能力,已經(jīng)是一項了不起的成就,但文鋒的目標顯然不止于此,搭建一套通用靈活的技術(shù)架構(gòu),顯然有更廣闊的應(yīng)用場景。讓一線業(yè)務(wù)人員在不需要充分理解技術(shù)的前提下,快速針對業(yè)務(wù)訴求完成數(shù)據(jù)分析,實現(xiàn)數(shù)據(jù)決策,這是神策數(shù)據(jù)(Sensors Data)項目的一個愿景。
我從百度出來后進入了游戲行業(yè),后來輾轉(zhuǎn)到海外發(fā)展,對國內(nèi)行業(yè)的現(xiàn)狀了解不多。說來也有意思,好幾個游戲行業(yè)同行創(chuàng)業(yè)者,在不同場合主動跟我提及神策數(shù)據(jù)非常有價值,對他們的業(yè)務(wù)幫助很大,我才注意到文鋒的創(chuàng)業(yè)項目,并欽佩于他們現(xiàn)在所取得的成就,這個成就,不是說這家公司收了多少服務(wù)費,賺了多少錢,而是他們真的有效提升了整個行業(yè)的數(shù)據(jù)決策能力,有效降低了數(shù)據(jù)決策的操作成本和門檻,這個價值是從業(yè)者們尤為要感謝的。
感謝文鋒,提前讓我閱讀了這本書籍,我覺得,對于希望提升數(shù)據(jù)決策能力、了解數(shù)據(jù)決策真相的從業(yè)者,這本書是很好的讀物,其內(nèi)容并非晦澀難懂的技術(shù)描述,而更多是對數(shù)據(jù)驅(qū)動和數(shù)據(jù)分析的理解,并以親身案例作為輔助講解。建立正確的認識是做好數(shù)據(jù)決策的前提,而其中所提到的很多問題場景,相信也是很多從業(yè)者經(jīng)常遇到和面對的。
以上,希望對您的閱讀和選擇,有所幫助。
曹 政
曾任百度商業(yè)分析部經(jīng)理,現(xiàn)知名IT自媒體博主
互聯(lián)網(wǎng)游戲出海領(lǐng)域創(chuàng)業(yè)者
推薦序2
推薦序3
我一直覺得數(shù)據(jù)分析是一種修行,修的是思考的能力,行的是落實成為方案的方法。經(jīng)過多年的工作,正是不經(jīng)一番寒徹骨,怎得梅花撲鼻香。回想我與文鋒初次見面便談到數(shù)據(jù)化的過程,阿里與百度都經(jīng)歷過這樣的挑戰(zhàn),我想這便是他請我寫推薦序的原因吧。
以前企業(yè)中只有一小部分人具備數(shù)據(jù)分析的能力,隨著近幾年數(shù)據(jù)平臺的成熟,數(shù)據(jù)從收集到使用越來越方便,以往想要出一份分折報告可能要等上數(shù)周的日子已經(jīng)一去不復(fù)返。曾經(jīng)有一位業(yè)務(wù)方代表對我說過,在等候分析報告出來與拍腦之間,我選擇了后者,因為時機更重要。可想而知決策的速度很關(guān)鍵。在后信息時代,DT1的普適度將變得更直接、簡單。未來的智能時代,我很相信很多分析報告也將被自動化的智能決策所取代,屆時智慧的人類也將要升級到神策的階段,人更要學(xué)會駕馭決策上的決策、邏輯上的邏輯。
當然,理想歸理想,在智能決策的路上還需要很多同行們努力,而文鋒在書內(nèi)的描述正是他這幾年創(chuàng)業(yè)的發(fā)現(xiàn)與精華。
車品覺
紅杉中國專家合伙人、全國信標委大數(shù)據(jù)標準工作組副組長
1 DT,Data Technology,數(shù)據(jù)處理技術(shù)。
推薦序4
當今物聯(lián)時代,業(yè)界同仁都在談大數(shù)據(jù)和人工智能。大數(shù)據(jù)已成眾多公司的核心資產(chǎn),大數(shù)據(jù)戰(zhàn)略已成眾多公司的核心戰(zhàn)略。之所以如此,一是因為大數(shù)據(jù)技術(shù)的普及,二是因為大數(shù)據(jù)已經(jīng)為無數(shù)企業(yè)帶來了實打?qū)嵉暮诵膬r值。大數(shù)據(jù)4V1中最重要的還是接地氣的價值驅(qū)動Value。使用大數(shù)據(jù)技術(shù),挖掘大數(shù)據(jù)價值,不斷優(yōu)化用戶體驗、客戶體驗、產(chǎn)品體驗,已然成為當今企業(yè)成功的金科玉律。
1996年我在美國正式進入職場。我在職業(yè)生涯的早期就對數(shù)據(jù)情有獨鐘,那個時候還沒有大數(shù)據(jù)這個提法。這不僅僅是出于對數(shù)據(jù)技術(shù)的喜好,也是因為我在做數(shù)據(jù)項目的時候,真正體會到了數(shù)據(jù)給業(yè)務(wù)帶來的不同。1998年我加入Yahoo!,成為第一個專門做數(shù)據(jù)的工程師,用一句話總結(jié)我在Yahoo! 7年的工作,那就是使用大數(shù)據(jù)更好地理解用戶,驅(qū)動用戶產(chǎn)品創(chuàng)新,更好地服務(wù)用戶。2005年我離開Yahoo!加入Google是源于好奇心,當時Google的流量是Yahoo!的1/10,但收益卻跟Yahoo!一樣多。為什么搜索會這么賺錢?用一句話總結(jié)我在Google 6年的工作,那就是使用大數(shù)據(jù)能更好地理解客戶廣告訴求,驅(qū)動廣告產(chǎn)品創(chuàng)新,更好地服務(wù)廣告主。
2011年我有幸加入百度帶領(lǐng)數(shù)據(jù)團隊。百度是一個對大數(shù)據(jù)工作非常重視的公司。大數(shù)據(jù)工作是百度的核心競爭力之一,其核心搜索業(yè)務(wù)也是建立在大數(shù)據(jù)
1 4V,Volume(大量)、Velocity(高速)、Variety(多樣)和Value(價值)。
技術(shù)之上的。文鋒是我在百度工作期間的愛將。在百度工作的幾年中,我跟文鋒、曹犟、力力、耀洲等聰明能干、充滿活力的同學(xué)們一起,在實戰(zhàn)中不斷總結(jié)與學(xué)習(xí),一同推進大數(shù)據(jù)技術(shù)的進步,這是一段非常享受并有成就感的經(jīng)歷。
我在百度大數(shù)據(jù)工作時,跟小伙伴們一起啟動了不少項目,一切都圍繞發(fā)揮大數(shù)據(jù)價值而發(fā)力。大數(shù)據(jù)價值從讓數(shù)據(jù)說話開始,大數(shù)據(jù)驅(qū)動決策。幾乎每一個產(chǎn)品都是一個閉環(huán)的生態(tài)。從產(chǎn)品上線的第一天起,用戶就在不斷用手或腳投票,告訴你哪里好用、哪里需要改進。用戶越多,這個閉環(huán)正負反饋的信息量就越大。當我們可以快速地把這些信息以報表分析的形式,展現(xiàn)給我們的產(chǎn)品經(jīng)理、產(chǎn)品研發(fā)工程師及各級決策者們的時候,就能不斷地發(fā)現(xiàn)機會、迭代改進產(chǎn)品。當數(shù)據(jù)量達到一定規(guī)模后,數(shù)據(jù)所反饋的趨勢就越清楚,這不僅體現(xiàn)在更好地理解現(xiàn)有需求上,也會不斷挖掘新的需求,預(yù)測引導(dǎo)用戶需求,不斷改進創(chuàng)新產(chǎn)品。
搜索如此,廣告如此,新領(lǐng)域創(chuàng)新也是如此。從預(yù)防疾病,提升百姓健康體驗,到挖掘旅游熱點,提供最佳出游體驗,到因材施教,顛覆特權(quán)教育,到預(yù)測交通流量,改善交通擁堵,大數(shù)據(jù)驅(qū)動顛覆式創(chuàng)新。
大數(shù)據(jù)的另一個更重要的價值在于讓數(shù)據(jù)為用戶工作,驅(qū)動個性化服務(wù)。當數(shù)據(jù)量達到一定規(guī)模后,因人工智能算法已經(jīng)普及,故對用戶每一次產(chǎn)品使用背后意圖的把握就會越來越精準,從而可以做到為用戶提供有針對性的個性化服務(wù)。這種個性化可以從用戶群組個性化開始,也就是對不同類型的受眾提供不同的服務(wù),可以做到針對每個用戶的個性化服務(wù),甚至細化到對每一個用戶每一個動作的個性化服務(wù)。大數(shù)據(jù)價值在這一點上的發(fā)力可以真正引爆產(chǎn)品生態(tài)閉環(huán)的馬太效應(yīng)。
文鋒在書中把他過去豐富的實踐經(jīng)驗做了非常好的總結(jié),干貨滿滿,源于實踐又高于實踐。文鋒一直想成為中國大數(shù)據(jù)產(chǎn)業(yè)興旺的推動者,他創(chuàng)建了神策數(shù)據(jù)(Sensors Data),不斷踐行自己的理想。本書字里行間生動活潑,也體現(xiàn)出作者對大數(shù)據(jù)領(lǐng)域的理想情懷和腳踏實地的實干家精神。對大數(shù)據(jù)行業(yè)的每一位實踐者和企業(yè)家來說,本書都非常值得一讀。
呂厚昌(Alex Lu)
曾任百度高級總監(jiān),Pinterest大數(shù)據(jù)部負責人
第1章 從百度大數(shù)據(jù)工作的經(jīng)歷說開 / 1
百度數(shù)據(jù)板塊:網(wǎng)頁數(shù)據(jù)和用戶行為數(shù)據(jù) / 3
搜索引擎發(fā)展 / 4
用戶行為分析踐行:百度知道的回答量提升 7.5% / 5
從零到一構(gòu)建百度大數(shù)據(jù)分析平臺 / 6
數(shù)據(jù)源與 Event 模型的重要性 / 9
大數(shù)據(jù)是屠龍術(shù) / 10
第2章 大數(shù)據(jù)思維與數(shù)據(jù)驅(qū)動 / 11
大數(shù)據(jù)的概念 / 14
大數(shù)據(jù)之大 / 14
大數(shù)據(jù)之全 / 15
大數(shù)據(jù)之細 / 16
大數(shù)據(jù)之時 / 16
大數(shù)據(jù)的本質(zhì) / 17
數(shù)據(jù)驅(qū)動理念與現(xiàn)狀 / 20
數(shù)據(jù)驅(qū)動的價值 / 20
企業(yè)內(nèi)部數(shù)據(jù)驅(qū)動現(xiàn)狀 / 21
理想的數(shù)據(jù)驅(qū)動 流 / 23
大數(shù)據(jù)時代到來的條件 / 24
數(shù)據(jù)采集能力增強 / 25
數(shù)據(jù)處理能力增強 / 26
數(shù)據(jù)意識的提升 / 27
第3章 數(shù)據(jù)驅(qū)動的環(huán)節(jié) / 29
數(shù)據(jù)采集與埋點 / 32
數(shù)據(jù)采集的現(xiàn)狀 / 32
數(shù)據(jù)采集遵循法則 / 34
科學(xué)的數(shù)據(jù)采集和埋點方式 / 36
數(shù)據(jù)的準確性 / 40
數(shù)據(jù)建模 / 44
數(shù)據(jù)模型與建模 / 44
多維數(shù)據(jù)模型 / 46
多維事件模型 / 49
多維事件模型的探索經(jīng)歷 / 52
數(shù)據(jù)分析方法 / 55
行為事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
點擊分析 / 67
用戶路徑 / 73
用戶分群 / 75
屬性分析 / 80
指標體系構(gòu)建 / 82
第一關(guān)鍵指標法 / 82
海盜指標法 / 86
第4章 數(shù)據(jù)驅(qū)動產(chǎn)品和運營決策 / 89
數(shù)據(jù)驅(qū)動運營監(jiān)控 / 91
用戶獲取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引薦(Referral) / 99
營收(Revenue) / 101
數(shù)據(jù)驅(qū)動產(chǎn)品改進和體驗優(yōu)化 / 102
數(shù)據(jù)驅(qū)動商業(yè)決策 / 104
數(shù)據(jù)驅(qū)動落地企業(yè),要從管理者做起 / 106
數(shù)據(jù)驅(qū)動商業(yè)決策的價值 / 108
第5章 數(shù)據(jù)驅(qū)動產(chǎn)品智能 / 109
數(shù)據(jù)平臺及用戶智能 / 114
如何計算熱門榜單 / 114
客服系統(tǒng)中的行為數(shù)據(jù) / 114
為什么需要數(shù)據(jù)平臺 / 115
數(shù)據(jù)平臺提供的能力 / 116
數(shù)據(jù)應(yīng)用與用戶智能 / 119
基于用戶行為數(shù)據(jù)的用戶智能應(yīng)用 / 119
用戶智能分類:基于規(guī)則與機器學(xué)習(xí) / 123
用戶智能應(yīng)用用戶畫像 / 132
兩種用戶畫像:User Persona與User Profile / 132
用戶畫像(User Profile)標簽體系的建立 / 135
用戶智能應(yīng)用個性化推薦 / 139
個性化推薦的概念 / 139
架構(gòu)實現(xiàn) / 140
數(shù)據(jù)流 / 142
業(yè)務(wù)分析與模型選擇 / 143
實驗與迭代 / 144
第6章 各行業(yè)實踐數(shù)據(jù)分析全過程 / 147
互聯(lián)網(wǎng)金融數(shù)據(jù)驅(qū)動實踐 / 149
實踐案例 / 150
企業(yè)服務(wù)數(shù)據(jù)驅(qū)動實踐 / 158
數(shù)據(jù)驅(qū)動能夠為企業(yè)服務(wù)做什么 / 159
面臨的挑戰(zhàn) / 160
數(shù)據(jù)應(yīng)用的階段 / 161
實踐案例 / 168
零售行業(yè)數(shù)據(jù)驅(qū)動實踐 / 175
實踐案例 / 176
電子商務(wù)數(shù)據(jù)驅(qū)動實踐 / 186
打破企業(yè)發(fā)展經(jīng)營困局:從粗放式到精細化 / 186
電商企業(yè)數(shù)據(jù)驅(qū)動瓶頸 / 187
實踐案例 / 187
寫在最后的話 / 197