伴隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)價值的挖掘以及產(chǎn)品化逐漸被重視起來。本書作為該領域的入門教程,打破以往的數(shù)據(jù)工具與技術的介紹模式,憑借作者在大數(shù)據(jù)價值探索過程中的所感所悟,以故事的形式和讀者分享一個又一個的數(shù)據(jù)經(jīng)歷,引人深思、耐人尋味。全書共9章,第1~2章介紹數(shù)據(jù)情懷與數(shù)據(jù)入門;第3~6章討論大數(shù)據(jù)挖掘相關的一系列學習體系;第7~9章為實踐應用與數(shù)據(jù)產(chǎn)品的介紹。讓所有學習大數(shù)據(jù)挖掘的朋友清楚如何落地,以及在整個數(shù)據(jù)生態(tài)圈所需要扮演的角色,全面了解數(shù)據(jù)的上下游。
不依賴工具包,結合場景個性化構建業(yè)務模型
有數(shù)據(jù)情懷,更有深刻認知
是數(shù)據(jù)圈的一股清流,是初學者的入門指南,
也是傳統(tǒng)挖掘者的進階之路
前言
這是一本關于大數(shù)據(jù)挖掘與數(shù)據(jù)產(chǎn)品的參考讀物,為了使盡可能多的讀者通過本書對大數(shù)據(jù)應用有所了解,筆者以個人所感所悟引導初學者正確學習大數(shù)據(jù)挖掘。但是基礎知識歸納、開發(fā)環(huán)境部署、算法原理的介紹都是不可避免的。因此,本書更適合于工作經(jīng)驗在3年以內(nèi)的數(shù)據(jù)挖掘工程師,以及轉型入門做數(shù)據(jù)挖掘的人士,或者是對數(shù)據(jù)產(chǎn)品感興趣的追逐者閱讀。
全書共9章,第1~2章介紹數(shù)據(jù)情懷與數(shù)據(jù)入門;第3~6章討論大數(shù)據(jù)挖掘相關的一系列學習體系;第7~9章為實踐應用與數(shù)據(jù)產(chǎn)品的介紹。
本書在內(nèi)容上盡可能以故事的形式,輕松愉快地介紹大數(shù)據(jù)、數(shù)據(jù)挖掘與數(shù)據(jù)產(chǎn)品實踐應用的各方面內(nèi)容。但作為學習方向性的引導讀物且考慮到本書主題,很多常見的算法、技術知識點未能覆蓋,畢竟相關的內(nèi)容在網(wǎng)上已經(jīng)有很多了,但大多數(shù)內(nèi)容只是“術”,而缺乏“神”。所以本書才另尋思路,以筆者的真實經(jīng)歷告訴讀者在學習過程中可能會遇到的“坑”,以及該如何正確學習。因此,建議有興趣的讀者進一步鉆研探索,結合更多的學習資料實踐應用。
筆者認為,大數(shù)據(jù)時代的發(fā)展,已經(jīng)逐漸從基礎性的建設、數(shù)據(jù)的積累,慢慢轉變成對于數(shù)據(jù)價值的探索以及業(yè)務痛點的落地解決。因此,建議更多的數(shù)據(jù)挖掘?qū)W習者要結合業(yè)務場景思考,多了解數(shù)據(jù)生態(tài)圈的上下游,認清數(shù)據(jù)產(chǎn)品價值的重要性,以及知曉自身在整個數(shù)據(jù)流程中所扮演的角色的重要性。閱讀這些內(nèi)容的意義遠遠超過對數(shù)據(jù)分析工具、算法模型的熟練度的意義。
大數(shù)據(jù)、人工智能發(fā)展極為迅速,但是數(shù)據(jù)價值的輸出仍然存在瓶頸,極大的原因是由于廣大追逐者在對數(shù)據(jù)探索時走向了誤區(qū),把更多心思放在了“玩轉數(shù)據(jù)”,而不是真正地解決業(yè)務痛點。所以,希望閱讀本書的每一位讀者都能夠從筆者的過往經(jīng)歷和所感所悟中感受到數(shù)據(jù)之禪。參與本書編寫的人員還有王勇老師,在此表示感謝。
筆者自認自己還有許多需要學習的地方,同時時間和精力有限,書中不足之處在所難免,望廣大讀者批評指正,不勝感激。
收起全部↑
汪榕(@樂平汪二),一個充滿大數(shù)據(jù)情懷的程序員,致力于分享自己的所感所悟,為數(shù)據(jù)生態(tài)圈的健康發(fā)展貢獻自己一份力量。擁有6年的業(yè)務建模經(jīng)驗,曾率隊奪得全國大學生數(shù)據(jù)建模一等獎,并代表重慶高校隊伍與全國優(yōu)秀名校一起參與深圳夏令營建模比賽。
目前從事互聯(lián)網(wǎng)金融行業(yè),專注于大數(shù)據(jù)挖掘與數(shù)據(jù)產(chǎn)品。同時也是大數(shù)據(jù)挖掘雜談社區(qū)的創(chuàng)建人,匯集了全球各地的數(shù)據(jù)愛好者,共同探索數(shù)據(jù)的價值。
第1章數(shù)據(jù)情懷篇
1.1 數(shù)據(jù)之禪
1.2 數(shù)據(jù)情懷
1.2.1 數(shù)據(jù)情懷這股勁
1.2.2 對數(shù)據(jù)情懷的理解
1.3 大數(shù)據(jù)時代的我們
1.4 成為DT時代的先驅(qū)者
1.4.1 數(shù)據(jù)沒有寒冬
1.4.2 數(shù)據(jù)生態(tài)問題
1.4.3 健康的數(shù)據(jù)生態(tài)
1.4.4 結尾
第2章數(shù)據(jù)入門
2.1 快速掌握SQL的基礎語法
2.1.1 初識SQL
2.1.2 學會部署環(huán)境
2.1.3 常用的SQL語法(上篇)
2.1.4 常用的SQL語法(下篇)
2.2 在Windows 7操作系統(tǒng)上搭建IPython Notebook
2.2.1 學習Python的初衷
2.2.2 搭建IPython Notebook
2.2.3 IPython.exe Notebook的使用說明
2.2.4 配置IPython Notebook遠程調(diào)用
2.3 快速掌握Python的基本語法
2.4 用Python搭建數(shù)據(jù)分析體系
2.4.1 構建的初衷
2.4.2 構建思路
2.4.3 開發(fā)流程
2.5 Python學習總結
2.5.1 關于Python
2.5.2 Python其他知識點
第3章大數(shù)據(jù)工具篇
3.1 Hadoop偽分布式的安裝配置
3.1.1 部署CentOS環(huán)境
3.1.2 部署Java環(huán)境
3.1.3 部署Hadoop偽分布式環(huán)境
3.2 數(shù)據(jù)挖掘中的MapReduce編程
3.2.1 學習MapReduce編程的目的
3.2.2 MapReduce的代碼規(guī)范
3.2.3 簡單的案例
3.3 利用MapReduce中的矩陣相乘
3.3.1 矩陣的概念
3.3.2 不同場景下的矩陣相乘
3.4 數(shù)據(jù)挖掘中的Hive技巧
3.4.1 面試心得
3.4.2 用Python執(zhí)行HQL命令
3.4.3 必知的HQL知識
3.5 數(shù)據(jù)挖掘中的HBase技巧
3.5.1 知曉相關依賴包
3.5.2 從HBase中獲取數(shù)據(jù)
3.5.3 往HBase中存儲數(shù)據(jù)
第4章大數(shù)據(jù)挖掘基礎篇
4.1 MapReduce和Spark做大數(shù)據(jù)挖掘的差異
4.1.1 初識Hadoop生態(tài)系統(tǒng)
4.1.2 知曉Spark的特點
4.1.3 編程的差異性
4.1.4 它們之間的靈活轉換
4.1.5 選擇合適的工具
4.2 搭建大數(shù)據(jù)挖掘開發(fā)環(huán)境
4.3 動手實現(xiàn)算法工程
4.3.1 知曉Spark On Yarn的運作模式
4.3.2 創(chuàng)作第一個數(shù)據(jù)挖掘算法
4.3.3 如何理解“樸素”二字
4.3.4 如何動手實現(xiàn)樸素貝葉斯算法
第5章大數(shù)據(jù)挖掘認知篇
5.1 理論與實踐的差異
5.2 數(shù)據(jù)挖掘中的數(shù)據(jù)清洗
5.2.1 數(shù)據(jù)清洗的那些事
5.2.2 大數(shù)據(jù)的必殺技
5.2.3 實踐中的數(shù)據(jù)清洗
5.3 數(shù)據(jù)挖掘中的工具包
5.3.1 業(yè)務模型是何物
5.3.2 想做一個好的模型
第6章大數(shù)據(jù)挖掘算法篇
6.1 時間衰變算法
6.1.1 何為時間衰變
6.1.2 如何理解興趣和偏好
6.1.3 時間衰變算法的抽象
6.1.4 采用Spark實現(xiàn)模型
6.2 熵值法
6.2.1 何為信息熵
6.2.2 熵值法的實現(xiàn)過程
6.2.3 業(yè)務場景的介紹
6.2.4 算法邏輯的抽象
6.3 預測響應算法
6.3.1 業(yè)務場景的介紹
6.3.2 構建模型的前期工作
6.3.3 常用的預測模型
6.4 層次分析算法
6.5 工程能力的培養(yǎng)與實踐
6.5.1 工程能力的重要性
6.5.2 利用Python實現(xiàn)層次分析法
第7章用戶畫像實踐
7.1 用戶畫像的應用場景
7.1.1 背景描述
7.1.2 需求調(diào)研
7.2 用戶畫像的標簽體系
7.2.1 需求分析
7.2.2 標簽的構建
7.3 用戶畫像的模塊化思維
7.3.1 何為模塊化思維
7.3.2 用戶畫像與模塊化思維
7.4 用戶畫像的工程開發(fā)
7.4.1 對于開發(fā)框架的選擇
7.4.2 模塊化功能的設計
7.5 用戶畫像的智能營銷
7.5.1 業(yè)務營銷
7.5.2 營銷構思
7.5.3 技術難點
第8章反欺詐實踐篇
8.1 “羊毛黨”監(jiān)控的業(yè)務
8.1.1 “羊毛黨”的定義與特點
8.1.2 “羊毛”存在的必然性
8.1.3 “羊毛黨”的進化
8.1.4 “羊毛黨”存在的利與弊
8.1.5 “羊毛黨”監(jiān)控平臺的意義
8.2 “羊毛黨”監(jiān)控的設備指紋
8.2.1 何為設備指紋
8.2.2 底層參數(shù)
8.2.3 應用場景
8.2.4 移動端的數(shù)據(jù)持久化
8.2.5 設備指紋生成算法
8.3 “羊毛黨”監(jiān)控的數(shù)據(jù)驅(qū)動
8.3.1 監(jiān)控的目的
8.3.2 數(shù)據(jù)如何“食用”
8.4 “羊毛黨”監(jiān)控的實踐分享
第9章大數(shù)據(jù)挖掘踐行篇
9.1 如何從0到1轉型到大數(shù)據(jù)圈子
9.2 數(shù)據(jù)挖掘從業(yè)者綜合能力評估
9.2.1 度量的初衷
9.2.2 綜合能力評估
9.2.3 個人指標體系(大數(shù)據(jù)挖掘)
9.3 給想要進入數(shù)據(jù)挖掘圈子的新人一點建議
9.3.1 誠信與包裝
9.3.2 籌備能力
9.3.3 投好簡歷
9.3.4 把握面試
9.3.5 結尾
后記數(shù)據(jù)價值探索與數(shù)據(jù)產(chǎn)品實踐
數(shù)據(jù)之禪
大數(shù)據(jù)不是新概念,它一直存在,且不以人的意識為轉移。
大數(shù)據(jù)的價值并不在于積累,而在于用更全面的角度去解讀事物本身。
業(yè)務場景對于數(shù)據(jù)而言極其重要,它決定了你的分析思路。
當你沉迷于令人眼花繚亂的技術時,要記得數(shù)據(jù)才是最本質(zhì)的一切。
浮躁時,找個時間去觀察數(shù)據(jù),你會得到意想不到的驚喜。
對待數(shù)據(jù),要有敬畏之心。因為假的真不了,真的篡改不了。
不要試圖去猜測數(shù)據(jù),在你沒讀懂時,肯定還有一層層迷霧遮擋著你。
世間的萬物皆有規(guī)律,有因有果,數(shù)據(jù)的表現(xiàn)也是這個道理。
要做好一個數(shù)據(jù)人,就要懂得沉淀,這樣才能透過現(xiàn)象看到本質(zhì)。
數(shù)據(jù)情懷
談起大數(shù)據(jù),知曉它的人都會說:勢頭猛、高科技、待遇好。“圈外”的人,迫不及待想一頭扎進來。殊不知,“圈里”的大部分人卻在坐以待斃,茫然無方向。
這些年,筆者接觸過很多工作,如數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、數(shù)據(jù)挖掘和產(chǎn)品經(jīng)理,但都與數(shù)據(jù)產(chǎn)品相關,從來沒改變過。近些年,隨著“數(shù)據(jù)”概念的火熱,越來越多的人涌向數(shù)據(jù)這個領域。
數(shù)據(jù)情懷這股勁
自始至終,國內(nèi)真正領悟到大數(shù)據(jù)產(chǎn)品精髓核心的人并不多,有價值的數(shù)據(jù)產(chǎn)品更是屈指可數(shù)。難道大數(shù)據(jù)的價值在一款跨時代的數(shù)據(jù)產(chǎn)品身上這么難體現(xiàn)嗎?歸根結底,關鍵性因素是“數(shù)據(jù)情懷”惹的禍。為什么這樣說?很多身處大數(shù)據(jù)領域的人,不管是做培訓,還是做產(chǎn)品,缺乏真正意義上的那一股勁——“數(shù)據(jù)情懷”,而這股勁,直接影響著你在為這個領域的蓬勃發(fā)展貢獻多大的力量。
對數(shù)據(jù)情懷的理解
數(shù)據(jù)情懷都體現(xiàn)在哪些方面?概括起來,有以下幾個詞:
初心
使命感
快感
共鳴與傲嬌
這是筆者對待大數(shù)據(jù)的一種態(tài)度。下面分別講幾個故事。
初心:不忘初心,方得始終。
有位朋友向我提過這樣的問題:你是如何趕上機遇,選擇這個領域的?是熱愛,還是偶然?我很理解這個問題被提出的出發(fā)點,因為我知道現(xiàn)在大數(shù)據(jù)圈子里有這樣一個現(xiàn)象:
很大一群“準大數(shù)據(jù)人”,正在培訓班里接受培訓或者自己學習。
一部分轉型做數(shù)據(jù)開發(fā)的大數(shù)據(jù)人,工作年限在5年以上,很多人是從Java開發(fā)轉行過來做大數(shù)據(jù)框架的,真正接觸大數(shù)據(jù)的時間不會超過兩年。
一部分轉型做數(shù)據(jù)倉庫或數(shù)據(jù)分析的大數(shù)據(jù)人,是從傳統(tǒng)BI數(shù)據(jù)轉過來的。
這樣轉型,除職業(yè)發(fā)展中的規(guī)劃外,也有薪酬水平的原因,很幸運自己就算是其中一個。
故事一:筆者與數(shù)學的藕斷絲連
筆者是學通信專業(yè)的,從小到大數(shù)學都很厲害,一路以來,轉變過很多方向,都是在尋找一個答案——學數(shù)學的意義。
筆者在上大學以前,數(shù)學一直不錯。上了大學后,還曾經(jīng)熬夜鉆研過哥德巴赫猜想,十分興奮。但后來想明白了,數(shù)學公式的計算、求證和推導,并不是我感興趣的。在大學有機會接觸數(shù)學建模,頃刻間覺得它是應用數(shù)學在實踐中的真正應用,是一種知識的融合和思考問題的突破。筆者參加了11次比賽,除在深圳參加夏令營遺憾地獲得了三等獎,最后一次參加比賽獲得美國建模二等獎外,剩余都是一等獎(其中也包括全國大學生數(shù)學建模一等獎)。
這時大數(shù)據(jù)時代來臨,筆者覺得從大數(shù)據(jù)中或許能夠找到數(shù)學乃至數(shù)據(jù)真正的意義,這的確是筆者喜歡瞎折騰的一個初心,太想在自己身上找到數(shù)學存在的意義了。所以,當時第一個想法是玩轉數(shù)學。剛開始總是圍繞數(shù)據(jù)源打轉,做一些類似阿里指數(shù)那樣的大數(shù)據(jù)報表,總想把各種大數(shù)據(jù)生態(tài)圈底層的開發(fā)技術都了解到,但這么做費力不討好,也沒有體現(xiàn)出大數(shù)據(jù)真正的價值在何處。后來,在從事大數(shù)據(jù)領域工作的過程中,又轉變了一些方向,有幸多次參與對一家美妝公司,甚至是一些高層的調(diào)研。花了一個多月的時間,慢慢領悟到業(yè)務真正需要數(shù)據(jù)為它做什么和業(yè)務方需要什么樣的數(shù)據(jù)產(chǎn)品。數(shù)據(jù)真正的價值潛力很大,只是還很少有人去探索成功罷了。
這是自己目前折騰的事,至少這一路的初心,都是在尋找數(shù)學乃至數(shù)據(jù)的價值。并不是每個從事大數(shù)據(jù)工作的人,都必須要像筆者這樣折騰,但至少你需要思考一下,當初選擇進入這個圈子是自己的初心,還是執(zhí)著,或者只是追潮流?
使命感:人這一輩子,能折騰的事不多,用心做好每一件事。
故事二:筆者的朋友圈,一些活躍的、典型的數(shù)據(jù)人
在筆者的朋友圈有位特別專注于智能金融的“捷哥”,一個從國外回來創(chuàng)業(yè),想在互聯(lián)網(wǎng)金融這個行業(yè)探索數(shù)據(jù)價值的人;有天天吟詩作樂,深深陶醉在大數(shù)據(jù)情懷的高總,同時他也有著大數(shù)據(jù)人才思維培養(yǎng)的重任;有從事自由職業(yè),卻天天飛這飛那做培訓的黃老師,一直重視著業(yè)務與數(shù)據(jù)緊密結合,推廣著自己寫的書;有想在培訓行業(yè)做出一番貢獻,一直默默籌備著機會的老李,充滿了情懷,立志于打破目前大數(shù)據(jù)培訓的混亂局面。
這些人充滿了使命感,即使迷途惆悵,也堅信光明就在遠方。我喜歡這樣的一群人,只是這樣的人在大數(shù)據(jù)的圈子里面太少太少了。
故事三:特立獨行的數(shù)據(jù)人
有些特立獨行的數(shù)據(jù)人踏入大數(shù)據(jù)圈子僅僅是為了轉型,為了薪酬,為了養(yǎng)老,并不想真正做出點什么。他們擁有一定的專業(yè)技能,但總在小圈子里鉆,認為不斷學習技術才是存在感,卻不知技術本身真正的意義和價值,難應用于業(yè)務。
快感:一種想到就會小抽搐,跌宕起伏的興奮。
故事四:最近上線的數(shù)據(jù)產(chǎn)品,讓筆者充滿了快感
幾年前,領導私下問每個新人,對工作有什么規(guī)劃,如下類似的答案從別人口中說出:想做資深Hadoop運維工程師、架構師、數(shù)據(jù)倉庫大牛等。筆者的回答是:想做一款數(shù)據(jù)產(chǎn)品。結果被笑不切 實際(卻沒人知道,筆者當初為了面試數(shù)據(jù)產(chǎn)品經(jīng)理,整整準備了兩大頁自己的構思和知識點的整合)。前些日子,由于個人發(fā)展方面的原因,筆者跳槽了,在面試過程中,還是有人問職業(yè)規(guī)劃的問題。筆者認為,會有人相信了,所以說了自己這幾年做了很多準備,就是想以后成為數(shù)據(jù)產(chǎn)品經(jīng)理,做一款有自己特色的大數(shù)據(jù)產(chǎn)品。結果出乎意料,都被一一質(zhì)疑,以及婉拒了。后面我變聰明了,改口說要成為資深數(shù)據(jù)挖掘師,沉醉于技術海洋里。聽者興奮,說者無心。很幸運,來目前這家公司的這段時間里,花了半年多的時間,真切地擁有屬于自己特色的數(shù)據(jù)產(chǎn)品了。從無到有,從需求的調(diào)研和分析、系統(tǒng)功能的規(guī)劃和確定,到前后端功能的開發(fā)、推動和聯(lián)調(diào)。
共鳴與傲嬌:我們天生傲嬌,卻在渴望尋找著共鳴的聲音。
老羅在一次發(fā)布會上提到了傲嬌這個詞,那種由心而然的底氣很強烈,每次看發(fā)布會直播,筆者都能深深感受到,因為在大數(shù)據(jù)圈子里也有這樣的一面。就像錘子手機,從創(chuàng)辦至今,雖然不被一些人看好,但卻在辦每一次發(fā)布會時引起全國、全世界的關注。
能感受到老羅內(nèi)心里的渴望,渴望共鳴的聲音。即使聲音很弱、很小,但卻急切期待懂他的人能夠共鳴,老羅找到了這樣一些共鳴。每次聽他發(fā)布會的“錘粉”們,因為懂他,也都會替他緊緊捏著一把汗。
回到大數(shù)據(jù)圈子里,每一個圈子里面的人,都在做著改變未來世界的事,都有可能引領大數(shù)據(jù)科技與生活的完美融合,不管是互聯(lián)網(wǎng)+、生物醫(yī)療、基因工程、智能家居還是人工智能等,太多新領域充滿了未知,充滿了使命感。所以,我們真正天生傲嬌,每個人都是自己的英雄。
……