《數(shù)據(jù)科學(xué)實(shí)戰(zhàn)》脫胎于哥倫比亞大學(xué)“數(shù)據(jù)科學(xué)導(dǎo)論”課程的教學(xué)講義,它界定了數(shù)據(jù)科學(xué)的研究范疇,是一本注重人文精神,多角度、全方位、深入介紹數(shù)據(jù)科學(xué)的實(shí)用指南,堪稱大數(shù)據(jù)時代的實(shí)戰(zhàn)寶典。本書旨在讓讀者能夠舉一反三地解決重要問題,內(nèi)容包括:數(shù)據(jù)科學(xué)及工作流程、統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)算法、信息提取與統(tǒng)計(jì)變量創(chuàng)建、數(shù)據(jù)可視化與社交網(wǎng)絡(luò)、預(yù)測模型與因果分析、數(shù)據(jù)預(yù)處理與工程方法。另外,本書還將帶領(lǐng)讀者展望數(shù)據(jù)科學(xué)未來的發(fā)展。
大數(shù)據(jù)時代,人們越來越意識到數(shù)據(jù)在工作和生活中的重要性,數(shù)據(jù)科學(xué)家應(yīng)運(yùn)而生。面對媒體天花亂墜的炒作,怎么才能撥云見日,真正掌握這門跨學(xué)科利用數(shù)據(jù)的學(xué)問呢?這本脫胎于常春藤名校哥倫比亞大學(xué)“數(shù)據(jù)科學(xué)導(dǎo)論”課程的實(shí)戰(zhàn)手冊能夠給你一個滿意的回答。
本書作者Rachel Schutt曾在谷歌研究院工作多年,現(xiàn)為美國新聞集團(tuán)數(shù)據(jù)科學(xué)高級副總裁。她在哥倫比亞大學(xué)任教期間,廣泛邀請了谷歌、微軟、eBay及一些創(chuàng)業(yè)公司的數(shù)據(jù)科學(xué)家為學(xué)生授課,打破了所謂大學(xué)里教不出數(shù)據(jù)科學(xué)家的神話。這些講座涵蓋了上述公司及業(yè)界使用的新算法、方法和模型。本書就是在這些一手資料基礎(chǔ)上匯編而成的,它不僅可供不具備相關(guān)領(lǐng)域知識的初學(xué)者真正了解數(shù)據(jù)科學(xué),而且也是熟悉線性代數(shù)、概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等主題的人士開闊視野、提升實(shí)戰(zhàn)技能的優(yōu)秀指南。
RachelSchutt
2012年秋天,我在哥倫比亞大學(xué)開設(shè)了一門新課:數(shù)據(jù)科學(xué)導(dǎo)論。作為一個新興領(lǐng)域,數(shù)據(jù)科學(xué)在學(xué)術(shù)界尚未劃分為一個獨(dú)立學(xué)科。那么數(shù)據(jù)科學(xué)到底是什么呢?我將這門課的講義集結(jié)成書,試圖回答這一問題。
為了幫助讀者理解本書及其緣起,我覺得有必要簡單介紹一下我自己,和我設(shè)計(jì)并講授這門課的初衷。
初衷
簡單地說,我期望在我上大學(xué)時就有這樣的課。但那是20世紀(jì)90年代,數(shù)據(jù)爆炸尚未開始,開設(shè)這樣一門課也就無從談起。我本科時主修數(shù)學(xué)專業(yè),主要是做理論和實(shí)證研究。雖然很慶幸這些訓(xùn)練賦予了我嚴(yán)謹(jǐn)解決問題的能力,但同時我也略感遺憾,若當(dāng)時能再學(xué)點(diǎn)實(shí)際應(yīng)用的技巧就更好了。
在從大學(xué)畢業(yè)到獲得統(tǒng)計(jì)學(xué)博士學(xué)位期間,我走了一些彎路,我一直在試圖尋找適合自己的研究領(lǐng)域,喜歡探究隱藏在宇宙中的模式,喜歡解答有趣的謎題,希望可以將自己的這些愛好物盡其用。之所以談起這些,是因?yàn)楝F(xiàn)在很多學(xué)生覺得必須先知道自己這輩子到底想要干什么,我做學(xué)生時,不可能規(guī)劃將來要從事數(shù)據(jù)科學(xué)相關(guān)的工作,因?yàn)槟菚r根本還沒有數(shù)據(jù)科學(xué)這樣一個領(lǐng)域。因此我建議這些學(xué)生,或者其他愿意聽我在這兒嘮叨的人:大可不必這樣。不必現(xiàn)在就規(guī)劃好未來,走點(diǎn)彎路也沒什么,誰知道這一路上你會發(fā)現(xiàn)什么呢?我拿到統(tǒng)計(jì)學(xué)博士學(xué)位后,在谷歌工作了幾年,在這幾年中,數(shù)據(jù)科學(xué)、數(shù)據(jù)科學(xué)家這些術(shù)語才在硅谷流行起來。
這個世界有許多問題尚未解決,對于那些擁有量化思維又樂于開動大腦的人來說,在解決問題的過程中充滿了機(jī)遇。我的目標(biāo)是幫助學(xué)生們成為具有批判性思維的人、能用創(chuàng)新思維去解決問題(甚至是人們尚未發(fā)現(xiàn)的問題)的人,對世界充滿好奇喜歡問問題的人。若要我去構(gòu)建一個數(shù)學(xué)模型,去為治愈癌癥貢獻(xiàn)一份力量,或者揭示出自閉癥的奧秘,或者用來預(yù)防恐怖襲擊,我或許永遠(yuǎn)做不到。但我的學(xué)生有一天會做到,我教給了他們這些知識,就算完成了自己的使命。寫作此書,使我有機(jī)會將畢生所學(xué)傳播給更多的人,我希望他們能從中得到激勵,或者學(xué)到一些有用的工具,來讓這個世界變得更好,而不是更壞。
建模和數(shù)據(jù)分析的過程并非徹底地中立,會受到研究者個人價值觀的影響。研究的問題是由你來挑選的,研究假設(shè)也是你根據(jù)模型得出的,度量方法和算法也是由你來設(shè)計(jì)的。
世界上也并不是所有的問題都需要用數(shù)據(jù)科學(xué)或技術(shù)手段來解決,一個好的數(shù)據(jù)科學(xué)家是指他能甄別出哪些問題適合用數(shù)據(jù)科學(xué)解決,構(gòu)建出對應(yīng)的數(shù)據(jù)模型或者編寫代碼去解決它。但是我相信,在多學(xué)科的團(tuán)隊(duì)中,如果有一個理解數(shù)據(jù)、具有量化思維、精通編程的問題解決者(讓我們將這種人稱為“數(shù)據(jù)科學(xué)家”),這個團(tuán)隊(duì)可能會走得更遠(yuǎn)。
課程的起源
我在2012年3月份提議開設(shè)此課,主要原因有三。其中第一個原因最重要,我將會花最大篇幅去闡述。
原因一:我想告訴我的學(xué)生業(yè)界的數(shù)據(jù)科學(xué)家是怎么工作的,并且讓他們掌握一些數(shù)據(jù)科學(xué)家所使用的技術(shù)。
在為Google+工作時,我所在的數(shù)據(jù)科學(xué)團(tuán)隊(duì)由一群身懷絕技的博士組成,其中有學(xué)社會學(xué)的、學(xué)工程的、學(xué)物理的和學(xué)計(jì)算機(jī)的,而我是統(tǒng)計(jì)學(xué)專業(yè)的。我們隸屬于一個更大的團(tuán)隊(duì),這個團(tuán)隊(duì)有很多天才的數(shù)據(jù)工程師,他們實(shí)現(xiàn)數(shù)據(jù)管道、基礎(chǔ)架構(gòu)、分析面板和一些實(shí)驗(yàn)性質(zhì)的架構(gòu)(用來做A/B測試)。我們的團(tuán)隊(duì)架構(gòu)是扁平化的,我們有海量的數(shù)據(jù),每個人都是各自領(lǐng)域的專家,我們精誠合作,做出了很多不可思議的事,包括建立預(yù)測模型、實(shí)現(xiàn)算法原型、揭示出隱藏在數(shù)據(jù)背后的模式,這些對我們的產(chǎn)品影響深遠(yuǎn)。
以數(shù)據(jù)為基礎(chǔ),我們?yōu)轭I(lǐng)導(dǎo)層的決策提供真知灼見;分析因果關(guān)系,我們發(fā)展出了新的方法論。這些全仰仗世界一流的工程師和技術(shù)設(shè)備。每個人都為團(tuán)隊(duì)引入了專家級的技能,包括編碼、軟件工程、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)、通信、可視化、探索性數(shù)據(jù)分析(EDA)等,還有對社交網(wǎng)絡(luò)和社交空間的數(shù)據(jù)的敏感直覺和專業(yè)知識。
要知道,沒有人是全知全能的,但集合所有人的智慧,我們就做到“無所不能”。我們認(rèn)識到了每種技能的價值,因此就成功了。我們的共同點(diǎn)是守信,對解決有趣的問題充滿好奇心,對待新的科學(xué)發(fā)現(xiàn)既保有適度的懷疑又充滿激情。我們喜愛這項(xiàng)工作,對數(shù)據(jù)背后的模式充滿了好奇。
我居住在紐約,希望把我在谷歌公司的工作經(jīng)驗(yàn)傳授給哥倫比亞大學(xué)的學(xué)生們,我相信他們需要這個,而且,我也喜歡教學(xué)。我想把我從工作中學(xué)到的東西教給他們。另外,我知道紐約的技術(shù)圈里有一個新興的數(shù)據(jù)科學(xué)家社區(qū),我也希望學(xué)生們能從他們身上汲取知識。
因此,這門課程常會邀請業(yè)界或?qū)W術(shù)界的數(shù)據(jù)科學(xué)家來做客座演講。每位嘉賓所專長的技能和領(lǐng)域都不盡相同。我希望通過這樣一種多樣性的組合,讓學(xué)生們對數(shù)據(jù)科學(xué)有一個更全面的認(rèn)識。
原因二:數(shù)據(jù)科學(xué)有希望成為一門極具研究價值、意義深遠(yuǎn)的學(xué)科,它會影響到人們生活的方方面面。為此,哥倫比亞大學(xué)和紐約市市長布隆伯格先生在2012年7月宣布成立了一個數(shù)據(jù)科學(xué)與工程研究所。開設(shè)這門課是在嘗試發(fā)展數(shù)據(jù)科學(xué)的理論,我希望讓數(shù)據(jù)科學(xué)成為一門真正的科學(xué)。
原因三:我時常聽到業(yè)界的數(shù)據(jù)科學(xué)家說,在脫離實(shí)踐的課堂上是無法真正教授數(shù)據(jù)科學(xué)的,我想挑戰(zhàn)一下這種言論。我一直將我的課堂視作數(shù)據(jù)科學(xué)家的孵化器,而我的學(xué)生也確實(shí)表現(xiàn)出色,他們將會成為數(shù)據(jù)科學(xué)界冉冉升起的新星。事實(shí)上,本書其中一章內(nèi)容就是由我的學(xué)生們貢獻(xiàn)的。
本書的起源
如果不是遇到了CathyO‘Neil,我的教學(xué)筆記也不會集結(jié)成書。她是一位數(shù)學(xué)家,后來轉(zhuǎn)型為數(shù)據(jù)科學(xué)家,她的個人博客mathbabe。org很受歡迎,在博客中的“關(guān)于自己”部分,她說自己一直在期待下面這個問題能有更好的答案:非理論派的數(shù)學(xué)家能做些什么以讓這個世界變得更加美好?我向大學(xué)提議開設(shè)數(shù)據(jù)科學(xué)導(dǎo)論這門課程時,恰好認(rèn)識了Cathy,那時她正在一個初創(chuàng)公司工作,職位是數(shù)據(jù)科學(xué)家。對于我開課的嘗試,她十分支持。她還提出親自過來聽課,并在博客上同步直播我的授課內(nèi)容。鑒于我性格比較內(nèi)向低調(diào),起先我并不喜歡這么做,后來Cathy說服了我。她說這與商業(yè)廣告的肆意炒作截然不同,這是一個絕好的機(jī)會,借此可以將“數(shù)據(jù)科學(xué)”的概念向大眾普及。
我在哥倫比亞大學(xué)上的每一節(jié)課,Cathy都會坐在第一排,并不時提出問題。她后來還受邀作為這門課的客座嘉賓給同學(xué)們上了一課(見第6章)。除了將我的講義發(fā)布到博客上,Cathy還對授課內(nèi)容貢獻(xiàn)甚巨,比如,她提醒我們數(shù)據(jù)建模過程中存在一些道德倫理方面的考量。此外,她鼓勵我也同步開設(shè)一個博客(http://columbiadatascience。com/blog/),用來和學(xué)生們做直接交流。我在上面也會總結(jié)自己的教學(xué)經(jīng)驗(yàn),這或許會幫到其他教授。Cathy博客中所有關(guān)于我授課內(nèi)容的條目,再加上我博客中的部分內(nèi)容,構(gòu)成了本書的原始素材,我們在這一基礎(chǔ)上修改加工,再集合一些其他資料,終成此書。
本書內(nèi)容
本書既介紹實(shí)踐應(yīng)用,也提出理論規(guī)范。一方面,本書介紹了一些業(yè)內(nèi)頂尖數(shù)據(jù)科學(xué)家的日常工作內(nèi)容,帶大家看看他們在實(shí)踐中如何應(yīng)用數(shù)據(jù)科學(xué)知識,借此管中窺豹,了解這一學(xué)科目前的應(yīng)用現(xiàn)狀。另一方面,我們還將從學(xué)術(shù)角度去定義數(shù)據(jù)科學(xué)的研究范疇。
這不是一本關(guān)于機(jī)器學(xué)習(xí)的教科書。恰恰相反,本書會多角度全方位、深入地介紹數(shù)據(jù)科學(xué)。它是對現(xiàn)有數(shù)據(jù)學(xué)科領(lǐng)域的縱覽,試圖為這一學(xué)科勾勒出一幅全景圖。因此,在選擇案例時,我們會更注重廣度而非深度。
希望本書能夠被那些善待它的人充分利用,舉一反三,去解決那些重要的問題。
這門課在哥倫比亞大學(xué)講完后,我聽到了這樣的評價:它是一門從人文主義角度、全面講解數(shù)據(jù)科學(xué)的課程。我們不僅關(guān)注工具、數(shù)學(xué)、模型、算法和代碼,同時也很關(guān)注上述過程中的人性化考量。關(guān)于什么是人文主義者,我很喜歡如下的定義:“他十分關(guān)心人類的福祉,尊重個人的價值觀,并且注重維護(hù)個體尊嚴(yán)。”如何在數(shù)據(jù)科學(xué)中體現(xiàn)人文主義?你在建模和設(shè)計(jì)算法時,認(rèn)識到你作為個人所應(yīng)起到的作用,想想哪些東西是人所具備而電腦不具備的,比如基于道德的判斷;向世界公布一種新的統(tǒng)計(jì)模型前,想想會為他人的生活帶來什么樣的影響。
組織結(jié)構(gòu)
本書的組織結(jié)構(gòu)遵循我在哥倫比亞大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)論課程,在第1章,我們將會回答“什么是數(shù)據(jù)科學(xué)”這個核心問題,同時介紹數(shù)據(jù)科學(xué)工作流程,這是全書組織結(jié)構(gòu)的綱領(lǐng)。第2章和第3章對統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)算法做一概覽,它們是后續(xù)章節(jié)的基礎(chǔ)。第4章到第6章,以及第8章將會針對特定案例深入學(xué)習(xí)一些模型和算法。第7章講述如何從數(shù)據(jù)中提取有效信息以及在模型中創(chuàng)建統(tǒng)計(jì)變量。第9章和第10章將深入介紹一些傳統(tǒng)學(xué)術(shù)界很少涉足的內(nèi)容(當(dāng)然現(xiàn)在情況有所改善):數(shù)據(jù)可視化和社交網(wǎng)絡(luò)。第11章和第12章將從預(yù)測模型轉(zhuǎn)而介紹因果分析。第13章和第14章介紹數(shù)據(jù)預(yù)處理以及工程方法。第15章是我的學(xué)生們講述他們的故事——他們是怎樣學(xué)習(xí)數(shù)據(jù)科學(xué)的。第16章展望數(shù)據(jù)科學(xué)未來的發(fā)展。
閱讀須知
閱讀本書時最好從前往后依序閱讀,這樣更便于理解,因?yàn)椴簧俑拍疃际且画h(huán)扣一環(huán)的。如果你的統(tǒng)計(jì)和概率背景不強(qiáng),或者從前沒有編過程,那么閱讀本書的同時,如能閱讀本章末尾附帶的補(bǔ)充材料以查漏補(bǔ)缺,效果將會更好。全書為大家推薦了很多補(bǔ)充材料,當(dāng)你閱讀某個章節(jié)感到困難時,這或許由于你缺失某些背景知識,或許由于我們的講解不夠清晰,這時你都可以求助于這些補(bǔ)充材料,厘清概念。
Rachel Schutt,美國新聞集團(tuán)旗下數(shù)據(jù)科學(xué)部門高級副總裁、哥倫比亞大學(xué)統(tǒng)計(jì)系兼職教授、約翰遜實(shí)驗(yàn)室高級研究科學(xué)家,同時也是哥倫比亞大學(xué)數(shù)據(jù)科學(xué)及工程研究所教育委員會的發(fā)起人之一。她曾在谷歌研究院工作數(shù)年,負(fù)責(zé)設(shè)計(jì)算法原型并通過建模理解用戶行為。
Cathy O'Neil,約翰遜實(shí)驗(yàn)室高級數(shù)據(jù)科學(xué)家、哈佛大學(xué)數(shù)學(xué)博士、麻省理工學(xué)院數(shù)學(xué)系博士后、巴納德學(xué)院教授,曾發(fā)表過大量算術(shù)代數(shù)幾何方面的論文。他曾在全球投資管理公司D.E. Shaw擔(dān)任對沖基金金融師,后加入專門評估銀行和對沖基金風(fēng)險的軟件公司RiskMetrics,個人博客:mathbabe.org。
作者介紹 XII
關(guān)于封面圖 XIII
前言 XIV
第1章 簡介:什么是數(shù)據(jù)科學(xué)
1.1 大數(shù)據(jù)和數(shù)據(jù)科學(xué)的喧囂
1.2 沖出迷霧
1.3 為什么是現(xiàn)在
1.4 數(shù)據(jù)科學(xué)的現(xiàn)狀和歷史
1.5 數(shù)據(jù)科學(xué)的知識結(jié)構(gòu)
1.6 思維實(shí)驗(yàn):元定義
1.7 什么是數(shù)據(jù)科學(xué)家
1.7.1 學(xué)術(shù)界對數(shù)據(jù)科學(xué)家的定義
1.7.2 工業(yè)界對數(shù)據(jù)科學(xué)家的定義
第2章 統(tǒng)計(jì)推斷、探索性數(shù)據(jù)分析和數(shù)據(jù)科學(xué)工作流程
2.1 大數(shù)據(jù)時代的統(tǒng)計(jì)學(xué)思考
2.1.1 統(tǒng)計(jì)推斷
2.1.2 總體和樣本
2.1.3 大數(shù)據(jù)的總體和樣本
2.1.4 大數(shù)據(jù)意味著大膽的假設(shè)
2.1.5 建模
2.2 探索性數(shù)據(jù)分析
2.2.1 探索性數(shù)據(jù)分析的哲學(xué)
2.2.2 練習(xí):探索性數(shù)據(jù)分析
2.3 數(shù)據(jù)科學(xué)的工作流程
2.4 思維實(shí)驗(yàn):如何模擬混沌
2.5 案例學(xué)習(xí):RealDirect
2.5.1 RealDirect是如何賺錢的
2.5.2 練一練:RealDirect公司的數(shù)據(jù)策略
第3章 算法
3.1 機(jī)器學(xué)習(xí)算法
3.2 三大基本算法
3.2.1 線性回歸模型
3.2.2 k 近鄰模型(k-NN)
3.2.3 k 均值算法
3.3 練習(xí):機(jī)器學(xué)習(xí)算法基礎(chǔ)
3.4 總結(jié)
3.5 思維實(shí)驗(yàn):關(guān)于統(tǒng)計(jì)學(xué)家的自動化
第4章 垃圾郵件過濾器、樸素貝葉斯與數(shù)據(jù)清理
4.1 思維實(shí)驗(yàn):從實(shí)例中學(xué)習(xí)
4.1.1 線性回歸為何不適用
4.1.2 k 近鄰效果如何
4.2 樸素貝葉斯模型
4.2.1 貝葉斯法則
4.2.2 個別單詞的過濾器
4.2.3 直通樸素貝葉斯
4.3 拉普拉斯平滑法
4.4 對比樸素貝葉斯和k 近鄰
4.5 Bash代碼示例
4.6 網(wǎng)頁抓取:API和其他工具
4.7 Jake的練習(xí)題:文章分類問題中的樸素貝葉斯模型
第5章 邏輯回歸
5.1 思維實(shí)驗(yàn)
5.2 分類器
5.2.1 運(yùn)行時間
5.2.2 你自己
5.2.3 模型的可解釋性
5.2.4 可擴(kuò)展性
5.3 邏輯回歸:一個來自M6D 的真實(shí)案例研究
5.3.1 點(diǎn)擊模型
5.3.2 模型背后
5.3.3 α和β 的參數(shù)估計(jì)
5.3.4 牛頓法
5.3.5 隨機(jī)梯度下降法
5.3.6 操練
5.3.7 模型評價
5.4 練習(xí)題
第6章 時間戳數(shù)據(jù)與金融建模
6.1 Kyle Teague與GetGlue公司
6.2 時間戳
6.2.1 探索性數(shù)據(jù)分析(EDA)
6.2.2 指標(biāo)和新變量
6.2.3 下一步怎么做
6.3 輪到Cathy O'Neill了
6.4 思維實(shí)驗(yàn)
6.5 金融建模
6.5.1 樣本期內(nèi)外以及因果關(guān)系
6.5.2 金融數(shù)據(jù)處理
6.5.3 對數(shù)收益率
6.5.4 實(shí)例:標(biāo)準(zhǔn)普爾指數(shù)
6.5.5 如何衡量波動率
6.5.6 指數(shù)平滑法
6.5.7 金融模型的反饋
6.5.8 聊聊回歸模型
6.5.9 先驗(yàn)信息量
6.5.10 一個小例子
6.6 練習(xí):GetGlue提供的時間戳數(shù)據(jù)
第7章 從數(shù)據(jù)到結(jié)論
7.1 William Cukierski
7.1.1 背景介紹:數(shù)據(jù)科學(xué)競賽
7.1.2 背景介紹:眾包模式
7.2 Kaggle模式
7.2.1 Kaggle的參賽者
7.2.2 Kaggle的客戶
7.3 思維實(shí)驗(yàn):關(guān)于作業(yè)自動評分系統(tǒng)
7.4 特征選擇
7.4.1 例子:留住用戶
7.4.2 過濾型
7.4.3 包裝型
7.4.4 決策樹與嵌入型變量選擇
7.4.5 熵
7.4.6 決策樹算法
7.4.7 如何在決策樹模型中處理連續(xù)性變量
7.4.8 隨機(jī)森林
7.4.9 用戶黏性:模型的預(yù)測能力與可解釋性
7.5 David Huffaker:谷歌社會學(xué)研究的新方法
7.5.1 從描述性統(tǒng)計(jì)到預(yù)測模型
7.5.2 谷歌的社交研究
7.5.3 隱私保護(hù)
7.5.4 思維實(shí)驗(yàn):如何消除用戶的顧慮
第8章 構(gòu)建面向大量用戶的推薦引擎
8.1 一個真實(shí)的推薦引擎
8.1.1 最近鄰算法回顧
8.1.2 最近鄰模型的已知問題
8.1.3 超越近鄰模型:基于機(jī)器學(xué)習(xí)的分類模型
8.1.4 高維度問題
8.1.5 奇異值分解(SVD)
8.1.6 關(guān)于SVD的重要特性
8.1.7 主成分分析(PCA)
8.1.8 交替最小二乘法
8.1.9 固定矩陣V,更新矩陣U
8.1.10 關(guān)于這些算法的一點(diǎn)思考
8.2 思維實(shí)驗(yàn):如何過濾模型中的泡沫
8.3 練習(xí):搭建自己的推薦系統(tǒng)
第9章 數(shù)據(jù)可視化與欺詐偵測
9.1 數(shù)據(jù)可視化的歷史
9.1.1 Gabriel Tarde
9.1.2 Mark 的思維實(shí)驗(yàn)
9.2 到底什么是數(shù)據(jù)科學(xué)
9.2.1 Processing
9.2.2 Franco Moretti
9.3 一個數(shù)據(jù)可視化的方案實(shí)例
9.4 Mark 的數(shù)據(jù)可視化項(xiàng)目
9.4.1 《紐約時報》大廳里的可視化:Moveable Type
9.4.2 屏幕上的生命:Cascade可視化項(xiàng)目
9.4.3 Cronkite廣場項(xiàng)目
9.4.4 eBay與圖書網(wǎng)購
9.4.5 公共劇場里的"莎士比亞機(jī)"
9.4.6 這些展覽的目的是什么
9.5 數(shù)據(jù)科學(xué)和風(fēng)險
9.5.1 關(guān)于Square公司
9.5.2 支付風(fēng)險
9.5.3 模型效果的評估問題
9.5.4 建模小貼士
9.6 數(shù)據(jù)可視化在Square
9.7 Ian的思維實(shí)驗(yàn)
9.8 關(guān)于數(shù)據(jù)可視化
第10章 社交網(wǎng)絡(luò)與數(shù)據(jù)新聞學(xué)
10.1 Morning Analytics與社交網(wǎng)絡(luò)
10.2 社交網(wǎng)絡(luò)分析
10.3 關(guān)于社交網(wǎng)絡(luò)分析的相關(guān)術(shù)語
10.3.1 如何衡量向心性
10.3.2 使用哪種向心性測度
10.4 思維實(shí)驗(yàn)
10.5 Morningside Analytics
10.6 從統(tǒng)計(jì)學(xué)的角度看社交網(wǎng)絡(luò)分析
10.6.1 網(wǎng)絡(luò)的表示方法與特征值向心度
10.6.2 隨機(jī)網(wǎng)絡(luò)的第一個例子:Erdos-Renyi模型
10.6.3 隨機(jī)網(wǎng)絡(luò)的第二個例子:指數(shù)隨機(jī)網(wǎng)絡(luò)圖模型
10.7 數(shù)據(jù)新聞學(xué)
10.7.1 關(guān)于數(shù)據(jù)新聞學(xué)的歷史回顧
10.7.2 數(shù)據(jù)新聞報告的寫作:來自專家的建議
第11章 因果關(guān)系研究
11.1 相關(guān)性并不代表因果關(guān)系
11.1.1 對因果關(guān)系提問
11.1.2 干擾因子:一個關(guān)于在線約會網(wǎng)站的例子
11.2 OK Cupid的發(fā)現(xiàn)
11.3 黃金準(zhǔn)則:隨機(jī)化臨床實(shí)驗(yàn)
11.4 A/B測試
11.5 退一步求其次:關(guān)于觀察性研究
11.5.1 辛普森悖論
11.5.2 魯賓因果關(guān)系模型
11.5.3 因果關(guān)系的可視化
11.5.4 定義:因果關(guān)系
11.6 三個小建議
第12章 流行病學(xué)
12.1 Madigan的學(xué)術(shù)背景
12.2 思維實(shí)驗(yàn)
12.3 統(tǒng)計(jì)學(xué)在現(xiàn)代
12.4 醫(yī)學(xué)文獻(xiàn)與觀察性研究
12.5 分層法不解決干擾因子的問題
12.6 就沒有更好的辦法嗎
12.7 研究性實(shí)驗(yàn)(OMOP)
12.8 最后的思維實(shí)驗(yàn)
第13章 從競賽中學(xué)到的:數(shù)據(jù)泄漏和模型評價
13.1 Claudia作為數(shù)據(jù)科學(xué)家的知識結(jié)構(gòu)
13.1.1 首席數(shù)據(jù)科學(xué)家的生活
13.1.2 作為一名女?dāng)?shù)據(jù)科學(xué)家
13.2 數(shù)據(jù)挖掘競賽
13.3 如何成為出色的建模者
13.4 數(shù)據(jù)泄漏
13.4.1 市場預(yù)測
13.4.2 亞馬遜案例學(xué)習(xí):出手闊綽的顧客
13.4.3 珠寶抽樣問題
13.4.4 IBM 客戶鎖定
13.4.5 乳腺癌檢測
13.4.6 預(yù)測肺炎
13.5 如何避免數(shù)據(jù)泄漏
13.6 模型評價
13.6.1 準(zhǔn)確度重要嗎
13.6.2 概率的重要性,不是非0 即1
13.7 如何選擇算法
13.8 最后一個例子
13.9 臨別感言
第14章 數(shù)據(jù)工程:MapReduce、Pregel、Hadoop
14.1 關(guān)于David Crawshaw
14.2 思維實(shí)驗(yàn)
14.3 MapReduce
14.4 單詞頻率問題
14.5 其他MapReduce案例
14.6 Pregel
14.7 關(guān)于Josh Wills
14.8 思維實(shí)驗(yàn)
14.9 給數(shù)據(jù)科學(xué)家的話
14.9.1 數(shù)據(jù)豐富和數(shù)據(jù)匱乏
14.9.2 設(shè)計(jì)模型
14.10 算算Hadoop的經(jīng)濟(jì)賬
14.10.1 Hadoop簡介
14.10.2 Cloudera
14.11 Josh 的工作流程
14.12 如何開始使用Hadoop
第15章 聽聽學(xué)生們怎么說
15.1 重在過程
15.2 不再簡單
15.3 援助之手
15.4 殊途同歸
15.5 逢山開路,遇水架橋
15.6 作品展示
第16章 下一代數(shù)據(jù)科學(xué)家、自大狂和職業(yè)道德
16.1 前面都講了些什么
16.2 什么是數(shù)據(jù)科學(xué)(再問一次)
16.3 誰是下一代的數(shù)據(jù)科學(xué)家
16.3.1 成為解決問題的人
16.3.2 培養(yǎng)軟技能
16.3.3 成為提問者
16.4 做一個有道德感的數(shù)據(jù)科學(xué)家
16.5 對于職業(yè)生涯的建議