本書以作者在美國西北大學開設的Web分析學課程為基礎,介紹了可用性測試、網(wǎng)站性能、使用分析、社交媒介平臺、搜索引擎優(yōu)化(SEO)等方面的知識。同時,書中在涵蓋實際應用與介紹社交網(wǎng)絡分析和網(wǎng)絡科學領域中現(xiàn)有的新知識之間取得了一個良好的平衡,清楚地展示出如何將所涉及的理論知識應用于解決實際的商業(yè)問題。
前 言斯考特,把我彈射出去。 Captain Kirk(William Shatner飾)電影《星際旅行4:搶救未來》(1986年)Web是一個由眾多網(wǎng)頁相連接而形成的網(wǎng)絡,是一個通信媒介,是一個覆蓋全球的信息來源。人們花費大量的時間在Web上進行搜索,獲取有用的數(shù)據(jù)與信息,并對它們進行分析。有效使用Web給人們的生活帶來了很多的便利。本書將告訴你以上這一切是如何實現(xiàn)的。 本書是根據(jù)我在西北大學(Northwestern University)講授的一門課程的內(nèi)容撰寫而成的。此課程從介紹Web網(wǎng)站分析學入手,主要關注在Web搜索中使用數(shù)據(jù)的統(tǒng)計與性能。之后,我又在此課程中增加了來自網(wǎng)絡科學和社交媒體的概念。在講授此課程兩年后,我認識到從Web上收集信息可以成為一個獨立的話題,有太多關于Web與網(wǎng)絡數(shù)據(jù)科學方面的知識可以學習。本書就像我講授的課程那樣,是關于以上這些知識的指南。 Web與網(wǎng)絡數(shù)據(jù)科學是數(shù)據(jù)科學和網(wǎng)絡科學相結合而形成的,關注的是將Web看成一個提供信息的來源。因而,最好的學習方法就是通過實例進行講解。因此,本書中包含大量的實例,通過提供建模技術方面的資料和參考指南給研究人員與分析師提供幫助。我們也會向編程人員展示如何基于基礎代碼編寫能夠正確運行并用于解決真實商業(yè)問題的軟件。 我們想要做的事情都會通過所編寫的代碼體現(xiàn)出來。本書中包含的這些代碼將作為參考資料提供給每一位讀者,當然會有部分讀者對這些代碼進行進一步調試。為了鼓勵學生學習,每一段程序代碼都包含詳細的注釋以及如何進一步分析的建議。所有的數(shù)據(jù)集以及計算機程序代碼都可以直接從本書的網(wǎng)站http://www.ftpress.com/miller/下載。 Python這個名字來源于Monty Python。大家會看到有些軟件包的名稱比較奇特,如Twisted或Scrapy。R語言擁有自己的lubridate與zoo軟件開發(fā)包。好的結果來源于辛勤工作并熱愛工作的人們。那些追求快樂而不是名利的人們?yōu)殚_源軟件做出了貢獻,而我很高興自己能夠成為開源軟件Python和R語言社區(qū)中的一員。那就讓我們一起開始這段快樂的旅程吧! 對于Web和網(wǎng)絡中存在的問題,使用Python可以有效便捷地解決某些問題,而使用R語言可以有效便捷地解決其他一些問題。常常還會出現(xiàn)兩種語言都適用的情況,這時就需要進行權衡。總體來說,Python和R語言能夠用于對Web及網(wǎng)絡數(shù)據(jù)進行有效的收集與分析。 在本書中,我們還會提到編程時會使用到的很多工具。對網(wǎng)站的正常運行負有責任的Web專業(yè)技術人員還會使用很多其他語言和技術,如JavaScript、Apache、.Net Web服務,以及數(shù)據(jù)庫系統(tǒng)。本書的討論將會涉及這些技術,但不會提供任何編程代碼。 本書中大多數(shù)數(shù)據(jù)來源于公共域數(shù)據(jù)源。用于支持案例的數(shù)據(jù)來源于加利福尼亞大學爾灣分校的機器學習信息庫(Machine Learning Repository)和斯坦福大學的大型網(wǎng)絡數(shù)據(jù)集(Large Network Dataset Collection)。所獲取的影視方面的數(shù)據(jù)得益于互聯(lián)網(wǎng)影視數(shù)據(jù)庫(Internet Movie Database)所給予的使用許可。IMDb影視評價數(shù)據(jù)由斯坦福大學的Andrew L. Mass及同事整理完成。安然(Enron)案例數(shù)據(jù)由卡耐基-梅隆大學的William W. Cohen維護。Quake Talk(地震談話)案例數(shù)據(jù)由Maksim Tsvetovat維護。我們對以上這些學者為我們的研究提供了豐富的數(shù)據(jù)表示深切的感謝。 很多人對我這些年來的知識積累都產(chǎn)生過重大的影響。他們中有出色的思考者,有善良的同仁,還有我會永遠感激的老師以及導師。不幸的是,尤西紐斯學院(Ursinus College)哲學系的Gerald Hahn Hinkle和語言系的Allan Lake Rice以及明尼蘇達大學(University of Minnesota)哲學系的Herbert Feigl已經(jīng)永遠離開了我們。在此,我還要感謝明尼蘇達大學心理測驗學系的David J. Weiss以及曾經(jīng)在俄勒岡大學(University of Oregon)經(jīng)濟系任教的Kelly Eakin。好的老師(沒錯,他們都是偉大的園丁)終身都將得到人們的尊重。 感謝Stan Narusiewcz給了我職業(yè)生涯中的第一份工作,那是一個網(wǎng)絡工程師的崗位。感謝Tom Obinger指導我成為一個成功的計算機系統(tǒng)和網(wǎng)絡銷售人員。還有Bill JoBush和Brian Hill,在我作為信息系統(tǒng)專業(yè)人員整個職業(yè)生涯的各個階段,他們曾經(jīng)是我的直接上司或同事。 感謝Michael L. Rothschild、Neal M. Ford、Peter R. Dickson和Janet Christopher在威斯康星大學麥迪遜分校(University of WisconsinMadison)伴我一起度過幾年美好的時光并給予我無私的幫助。特別感謝A. C. Nielsen Center for Marketing Research的學生和顧問委員會的專家以及Jeff Walkowski和Neli Esipova,后兩位在我組織在線調查與專題討論小組期間曾經(jīng)同我一起工作,我們所使用的方法那時才開始在重要的研究中得到應用。 我很有幸參與了西北大學成人教育學院開展的研究生遠程教育的課程教學活動。感謝Glen Fogerty給我提供了講授課程的機會,并讓我負責西北大學預測分析學項目。感謝所有參與這個很有特色的研究生項目的同事和管理人員。最后,感謝幫助過我的眾多學生們和老師們,你們令我受益匪淺。 ToutBay是數(shù)據(jù)科學領域中一個快速成長的公司。與公司的共同創(chuàng)始人Greg Blence一樣,我對公司的未來發(fā)展抱有很大的信心。感謝Greg讓我有這樣一個參與創(chuàng)業(yè)以及面對商業(yè)活動中的現(xiàn)實而能夠更加腳踏實地的機會。學術以及數(shù)據(jù)科學模型畢竟有其局限性,為了能夠真正產(chǎn)生影響,我們必須實現(xiàn)我們的想法和模型,并且與他人進行共享。 我的家在加利福尼亞州,道奇體育館(Dodger Stadium)以北四英里,但是我在位于伊利諾伊州埃文斯頓市(Evanston, Illinois)的西北大學任教,同時在位于佛羅里達州坦帕市(Tampa, Florida)的一個名叫ToutBay的數(shù)據(jù)科學公司指導產(chǎn)品研發(fā)。這樣的工作和生活方式充分體現(xiàn)出了互聯(lián)網(wǎng)帶給我們的巨大便利。 nology公司的Amy Hendrickson使本書的編排、文字、圖表看上去都是那么出色和完美,這是開源軟件的又一個成功實例。感謝Donald Knuth以及整個社區(qū)對這個出色的系統(tǒng)在編排和出版方面做出的貢獻。 本書中包含的內(nèi)容主要源于在西北大學講授的Web與網(wǎng)絡數(shù)據(jù)科學這門課程。參與課程學習的學生提出了很多想法和啟示。Lorena Martin對本書進行了評閱,提供了許多寶貴意見。Candice Bradley不但評閱了本書,還是本書的文字編輯。我對他們給予的幫助和鼓勵表示衷心感謝。最后還要感謝我的編輯Jeanne Glasser Levine以及本書的出版商Pearson/FT Press,是他們使本書的成功出版成為可能。在此特別聲明,我個人對所有寫作方面的事宜、存在的錯誤與問題以及不足負全部責任。 我的好朋友Brittney和她的女兒Janiya總是抽空陪伴我。我的兒子Daniel總能與我同甘共苦,是我一輩子的朋友。我對于他們給予的信任致以崇高的敬意。 Thomas W. Miller美國加利福尼亞州格倫代爾市
THOMAS W. MILLER是美國西北大學預測分析專業(yè)方向負責人,他負責設計了市場分析、高級建模技術、數(shù)據(jù)可視化、 Web和網(wǎng)絡數(shù)據(jù)科學以及綜合實踐課程。 他廣泛參與了專業(yè)的教學,有豐富的經(jīng)驗。此外,他還從事數(shù)據(jù)科學應用的開發(fā)工作。在加入學術界之前,他有15年的IT商務和交通行業(yè)經(jīng)驗,曾負責 A. C. Nielsen Center for Marketing Research 的工作,并且在威斯康辛大學麥迪遜分校教授市場研究和商業(yè)策略課程。
目 錄譯者序前言第1章 相關技術概述1第2章 在線傳遞消息9第3章 Web爬行與抓取18第4章 測試鏈接、外觀與體驗31第5章 關注競爭對手39第6章 網(wǎng)絡可視化49第7章 了解社區(qū)67第8章 度量情感83第9章 發(fā)現(xiàn)共同主題123第10章 推薦146第11章 網(wǎng)絡博弈161第12章 Web的未來167附錄A 數(shù)據(jù)科學方法170附錄B 在線初步研究184附錄C 案例分析196附錄D 代碼與共享程序207附錄E 術語表218參考文獻226索引252