為什么要寫這本書
隨著計算機科學和數據科學的發展,越來越多的人開始把目光投向其中最為耀眼的互聯網、物聯網、大數據、人工智能等高新技術領域,并且有相當多的高級技術人才已經在這些領域獲得了令人矚目的成就。
在追逐信息技術發展浪潮的過程中,數據科學成為人們在信息技術海洋中遨游所沉淀下來的理論與科學基礎。我們都渴望通過對數據科學的理解來對生產工作進行指導和改善,這種工作的意義與其他各種在信息技術產業一線工作所創造價值的意義一樣非比尋常。它給我們更廣的辯證思考的空間,更高的觀察事物的眼界,更多的自新的維度與動力。它是那么神秘且有趣。
數據科學到今天已經滲透到我們每個人的工作和生活之中。在你早上起來趕公車或者地鐵的時候,你其實正在享受由數據科學輔助進行的精確調度服務;在你閱讀工作報表的時候,你其實正在享受由數據科學輔助進行的大數據統計服務;在你吃午餐的時候,你其實正在享受由數據科學輔助進行的外賣快餐數據分發或食堂菜品改良服務;當你晚上回到家,在網上盡情購物的時候,你其實正在享受由數據科學輔助進行的高效電子商務和智能推薦服務。駕車出行有智能導航,就醫問藥有分診機器人……也許你的家人或者朋友現在就在自己的工作崗位上,作為一名普通的銷售人員、產品經理、人力資源師、售后服務人員、商務代表等,通過數據決策系統、數據庫甚至電子表格來觀察數據,做出判斷,開展工作。數據科學給我們帶來的紅利已經緊緊把我們包圍。
這本書絕無說教的想法,而是希望以書為媒,用談天說地的方式,以激發每個人的思考為主要手段,歸納總結數據科學的實質及成就一位數據科學家所需要的基本素養。
遺憾的是,越是基礎性、本源性的學科,與變成現實利益的距離也就越遠,讓人覺得似乎不夠實惠,不夠親近。至少讀完這本書沒辦法幫你直接在第二天變出米飯、房子和汽車。不過我認為,樓房再高再漂亮,也需要人們看不到的深厚地基來支持;花兒再芬芳再嬌艷,也需要在土壤之下吮吸養分的豐富根系來供能。這些看不到的東西,往往起著我們無法想象的巨大作用,而這才是我希望與你一同討論并思考的。
我們熱愛生活,我們熱愛所做的工作,我們希望在不斷的攀登中看到更深更遠的世界并去偽存真。那就讓我們在點點滴滴的知識片段中一起開始慢慢思索、細細揣摩這一養成過程吧。
本書特色
本書從眾多先賢及科學家的軼事開始講起,以逐步歸納和遞進的脈絡總結出科學及數據科學所應關注的要點,然后在生產的各個環節中對這些要點逐一進行討論與落實,將這本書變成一本具有一定思維升華價值的參考書,從更高、更廣的視角回看科學及數據科學在各個生產環節的縮影。
本書并不以高深的數學理論研究作為目的,也不以某一種計算機語言編程作為主線脈絡,而是在一個個看似孤立的故事與工程中不斷拾遺,并試著從中悟出一些道理。
簡潔與深刻并重是本書的另一大特點。作為認知科學的延伸,數據科學一方面應該越來越引起廣大大數據工作者的重視,另一方面也要撩開自己的神秘面紗,以最為親民的姿態和每位大數據工作者成為親密無間的戰友,為用科學的思維方式進行工作做好理論準備。
讀者對象
(1)大數據從業人員和對大數據相關知識感興趣的人。
(2)初級和中級程序員、架構師,以及希望通過對數據的感知改進工作的人。
(3)產品經理、運營經理、數據分析師、數據庫開發工程師等對數據分析工作敏感的人。
(4)希望在思維方式領域進行拓展的高校畢業生和希望接觸并了解數據科學的社會人員。
。5)所有對數據科學感興趣并希望逐步深入了解數據科學知識體系的人。
如何閱讀本書
本書分為3篇,分別是認知篇、分化篇和實踐篇。
認知篇(第1章~第7章)
歸納了什么是科學,數據科學的范圍、定義與實踐價值,以及辯證思維、哲學和實驗的關系等問題。這些是認知觀點的基石。
分化篇(第8章~第11章)
重點介紹了數據科學中與現代社會各行業聯系最為緊密的統計學、信息論、算法學,另外把混沌論作為一個知識點進行了補充。這些是認知觀點在不同細分學科中所形成的一些具體解決問題的思維方式和科學觀點。
實踐篇(第12章~第18章)
沿著數據生命周期進行演進。任何行業的數據生命周期都是按照采集、存儲、統計與建模、算法、可視化與分析、決策支持的沿革來進行的,本篇對各個環節的注意事項和思維方式都做了詳細的討論,并在第18章介紹了兩個具體的數據分析案例。
在本書的最后,補充了過去與同行們討論過的,并在會議演講及日常分享的過程中總結出來的一些精彩問答。
如果你希望讀完這本書后能夠在數學方面有很大的提升,在工程代碼能力方面有巨大的進步,這本書恐怕幫不上什么大忙。但我相信,在讀完這本書后,你會在一些以前并不熟知的領域有所了解和感悟,并逐步完善理解和分析問題的視角。如果你不是數據研究人員,也可以把這本書當成一個休閑讀本。這本書里既沒有太多的公式,也沒有太過高深的理論,有的只是我在和你攀談的過程中與你一起發現的新視角。
特別致謝
感謝繪麟社相輝先生和李曉林女士對本書的插畫助力。
參加本書編寫工作的有高揚、衛崢、左妍、尹會生、楊藝、陳鋼、肖力。
勘誤和支持
由于作者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。如果您有更多的寶貴意見,歡迎掃描本頁的二維碼,關注“奇點大數據”微信公眾號與我們進行互動討論。本書后續的代碼上傳及勘誤等相關更新內容都會在這個微信公眾號發布。關注大數據尖端技術發展,關注奇點大數據。
同時,您也可以通過郵箱77232517@qq.com與我聯系,期待能夠得到您的真摯反饋,在技術之路上互勉共進。
高 揚
2017年1月于珠海
高揚,北京郵電大學計算機專業畢業,重慶工商大學管理科學與工程專業碩士研究生事業導師。10年以上IT行業工作經驗,3年海外工作經驗。2010年后一直專注于數據庫、大數據、數據挖掘、機器學習、人工智能等相關領域的研究。曾在金山軟件西山居任大數據架構師,負責大數據平臺構架與搭建,F任歡聚時代資深大數據專家,負責大數據、深度學習等基礎技術與理論研究和實際產品的結合。
序
十幾二十年前,讀書是學習新技術的不二法門。當時如果要學習一門技術,都需要買上幾本“磚頭書”,一邊閱讀,一邊動手,一頁一頁“啃”下來。很多在今天叱咤風云的高手,當年都是用這種方式打下基礎的。
最近幾年,技術學習的方式發生了深刻的變化,大量的在線視頻課程、交互式學習環境、開箱即用的工具箱,使技術學習的效率大幅度提升,特別是在動手能力方面,培訓效率有了質的飛躍。最近一年,受人工智能領域突破性進展的鼓舞,機器學習和數據科學成為技術圈中的顯學,而在線學習成為主流的學習方式。在這種情況下,大批學習者僅僅看過一些視頻教程,按要求在Jupyter Notebook中做過一些練習,就基本具備動手解決問題的能力,可以上崗了。
這當然很好。但是,倘若你想在某一個領域取得真知,讀書仍然是不可或缺的手段。中國信息安全領域的領軍人物馮登國院士曾經說,以他的經驗,想要真的搞懂某一個領域,非得深入“啃”至少一本書不可。讀書的效率相對于聽課、看視頻要低得多,而多維的知識體系通過單維的文字表達出來,也給理解帶來了挑戰。然而,唯其有這種挑戰,才需要讀者進入深度思考狀態,使讀書成為一個推敲、琢磨、設問和破解的過程。不經過這個過程,我們所學到的知識一般來說只能是浮于表面的,很難達到“知其然知其所以然”的高度。正因如此,我們已經開始發現,僅通過在線視頻和動手練習的學習者,對于相關領域的理論掌握經常是膚淺的。可以說,到目前為止,讀書作為一種學習手段,依然是其他方式無法取代的。
機器學習和數據科學領域有幾本非常重要的著作,每一個有野心的學習者都應該選擇至少一本深入研究。Christopher Bishop于2006年出版的Pattern Recognition and Machine Learning,Kevin Murphy 2012年的巨著Machine Learning: A Probabilistic Perspective,斯坦福大學兩位機器學習泰斗Trevor Hastie和Robert Tibshirani及其學生合著的An Introduction to Statistical Learning,當然還有Ian Goodfellow和Yoshua Bengio最近出版的Deep Learning——稱這幾本書為這個領域的“四書五經”,應該沒有爭議。
但是,這幾本書有一個共同的問題——都是按照教材的體例編寫的,所以都是盡全力系統化地介紹知識,對這個領域豐富多彩的應用、歷史、人文和故事卻很少展開論述。而要成為一名數據科學家,僅有知識和動手能力是不夠的,還需要有相應的素養,這包括特有的思維方式、價值觀,對相關歷史背景和掌故的了解,以及對數據科學社區的認知和互動——這恰恰是本書的價值。
作者把數據科學放在一個更廣闊的背景之中,從數學、統計學、方法論甚至認知論的層面出發,討論數據科學的內涵和外延,內容豐富,旁征博引,語言生動,靈活有趣,幫助讀者站在一個更豐富的勢場中認識數據科學,理解數據科學的基本思想。尤為令人欣喜的是,作者將信息論、混沌理論納入討論之中,表明作者敏銳地注意到數據科學與系統科學和認識論的深層聯系,這是難能可貴的。從這個角度來解說數據科學的書,應該說是中國首本,即使在全球范圍內也是獨具特色的。為此,我們愿意向讀者推薦本書,并相信讀者一定能從中獲得非常有價值的啟發。
CSDN、AI100創始人 蔣 濤
AI100合伙人 孟 巖