像數據達人一樣思考和溝通:數據科學、統計學與機器學習極簡入門
定 價:¥68
中 教 價:¥40.12 (5.90折)促銷
庫 存 數: 0
《像數據達人一樣思考和溝通:數據科學、統計學與機器學習》是一本完備的數據科學指南,尤其適用于職場人。本書既包括了職場中應用數據的場景介紹,也包括了算法背后的數學知識。兩位作者在數據科學普及領域深耕多年,立志打造一本有趣、貼近生活,且非常具有可讀性的數據科學入門書。每個人都能成為數據達人,積極地參與與數據科學、統計、機器學習相關的工作。本書適合作為商務專業人員、工程師、行政人員,以及有志成為數據科學家的研究人員的自學參考讀物,也可以作為數據科學相關培訓機構的教材。
在我們如今的生活和職場中,無可避免地要接觸大量的數據。數據是怎樣被用來講故事的?它又是如何說服,乃至有時欺騙我們的?資深數據科學家在《像數據達人一樣思考和溝通》中給你答案。
對于許多旁觀者而言,傳統數據分析、大數據和人工智能是全然不同,且毫不相關的事物。然而,《像數據達人一樣思考和溝通》這本書將要匡正這樣的認知,并指出這3個領域事實上是高度相關的。它們都涉及統計思維,而一些傳統的分析方法,例如回歸分析、數據可視化技術等,對這3個領域同樣適用。統計學中的預測分析與人工智能領域的監督式機器學習基本上就是一回事。而且,大多數的數據分析技術也適用于各種規模的數據集。簡而言之,一位優秀的數據達人可以高效地處理好這3方面的工作,而花費大量時間去細究它們之間的差異則往往是無用功。固有觀念2: 只有專業的數據科學家才能成為數據熱潮中的弄潮兒。人們有時對數據科學家盲目崇拜,認為只有他們才有可能有效地處理和分析數據。然而,近來興起了一陣全新的、極為重要的潮流,旨在讓數據思維變得更加全民化。越來越多的機構開始注重培養普通員工的數據思維和數據分析能力。自動化機器學習工具使得人們可以更輕松地建立數學模型,并利用模型出色地完成預測工作。當然,我們仍需要專業的數據科學家負責開發新算法,并為那些進行復雜數據分析工作的普通員工把關。但是,一些單位選擇把與數據分析相關的工作交給單位中那些非科班出身的數據達人負責,這樣做往往能夠讓數據科學家專注更重要的工作。固有觀念3: 數據科學家無所不能,他們掌握著從事數據活動所需的全部技能。數據科學家是受過專業訓練,從事模型開發和代碼編寫工作的人。人們往往想當然地認為,數據科學家同樣能夠包攬模型的實際應用工作。換句話說,人們認為數據科學家是無所不能的。但實際上這樣的人鳳毛麟角。對于一個數據科學項目來說,那些不僅了解數據科學的基礎知識,而且了解所處行業、能夠有效地管理項目,并擅長建立業務關系的數據達人才是無價之寶。他們不但能夠勝任數據科學工作,還能提升數據科學項目的商業價值。固有觀念4: 人們需要具有非常高的數學天賦,并經受大量訓練,才有可能在數據和分析方面取得成功。一個相關的假設是,為了從事數據科學工作,人們必須在該領域接受過良好的培訓,因此一個數據達人也必須非常擅長和數字打交道。數據方面的天賦與訓練固然對從事數據科學相關工作有幫助,但《像數據達人一樣思考和溝通》這本書中的一個觀點令我深感認同: 一個擁有動力的學習者能夠掌握數據和分析知識,并在數據科學項目中貢獻力量。部分原因是,統計分析的基本概念遠沒有那么深奧;同時,想要參與數據科學項目,也并不需要極高水平的數據和分析能力。與專業數據科學家協作,或是參與自動化人工智能項目,需要的只是提出關鍵問題的能力和好奇心、在業務問題和定量結果之間建立聯系并識別出可疑假說的能力而已。固有觀念5: 如果你在大學或研究生階段的主要研究方向并非定量(quantitative)領域,那么現在學習數據和分析方法所需的知識就為時已晚。這一觀念甚至得到了調查數據的支持: 在Splunk公司于2019年對全球約1300名高管的調查報告中,幾乎所有受訪者 (98%) 都認為數據技能對他們未來的工作很重要。81%的高管認同數據技能是成為高級領導者所必需的,而85%的人認為掌握數據技能會讓他們在公司中變得更有價值。盡管如此,仍有67%的人表示他們不習慣自己獲取或使用數據,73%的人認為數據技能相較于其他業務技能更難習得,53%的人認為自己年紀太大,已經錯過了學習數據技能的黃金時期。這種數據失敗主義(data defeatism)對個人和組織都是有害的,而本書作者和我都認為這不過是無稽之談。仔細閱讀本書正文,你會發現其中不涉及任何艱深難懂的知識!因此,拋開這些固有的觀念吧,讓自己成為一個數據達人。你將成為職場上更有價值的員工,并幫助你所在的機構變得更加成功。這就是世界的發展方向,是時候開始加入浪潮,更加深入地了解數據及其分析方法了。我相信,閱讀《像數據達人一樣思考和溝通》,探索數據科學,你將會收獲一段富有價值且充滿樂趣的旅程。前言對于本書的讀者來說,無論主觀意愿如何,數據或許已經成為你工作中最重要的一部分,沒有之一。而你之所以翻開這本書,大概是因為希望能夠了解數據究竟是怎么一回事。首先,有必要重復一個老生常談的問題: 在這個時代,每個人創造和接收的信息比以往任何時候都多。毫無疑問,現在是一個數字的時代。而這個數字時代也催生了一個充斥著承諾、行話和產品的行業,其中許多是翻開本書的你,你的經理、同事和下屬正在或將要接觸的。但是,盡管與數據相關的承諾和產品不斷涌現,數據科學方面的商業項目卻往往會很快就陷入失敗。美國科技博客VentureBeat在2019年進行了一個調查,其中顯示87%以上的數據項目以失敗告終。這里需要澄清一下,我們并非暗示所有關于數據的承諾都言之無物,或所有的產品都糟糕透頂。相反,要真正了解這個領域,必須首先接受一個基本事實: 事情遠比我們想象的要復雜。從事數據方面的工作意味著與數字、細微差別和不確定性打交道。數據至關重要,這毫無疑問,但與此同時,它并不簡單。然而,有一個行業卻在試圖讓人們忽視這一點這是一個在不確定的世界中試圖承諾確定性,并利用公司對落伍的恐懼而牟利的行業。我們在本書中將其稱為數據科學工業復合體(Data Science Industrial Complex)。數據科學工業復合體對于身處其中的每個人來說,數據科學工業復合體都是一個有待關注的問題。企業不斷買入產品,期待它們能代替自己進行思考;經理們雇傭名不副實的專家;各種機構都在招聘數據科學家,卻并沒有做好迎接他們的準備;高管們不得不聆聽無窮無盡的行業黑話,并假裝理解。這樣的現狀造成了大量數據項目的停滯和資金的浪費。
第1篇掌握數據達人的思維第1章定義問題31.1數據達人應該掌握的問題41.2了解數據項目失敗的原因101.3解決重要的問題14本章小結15第2章何為數據162.1數據與信息172.2數據類型192.3數據的收集與組織方式202.4基本匯總統計23本章小結24第3章統計學思維253.1學會質疑263.2無處不在的隨機波動293.3概率與統計34本章小結41像數據達人一樣思考和溝通目錄第2篇掌握數據達人的語言第4章質詢數據454.1你會怎么做?474.2數據的來源是什么?534.3數據是否具有代表性?564.4是否缺少某些數據?574.5數據集的大小59本章小結60第5章探索數據615.1探索性數據分析625.2培養探索心態645.3數據是否能解答問題?655.4你是否能從數據中發現某些相關性?715.5你是否從數據中發現了新的機會?76本章小結77第6章檢查概率786.1猜概率: 筆記本電腦是否感染病毒796.2游戲規則806.3概率思想實驗876.4謹慎做出獨立性假設906.5一切概率都是條件概率926.6保證概率數字有意義96本章小結99第7章質疑統計1007.1統計推斷的簡短討論1017.2統計推斷的過程1087.3用于質疑統計結果的問題109本章小結118第3篇理解數據科學家的工具箱第8章尋找未知分組1218.1無監督學習1238.2數據降維1238.3主成分分析法(PCA)1268.4聚類1318.5k均值聚類133本章小結137第9章理解回歸模型1399.1監督學習1409.2線性回歸能做些什么1429.3線性回歸帶給我們什么1469.4線性回歸的隱患1499.5其他回歸模型155本章小結156第10章理解分類模型15710.1分類模型介紹15810.2邏輯回歸16010.3決策樹16510.4集成方法16910.5謹防陷阱17210.6準確性的誤解174本章小結178第11章理解文本分析17911.1文本分析的期望18011.2文本如何變成數字18211.3主題建模19211.4文本分類19411.5實際處理文本分析的細節200本章小結203第12章解析深度學習概念20412.1神經網絡20612.2深度學習的應用21312.3深度學習的實踐22312.4人工智能與你227本章小結230第4篇確 保 成 功第13章注意陷阱23513.1數據中的偏差和怪象23613.2陷阱大清單242本章小結247第14章知人善任24814.1溝通中斷的7個場景24914.2數據個性255本章小結257第15章未完待續259術語表263