幾年前,“數學之美”系列文章原刊載于谷歌黑板報,獲得上百萬次點擊,并被熱情的讀者廣為傳播,得到高度評價。讀者說,讀了“數學之美”,才發現大學時學的數學知識,比如馬爾科夫鏈、矩陣計算,甚至余弦函數原來都如此親切,并且栩栩如生,才發現自然語言和信息處理這么有趣,才真正明白“數學是科學的皇后”這句名言。
今年,作者吳軍博士幾乎把所有的文章都重寫了一遍,為的是能把高深的原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。經過改寫和重構后,《數學之美》在整體和細節的度上控制得更好。希望讀者通過具體的例子學到的是思考問題的方式,學會如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。同時書中也留了很多問題給愿意鉆研的人做進一步深入思考。
相關視頻請點擊:
《浪潮之巔》作者、谷歌公司Principal Engineer吳軍博士最新力作《數學之美》由創新工場董事長兼首席執行官李開復傾力作序推薦。《數學之美》的創作源自點擊超百萬的谷歌黑板報專題博客,吳軍應出版要求幾乎改寫和重構了所有的文章,既照顧了普通讀者的興趣,又兼顧了專業讀者對深度的要求。 在《數學之美》中,吳軍帶領您領略數學之美,架起從數學到應用的橋梁,教會您如何化繁為簡,如何用數學解決工程問題,如何打破思維定式不斷思考創新。 《數學之美》是獻給每一位對自然、科學、生活有興趣的朋友的禮物。本書榮獲第八屆文津圖書獎。 更多相關暢銷好書請點擊: 《浪潮之巔(第2版)套裝上下冊》《浪潮之巔(上冊)(第2版)》《浪潮之巔(下冊)(第2版)》
序言
我去年曾經給吳軍的《浪潮之巔》寫序,今年很高興得知他的《數學之美》也即將出版了!
和《浪潮之巔》一樣,《數學之美》也是當年作為 Google 資深研究員的吳軍在 谷歌 黑板報上應邀撰寫的一系列文章。說實在的,剛開始,黑板報的版主還有點擔心這個系列會不會讓讀者覺得太理論而感到枯燥,但很快這個顧慮就被打消了。《數學之美》用生動形象的語言,結合數學發展的歷史和實際的案例,談古論今,系統地闡述了與現代科技領域相關的重要的數學理論的起源、發展及其作用,深入淺出,受到廣大讀者尤其是科技類人士的喜愛。
之前就曾說過,在我認識的頂尖研究員和工程師里,吳軍是極少數具有強大敘事能力和對科技、信息領域的發展變化有很深的縱向洞察力,并能有效歸納總結的人之一。在《數學之美》里,吳軍再次展示了這一特點。與《浪潮之巔》不同的是,這次吳軍集中闡述了他對數學和信息處理這些專業學科的理解,尤其是他在語音識別、自然語言處理和信息搜索領域多年來的積累 。 從數字和信息的由來,到搜索引擎對信息處理的背后的數學原理,到與搜索相關的眾多領域后面的奇妙的數學應用,吳軍都娓娓道來。他把數學后面的本質思維寫得透徹、生動。不得不說,他的文字,引人入勝,也確實讓我們體會到數學的美。在他的筆下,數學不是我們一般聯想到的枯燥深奧的符號,而是實實在在源于生活的有趣的現象和延伸。數學,其實無處不在,而且有一種讓人驚嘆的韻律和美!
伽利略曾經說過,“數學是上帝描寫自然的語言”;愛因斯坦也曾說過,“純數學使我們能夠發現概念和聯系這些概念的規律,這些概念和規律給了我們理解自然現象的鑰匙。”我多年來一直也對信息處理、語音識別領域有著一定的研究,深深體會到數學在所有科學領域起到的基礎和根本的作用。“哪里有數,哪里就有美”。在這里,我把《數學之美》真誠推薦給每一位對自然、科學、生活有興趣有熱情的朋友,不管你是搞理科還是搞文科的,讀一讀數學的東西,會讓你非常受益,同時能感受到宇宙和世界的美好與奇妙。
吳軍把之前谷歌黑板報上的“數學之美”系列文章編輯成現在的這本書,花費了大量的心血和時間。他本著十分嚴謹的態度,在繁忙的工作之余,補充了之前的系列,并幾乎重寫了所有的文章,既照顧了普通讀者的興趣,又兼顧了專業讀者對深度的要求,很讓人欽佩。
有時我在想,現在的社會多了一點壓力和浮躁,少了一點踏實和對自然科學本質的好奇求知。吳軍的這本《數學之美》真的非常好。非常希望吳軍今后能寫出更多這樣深入淺出的好書,它們會是給這個社會和年輕人最好的禮物。
李開復 2012年 于創新工場
吳軍博士,畢業于清華大學和美國約翰·霍普金斯大學(博士),是著名自然語言處理和搜索專家,硅谷風險投資人。
吳軍博士,于2002年加入谷歌公司。在谷歌,他和Amit Singhal(谷歌院士,世界著名搜索專家)、Matt Cutts(谷歌反作弊官方發言人)等三位同事一起開創了網絡搜索反作弊的研究領域,并因此獲得谷歌工程獎。2003年,他和谷歌全球架構的總工程師朱會燦博士等共同成立了中日韓文搜索部門。吳軍博士是當前谷歌中日韓文搜索算法的主要設計者。在谷歌期間,他還領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,并得到了當時公司首席執行官埃里克·施密特和創始人謝爾蓋·布林的高度評價。2010年加盟騰訊公司,出任負責搜索和搜索廣告的副總裁。2012年回到谷歌,領導創新項目。目前任谷歌公司的Principal Engineer(首席工程師)。
吳軍博士在國內外發表過數十篇論文,曾獲得1995年全國人機語音智能接口會議的最佳論文獎和2000年Eurospeech的最佳論文獎。他還獲得和申請了十余項美國和國際專利。他撰寫的《浪潮之巔》(第一版)和《數學之美》深受業界的好評。
吳軍博士在美國兩家風險投資基金(中國世紀基金和ZPark風險基金)分別擔任董事和顧問,他還擔任約翰·霍普金斯大學工學院董事會董事,以及該校國際事務委員會的顧問。他曾經是國家重大專項“新一代搜索引擎和瀏覽器”項目的總負責人。從2012年起任職工業與信息化部的專家和顧問。
出版說明
序言1
序言2
前言
第1章 文字和語言 vs 數字和信息
文字和語言與數學,從產生起原本就有相通性,雖然它們的發展一度分道揚鑣,但是最終還是能走到一起。
1 信息
2 文字和數字
3 文字和語言背后的數學
4 小結
第2章 自然語言處理 — 從規則到統計人類對機器理解自然語言的認識走了一條大彎路。早期的研究集中采用基于規則的方法,雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。直到?多年后,人們開始嘗試用基于統計的方法進行自然語言處理,才有了突破性進展和實用的產品。
1 機器智能
2 從規則到統計
3 小結
第3章 統計語言模型
統計語言模型是自然語言處理的基礎,并且被廣泛應用于機器翻譯、語音識別、印刷體或手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。
1 用數學的方法描述語言規律
2 延伸閱讀:統計語言模型的工程訣竅
3 小結
第4章 談談中文分詞
中文分詞是中文信息處理的基礎,它同樣走過了一段彎路,目前依靠統計語言模型已經基本解決了這個問題。
1 中文分詞方法的演變
2 延伸閱讀:工程上的細節問題
3 小結
第5章 隱含馬爾可夫模型
隱含馬爾可夫模型最初應用于通信領域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋梁。同時,隱含馬爾可夫模型也是機器學習的主要工具之一。
1 通信模型
2 隱含馬爾可夫模型
3 延伸閱讀:隱含馬爾可夫模型的訓練
4 小結
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不僅是對信息的量化度量,也是整個信息論的基礎。它對于通信、數據壓縮、自然語言處理都有很強的指導意義。
1 信息熵
2 信息的作用
3 延伸閱讀:信息論在信息處理中的應用
4 小結
第7章 賈里尼克和現代語言處理
作為現代自然語言處理的奠基者,賈里尼克教授成功地將數學原理應用于自然語言處理領域中,他的一生富于傳奇色彩。
1 早年生活
2 從水門事件到莫妮卡·萊溫斯基
3 一位老人的奇跡
第8章 簡單之美 — 布爾代數和搜索引擎的索引布爾代數雖然非常簡單,卻是計算機科學的基礎,它不僅把邏輯和數學合二為一,而且給了我們一個全新的視角看待世界,開創了數字化時代。
1 布爾代數
2 索引
3 小結
第9章 圖論和網絡爬蟲
互聯網搜索引擎在建立索引前需要用一個程序自動地將所有的網頁下載到服務器上,這個程序稱為網絡爬蟲,它的編寫是基于離散數學中圖論的原理。
1 圖論
2 網絡爬蟲
3 延伸閱讀:圖論的兩點補充說明
4 小結
第10章 PageRank — Google的民主表決式網名
網頁排名技術是早期的殺手锏,它的出現使得網頁搜索的質量上了一個大的臺階。它背后的原理是圖論和線性代數的矩陣運算。
1 PageRank 算法的原理
2 延伸閱讀:PageRank 的計算方法
3 小結
第11章 如何確定網頁和查詢的相關性確定網頁和查詢的相關性是網頁搜索的根本問題,其中確定查詢中每個關鍵詞的重要性有多高是關鍵。是目前通用的關鍵詞重要性的度量,其背后的原理是信息論。
1 搜索關鍵詞權重的科學度量TF-IDF頁排名技術
2 延伸閱讀:TF-IDF 的信息論依據
3 小結
第12章 地圖和本地搜索的最基本技術
有限劃地圖和本地服務中要用到有限狀態機和動態規劃技術。
這兩項技術是機器智能和機器學習的工具,它們的應用非常廣泛,還包括語音識別、拼寫和語法糾錯、拼音輸入法、工業控制和生物的序列分析等。
1 地址分析和有限狀態機
2 全球導航和動態規劃
3 延伸閱讀:有限狀態傳感器
4 小結
第13章 Google AK-47 的設計者 — 阿米特·士
在所有輕武器中最有名的是沖鋒槍,因為它從不卡殼,不易損壞,可在任何環境下使用,可靠性好,殺傷力大并且操作簡單。的產品就是按照上述原
則設計的。
第14章 余弦定理和新聞的分類
計算機雖然讀不懂新聞,卻可以準確地對新聞進行分類。
其數學工具是看似毫不相干的余弦定理。
1 新聞的特征向量
2 向量距離的度量
3 延伸閱讀:計算向量余弦的技巧
4 小結
第15章 矩陣運算和文本處理中的兩個分類問題無論是詞匯的聚類還是文本的分類,都可以通過線性代數中矩陣的奇異值分解來進行。這樣一來,自然語言處理的問題就變成了一個數學問題。
1 文本和詞匯的矩陣
2 延伸閱讀:奇異值分解的方法和應用場景
3 小結
第16章 信息指紋及其應用
世間萬物都有一個唯一標識的特征,信息也是如此。每一條信息都有它特定的指紋,通過這個指紋可以區別不同的信息。
1 信息指紋
2 信息指紋的用途
3 延伸閱讀:信息指紋的重復性和相似哈希
4 小結
第17章 由電視劇《暗算》所想到的 — 談談原理
密碼學的根本是信息論和數學。沒有信息論指導的密碼是非常容易被破解的。只有在信息論被廣泛應用于密碼學后,密碼才真正變得安全。
1 密碼學的自發時代
2 信息論時代的密碼學
3 小結
第18章 閃光的不一定是金子 — 談談搜索引擎題
閃光的不一定是金子,搜索引擎中排名靠前的網頁也未必是有用的網頁。消除這些作弊網頁的原理和通信中過濾噪音的原理相同。這說明信息處理和通信的很多原理是相通的。
第19章 談談數學模型的重要性
正確的數學模型在科學和工程中至關重要,而發現正確模型的途徑常常是曲折的。正確的模型在形式上通常是簡單的。
第20章 不要把雞蛋放到一個籃子里 — 談談型
最大熵模型是一個完美的數學模型。它可以將各種信息整合到一個統一的模型中,在信息處理和機器學習中有反作弊問題著廣泛的應用。它在形式上非常簡單、優美,而在實現時需要有精深的數學基礎和高超的技巧。
1 最大熵原理和最大熵模型
2 最大熵模型的訓練
3 小結
第21章 拼音輸入法的數學原理
漢字的輸入過程本身就是人和計算機之間的通信。好的輸入法會自覺或不自覺地遵循通信的數學模型。當然要做出最有效的輸入法,應當自覺使用信息論做指導。
1 輸入法與編碼
2 輸入一個漢字需要敲多少個鍵 — 談談香農
3 拼音轉漢字的算法
4 延伸閱讀:個性化的語言模型
5 小結
第22章 自然語言處理的教父馬庫斯和他的們
將自然語言處理從基于規則的研究方法轉到基于統計的研究方法上,賓夕法尼亞大學的教授米奇·馬庫斯功不可沒。他創立了今天在學術界廣泛使用的語料庫,同時培養了一大批精英人物。
1 教父馬庫斯
2 從賓夕法尼亞大學走出的精英們
第23章 布隆過濾器
日常生活中,經常要判斷一個元素是否在一個集合中。布隆過濾器是計算機工程中解決這個問題最好的數學工具。
1 布隆過濾器的原理
2 延伸閱讀:布隆過濾器的誤識別問題
3 小結
第24章 馬爾可夫鏈的擴展 — 貝葉斯網絡
貝葉斯網絡是一個加權的有向圖,是馬爾可夫鏈的擴展。而從認識論的層面看:貝葉斯網絡克服了馬爾可夫鏈那種機械的線性約束,它可以把任何有關聯的事件統一到它的框架下面。它在生物統計、圖像處理、決策支持系統和博弈論中都有廣泛的使用。
1 貝葉斯網絡
2 貝葉斯網絡在詞分類中的應用
3 延伸閱讀:貝葉斯網絡的訓練
4 小結
第25章 條件隨機場和句法分析
條件隨機場是計算聯合概率分布的有效模型,而句法分析似乎是英文課上英語老師教的東西,這兩者有什么聯系呢?
1 句法分析計算機算法的演變
2 條件隨機場
3 小結
第26章 維特比和他的維特比算法
維特比算法是現代數字通信中使用最頻繁的算法,同時也是很多自然語言處理的解碼算法。可以毫不夸張地講,維特比是對我們今天生活的影響力最大的科學家之一,因為如今基于的移動通信標準主要就是他創辦的高通公司制定的。
1 維特比算法
2 CDMA 技術 — 3G 移動通信的基礎
3 小結
第27章 再談文本自動分類問題 — 期望最大化算法
只要有一些訓練數據,再定義一個最大化函數,采用算法,利用計算機經過若干次迭代,就可以得到所需要的模型。這實在是太美妙了,這也許是我們的造物主刻意安排的。所以我把它稱作上帝的算法。
1 文本的自收斂分類
2 延伸閱讀:期望最大化和收斂的必然性
3 小結
第28章 邏輯回歸和搜索廣告
邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應用于信息處理和生物統計中。
1 搜索廣告的發展
2 邏輯回歸模型
3 小結
第29章 各個擊破算法和Google 云計算的基礎
Google頗為神秘的云計算中最重要的MapReduce工具,其原理就是計算機算法中常用的“各個擊破”算法,它的原理原來這么簡單 — 將復雜的大問題分解成很多小問題分別求解,然后再把小問題的解合并成原始問題的解。由此可見,在生活中大量用到的、真正有用的方法
常常都是簡單樸實的。
1 分治算法的原理
2 從分治算法到MapReduce
3 小結
附錄
后記
索引
世間萬般表象的背后皆有規律。科學研究的真正目的,在于找到這些規律并能夠舉一反三地應用這些規律。對于自然科學和工程學,包括計算機科學和通信,數學是描述這些規律性最好的工具。做事情的方法有對與錯、好和壞之分,從長期看只有采用對的方法、好的方法才能做出好的產品和服務。而任何一個好的方法背后都有充分的理論依據,都有正確的方法論。
本書的一個目的在于揭示信息和自然語言處理以及它們在通信和互聯網各種應用(語音識別、機器翻譯、搜索、分類等)中的數學原理,從而幫助讀者認識到:解決這些問題,好的方法是什么。毫無疑問,解決這些問題需要智能,而計算機本身并沒有智能,它有的只是巨大的計算能力。只有找到描述這些問題的數學模型,才能利用計算機解決這些需要智能的問題,這樣,計算機看上去也似乎聰明起來了。
數學之美,首先在于其內容或許復雜而深奧,但形式常常很簡單。簡單=美,這不僅在科學和工程上成立,而且在產品開發和設計上也是如此,這和設計大師喬布斯“少即是多”的原則不謀而合。同時,數學之美還在于數學原理的通用性和普遍性。一個好的數學模型,常常能解決一系列,甚至是許多看似毫不相干領域的實際問題。在數學上的一點突破,可以帶動很多領域和行業的進步。
數學給人的印象常常是抽象而深奧、難以理解和應用不明確的。產生這個這個誤解的原因是缺乏從數學到應用的橋梁,本書希望拋磚引玉,期待著能有更多的人一起來搭建這座橋梁。
……