《文本上的算法 深入淺出自然語言處理》結合-作者多年學習和從事自然語言處理相關工作的經(jīng)驗,力圖用生動形象的方式深入淺出地介紹自然語言處理的理論、方法和技術。本書拋棄掉繁瑣的證明,提取出算法的核心,幫助讀者盡快地掌握自然語言處理所必需的知識和技能。
本書主要分兩大部分。第 一部分是理論篇,包含前3章內容,主要介紹一些基礎的數(shù)學知識、*優(yōu)化理論知識和一些機器學習的相關知識。第 二部分是應用篇,包含第4章到第8章,分別針對計算性能、文本處理的術語、相似度計算、搜索引擎、推薦系統(tǒng)、自然語言處理和對話系統(tǒng)等主題展開介紹和討論。
本書適合從事自然語言處理相關研究和工作的讀者參考,尤其適合想要了解和掌握機器學習或者自然語言處理技術的讀者閱讀。
自然語言處理是研究人機之間用自然語言通信的理論和方法,是人工智能領域的一個重要分支,有著非常廣泛的應用空間。
本書結合作者多年學習和從事自然語言處理相關工作的經(jīng)驗,力圖用生動形象的方式深入淺出地介紹自然語言處理的理論、方法和技術。本書拋棄繁瑣的證明,提取出算法的核心,幫助讀者盡快地掌握自然語言處理所必備的知識和技能。
通過本書,你將學習和理解:
★ 概率論、信息論、貝葉斯法則等基礎知識;
★ 機器學習和深度學習的熱門話題;
★ 程序優(yōu)化的方法;
★ PageRank和相似度計算的原理;
★ 搜索引擎的原理、架構和核心模塊;
★ 各種推薦算法的原理和工作機制;
★ 自然語言處理和對話系統(tǒng)等技術難題。
非常贊的一本書。既適合沒有很多背景的初學者入門,也適合相關方向的工程師進階。基礎概念的來龍去脈講得十分清楚,很多知識點也指出了相關的論文。這本書適合做教材,其中融入了作者對NLP的深刻理解。在深度學習/人工智能被過分炒作的今天,只有多思考問題的本質,也就是像書中所說的那樣,“只有腳踏實地,在現(xiàn)有技術和數(shù)據(jù)形態(tài)下結合產品設計解決好用戶需求”,才能達到“無招勝有招”的境界。
——網(wǎng)友supersuper
有幸閱讀到這本書,盡管目前只讀完了前幾章的內容,但是感覺收獲非常大,讓我的學習思路更為清晰,尤其在優(yōu)化問題這個概念上,本書更為深刻地介紹背后的原理,而不僅僅是強調某些算法模型。再次感謝作者給我?guī)淼膸椭c啟發(fā)!
——網(wǎng)友Liang Zachary
這本書令人印象非常深刻,知識點很全面,又深入淺出(特別喜歡里面舉的例子)。
——網(wǎng)友Yujun Wu
路彥雄,西安電子科技大學碩士畢業(yè),從事自然語言處理和機器學習相關工作多年,具有豐富經(jīng)驗。曾任微信小微機器人技術負責人,現(xiàn)任微信整合搜索算法組組長。
理 論 篇
第1章 你必須知道的一些基礎知識………………………………………3
1.1 概率論 ……………………………………………………………3
1.2 信息論 ……………………………………………………………4
1.3 貝葉斯法則 ………………………………………………………7
1.4 問題與思考 ………………………………………………………10
第2章 我們生活在一個尋求最優(yōu)解的世界里……………………………11
2.1 最優(yōu)化問題 ………………………………………………………11
2.2 最大似然估計/最大后驗估計 …………………………………15
2.3 梯度下降法 ………………………………………………………17
2.4 問題與思考 ………………………………………………………22
第3章 讓機器可以像人一樣學習…………………………………………23
3.1 何謂機器學習 ……………………………………………………23
3.2 邏輯回歸/因子分解機 …………………………………………29
3.3 最大熵模型/條件隨機場 ………………………………………34
3.4 主題模型 …………………………………………………………40
3.5 深度學習 …………………………………………………………50
3.6 其他模型 …………………………………………………………88
3.7 問題與思考 ………………………………………………………97
應 用 篇
第4章 如何計算得更快…………………………………………………101
4.1 程序優(yōu)化 ………………………………………………………101
4.2 分布式系統(tǒng) ……………………………………………………105
4.3 Hadoop …………………………………………………………107
4.4 問題與思考 ……………………………………………………114
第5章 你要知道的一些術語……………………………………………115
5.1 tf/df/idf …………………………………………………………115
5.2 IG/CHI/MI ………………………………………………………116
5.3 PageRank ………………………………………………………118
5.4 相似度計算 ……………………………………………………119
5.5 問題與思考 ……………………………………………………125
第6章 搜索引擎是什么玩意兒…………………………………………126
6.1 搜索引擎原理 …………………………………………………126
6.2 搜索引擎架構 …………………………………………………129
6.3 搜索引擎核心模塊 ……………………………………………130
6.4 搜索廣告 ………………………………………………………148
6.5 問題與思考 ……………………………………………………153
第7章 如何讓機器猜得更準……………………………………………155
7.1 基于協(xié)同過濾的推薦算法 ……………………………………156
7.2 基于內容的推薦算法 …………………………………………158
7.3 混合推薦算法 …………………………………………………159
7.4 問題與思考 ……………………………………………………163
第8章 理解語言有多難…………………………………………………164
8.1 自然語言處理 …………………………………………………164
8.2 對話系統(tǒng) ………………………………………………………176
8.3 語言的特殊性 …………………………………………………186
8.4 問題與思考 ……………………………………………………190
結語…………………………………………………………………………191
參考文獻……………………………………………………………………193