亚洲综合激情五月色播,丰乳肥臀在线阅读,天天插天天狠天天透

NLTK基礎教程

定價：¥49

中教價：¥36.75 (7.50折）

庫存數： 0

購買數量：

    本書是一本介紹NLTK的書，書中也介紹了很多有關Python語言的知識。本書首先幫助讀者掌握構建系統NLP的要點，并引導讀者探索數據科學相關的領域。除此之外，書中還介紹了很多有關于自然語言處理的重要知識，讓讀者深入掌握一些Python里可以應用到自然語言處理中的實用的工具和庫。通過學習本書，讀者將對自然語言處理和機器學習有更加深入的認識，并能夠更好地利用Python語言處理眾多非結構化的數據。

自然語言處理（NLP）屬于人工智能與計算機語言學的交叉領域，處理的是計算機與人類語言之間的交互問題。隨著人機交互需求的日益增長，計算機具備處理當前主要自然語言的能力已經成為了一個必然趨勢。NLTK正是這一領域中一個強大而穩健的工具包。
在這本書中，我們首先會介紹一些與NLP相關的知識。然后，我們會探討一些與數據科學相關的任務，通過這些任務來學習如何從零開始構建自定義的標識器和解析器。在此過程中，我們將會深度探索NLP領域的基本概念，為這一領域各種開源的Python工具和庫提供具有實踐意義的見解。接下來，我們將會介紹如何分析社交媒體網站，發現熱門話題，進行輿情分析。zui后，我們還會介紹一些用于處理大規模文本的工具。
在閱讀完本書之后，您將會對NLP與數據科學領域中的概念有一個充分的了解，并能將這些知識應用到日常工作中。
如果您是NLP或機器學習相關領域的愛好者，并有一些文本處理的經驗，那么本書就是為你量身定做的。此外，這本書也是專業Python程序員快速學習NLTK庫的理想選擇。

通過本書，你將學會：
■ 了解自然語言的復雜性以及機器對它們的處理方式。
■ 如何利用標識化處理手段清理文本歧義，并利用分塊操作更好地處理數據。
■ 探索不同標簽類型的作用，并學習如何將句子標簽化。
■ 如何根據自己的需要來創建自定義的解析器和標識器。
■ 如何構建出具有拼寫檢查、搜索、機器翻譯以及問答系統等功能的實用程序。
■ 如何通過信息爬取與捕獲的手段對相關數據內容進行檢索。
■ 如何通過特性的提取與選取，構建出針對不同文本的分類系統。
■ 如何使用各種第三方Python庫，如pandas、scikit-learn、matplotlib、gensim。
■ 如何對社交媒體網站進行分析，包括發掘熱門話題、輿情分析等。

Nitin Hardeniya 數據科學家，擁有4年以上從業經驗，期間分別任職于Fidelity、Groupon和[24]7等公司，其業務橫跨各個不同的領域。此外，他還擁有IIIT-H的計算語言學碩士學位，并且是5項客戶體驗專利的作者。

第1章　自然語言處理簡介 1
1．1　為什么要學習NLP 2
1．2　先從Python開始吧 5
1．2．1　列表 5
1．2．2　自助功能 6
1．2．3　正則表達式 8
1．2．4　字典 9
1．2．5　編寫函數 10
1．3　向NLTK邁進 11
1．4　練習 16
1．5　小結 17
第2章　文本的歧義及其清理 18
2．1　何謂文本歧義 18
2．2　文本清理 20
2．3　語句分離器 21
2．4　標識化處理 22
2．5　詞干提取 23
2．6　詞形還原 24
2．7　停用詞移除 25
2．8　罕見詞移除 26
2．9　拼寫糾錯 26
2．10　練習 27
2．11　小結 28
第3章　詞性標注 29
3．1　何謂詞性標注 29
3．1．1　Stanford標注器 32
3．1．2　深入了解標注器 33
3．1．3　順序性標注器 35
3．1．4　Brill標注器 37
3．1．5　基于機器學習的標注器 37
3．2　命名實體識別（NER） 38
3．3　練習 40
3．4　小結 41
第4章　文本結構解析 43
4．1　淺解析與深解析 43
4．2　兩種解析方法 44
4．3　為什么需要進行解析 44
4．4　不同的解析器類型 46
4．4．1　遞歸下降解析器 46
4．4．2　移位-歸約解析器 46
4．4．3　圖表解析器 46
4．4．4　正則表達式解析器 47
4．5　依存性文本解析 48
4．6　語塊分解 50
4．7　信息提取 53
4．7．1　命名實體識別（NER） 53
4．7．2　關系提取 54
4．8　小結 55
第5章　NLP應用 56
5．1　構建第一個NLP應用 57
5．2　其他NLP應用 60
5．2．1　機器翻譯 60
5．2．2　統計型機器翻譯 61
5．2．3　信息檢索 62
5．2．4　語音識別 64
5．2．5　文本分類 65
5．2．6　信息提取 66
5．2．7　問答系統 67
5．2．8　對話系統 67
5．2．9　詞義消歧 67
5．2．10　主題建模 68
5．2．11　語言檢測 68
5．2．12　光符識別 68
5．3　小結 68
第6章　文本分類 70
6．1　機器學習 71
6．2　文本分類 72
6．3　取樣操作 74
6．3．1　樸素貝葉斯法 76
6．3．2　決策樹 79
6．3．3　隨機梯度下降法 80
6．3．4　邏輯回歸 81
6．3．5　支持向量機 81
6．4　隨機森林算法 83
6．5　文本聚類 83
6．6　文本中的主題建模 84
6．7　參考資料 87
6．8　小結 87
第7章　Web爬蟲 88
7．1　Web爬蟲 88
7．2　編寫第一個爬蟲程序 89
7．3　Scrapy庫中的數據流 92
7．3．1　Scrapy庫的shell 93
7．3．2　目標項 98
7．4　生成網站地圖的蜘蛛程序 99
7．5　目標項管道 100
7．6　參考資料 102
7．7　小結 102
第8章　NLTK與其他Python庫的搭配
運用 104
8．1　NumPy 104
8．1．1　多維數組 105
8．1．2　基本運算 106
8．1．3　從數組中提取數據 107
8．1．4　復雜矩陣運算 108
8．2　SciPy 112
8．2．1　線性代數 113
8．2．2　特征值與特征向量 113
8．2．3　稀疏矩陣 114
8．2．4　優化措施 115
8．3　pandas 117
8．3．1　讀取數據 117
8．3．2　數列 119
8．3．3　列轉換 121
8．3．4　噪聲數據 121
8．4　matplotlib 123
8．4．1　子圖繪制 123
8．4．2　添加坐標軸 124
8．4．3　散點圖繪制 125
8．4．4　條形圖繪制 126
8．4．5　3D繪圖 126
8．5　參考資料 126
8．6　小結 127
第9章　Python中的社交媒體挖掘 128
9．1　數據收集 128
9．2　數據提取 132
9．3　地理可視化 134
9．3．1　影響力檢測 135
9．3．2　Facebook 135
9．3．3　有影響力的朋友 139
9．4　小結 141
第10章　大規模文本挖掘 142
10．1　在Hadoop上使用Python的
不同方式 142
10．1．1　Python的流操作 143
10．1．2　Hive/Pig下的UDF 143
10．1．3　流封裝器 143
10．2　Hadoop上的NLTK 144
10．2．1　用戶定義函數
（UDF） 144
10．2．2　Python的流操作 146
10．3　Hadoop上的Scikit-learn 147
10．4　PySpark 150
10．5　小結 153

你還可能感興趣

我要評論

您的姓名	驗證碼：
留言內容

国产91青青成人a在线/在线视频成人/aaa成人永久在线观看视频/深夜草莓视频app