国产一级做美女做受视频,99久久国语露脸精品对白,国产精品久久久久久亚洲小说

Java中文文本信息處理

定價：¥56

中教價：¥28.00 (5.00折）

庫存數： 0

購買數量：

      全書以零基礎的讀者自學完成一個中文分詞系統作為目標。從Java基礎語法開始, 然后到文本處理相關的數據結構和算法, 最后實現文本切分和詞性標注。本書是唯一介紹業界熱門的Java開發中文分詞的書籍。

全書以零基礎的讀者自學完成一個中文分詞系統作為目標。從Java基礎語法開始，然后到文本處理相關的數據結構和算法，最后實現文本切分和詞性標注。本書是少有的介紹業界熱門的Java開發中文分詞的書籍。本書選取相關領域的經典內容深入理解和挖掘，也綜合了實踐性強的創新想法。適用于對軟件開發感興趣的青少年或者大學生。

　　“前門到了，請在后門下車。”把“前門”標注成地名就容易理解這句話了。從種地到買菜、買房、養生保健以及投資理財等，都可以用到中文分詞等文本信息挖掘技術。

　　各行業都在構建越來越復雜的軟件系統，很多系統都會用到文本處理技術。但是即使在計算機專業，也有很多人對文本信息處理相關技術不太了解。其實，學習相關技術的門檻并不高。而本書就是為了普及相關開發而做的一次新的嘗試，其中也結合了作者自己的研究成果，希望為推動相關應用的發展做出貢獻。

　　本書借助計算機語言Java實現中文文本信息處理，試圖通過恰當的數據結構和算法來應對一些常見的文本處理任務。相關代碼可以從清華大學出版社的網站下載。

　　本書的第1章到第3章介紹了相關的Java開發基礎。第4章介紹處理文本所用到的有限狀態機基本概念和具體實現。第5章介紹相關的基礎數據結構。第6章到第9章介紹中文分詞原理與實現。

　　書中的很多內容來源于作者的開發和教學實踐。作者的實踐經驗還體現在相關的其他書中，如《自己動手寫搜索引擎》、《自然語言處理原理與技術實現》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》、《解密搜索引擎技術實戰》等。相對于作者編寫的其他書籍，本書更加注意零基礎入門。

　　學習是個循序漸進的過程。可以在讀者群中共同學習。群體往往比單個人有更多的智慧產出。為了構建出更好的技術群體，請加讀者QQ群(453406621)交流。希望快速入門的讀者也可以參加相關培訓。這本書最開始是為一位從蘇州專門來北京現場學習的學員入門中文分詞而編寫。感謝他為編寫本書提供的幫助。

　　也希望通過本書能結識更多的同行。有您真誠的建議，我們會發展得更好。例如，通過與同行的交流，讓我們的數量、日期等量化信息的提取工具更加成熟。當前，語義分析等文本處理技術仍然需要更深入的發展，來更好地支持各行業的智能軟件開發。

　　本書由羅剛、張子憲、崔智杰編著，參與本書編寫的還有石天盈、張繼紅、童曉軍，在此一并表示感謝。感謝開源軟件和我們的家人、關心我們的老師和朋友、創業伙伴，以及選擇獵兔自然語言處理軟件的客戶多年來的支持。

　　編者

羅剛，計算機軟件碩士，畢業于吉林工業大學。2005年創立北京盈智星科技發展有限公司，2008年聯合創立上海數聚軟件公司。獵兔搜索創始人，當前獵兔搜索在北京和上海以及石家莊均設有研發部。帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔文本挖掘系統，智能垂直搜索系統以及網絡信息監測系統等,實現互聯網信息的采集、過濾、搜索和實時監測，其開發的搜索軟件日用戶訪問量達萬次以上。

第1章 Java軟件開發

1．1 背景

1．1．1 好身體是一切成功的保證

1．1．2 路線圖

1．1．3 Java

1．2 軟件工具

1．2．1 搜索引擎

1．2．2 Windows命令行

1．2．3 機器翻譯

1．2．4 Linux

1．2．5 源代碼比較工具

1．3 Java基礎

1．3．1 準備開發環境

1．3．2 Eclipse

1．4 本章小結

第2章結構化程序設計

2．1 基本數據類型

2．2 變量

2．2．1 表達式執行順序

2．2．2 簡化的運算符

2．2．3 常量

2．3 控制結構

2．3．1 語句

2．3．2 判斷條件

2．3．3 三元運算符

2．3．4 條件判斷

2．3．5 循環

2．4 方法

2．4．1 main方法

2．4．2 遞歸調用

2．4．3 方法調用棧

2．5 數組

2．5．1 數組求和

2．5．2 計算平均值舉例

2．5．3 前趨節點數組

2．5．4 快速復制

2．5．5 循環不變式

2．6 字符串

2．6．1 字符編碼

2．6．2 格式化

2．6．3 增強switch語句

2．7 數值類型

2．7．1 類型轉換

2．7．2 整數運算

2．7．3 數值運算

2．7．4 位運算

2．8 安裝Java

2．8．1 服務器端安裝

2．8．2 自動安裝Java

2．9 提高代碼質量

2．9．1 代碼整潔

2．9．2 單元測試

2．9．3 調試

2．9．4 重構

2．10 本章小結

第3章面向對象編程

3．1 類和對象

3．1．1 類

3．1．2 類方法

3．1．3 類變量

3．1．4 實例變量

3．1．5 構造方法

3．1．6 對象

3．1．7 實例方法

3．1．8 調用方法

3．1．9 內部類

3．1．10 克隆

3．1．11 結束

3．2 繼承

3．2．1 重寫

3．2．2 繼承構造方法

3．2．3 接口

3．2．4 匿名類

3．2．5 類的兼容性

3．3 封裝

3．4 重載

3．5 靜態

3．5．1 靜態變量

3．5．2 靜態類

3．5．3 修飾類的關鍵詞

3．6 枚舉類型

3．7 集合類

3．7．1 動態數組

3．7．2 散列表

3．7．3 泛型

3．7．4 Google Guava集合

3．7．5 類型擦除

3．7．6 遍歷

3．7．7 排序

3．7．8 lambda表達式

3．8 比較

3．8．1 Comparable接口

3．8．2 比較器

3．9 SOLID原則

3．10 異常

3．10．1 斷言

3．10．2 Java中的異常

3．10．3 從方法中拋出異常

3．10．4 處理異常

3．10．5 正確使用異常

3．11 字符串對象

3．11．1 字符對象

3．11．2 查找字符串

3．11．3 修改字符串

3．11．4 格式化

3．11．5 常量池

3．11．6 關于對象不可改變

3．12 日期

3．13 大數對象

3．14 給方法傳參數

3．14．1 基本類型和對象

3．14．2 重載

3．15 文件操作

3．15．1 文本文件

3．15．2 二進制文件

3．15．3 文件位置

3．15．4 讀寫Unicode編碼的文件

3．15．5 文件描述符

3．15．6 對象序列化

3．15．7 使用IOUtils

3．16 Java類庫

3．16．1 使用Java類庫

3．16．2 構建JAR包

3．16．3 使用Ant

3．16．4 生成JavaDoc

3．16．5 ClassLoader

3．16．6 反射

3．17 編程風格

3．17．1 命名規范

3．17．2 流暢接口

3．17．3 日志

3．18 IDEA

3．19 實例

3．20 本章小結

第4章處理文本

4．1 字符串操作

4．2 有限狀態機

4．2．1 從NFA到DFA

4．2．2 DFA

4．2．3 DFA交集

4．2．4 DFA并集

4．2．5 有限狀態轉換

4．3 本章小結

第5章數據結構

5．1 鏈表

5．2 樹算法

5．2．1 標準Trie樹

5．2．2 鏈表Trie樹

5．2．3 二叉搜索樹

5．2．4 數組形式的二叉樹

5．2．5 三叉Trie樹

5．2．6 三叉Trie樹交集

5．2．7 Trie樹詞典

5．2．8 平衡Trie樹

5．2．9 B樹

5．3 雙數組Trie

5．4 隊列

5．4．1 鏈表實現的隊列

5．4．2 優先隊列

5．4．3 找出前k個最大的元素

5．5 堆棧

5．6 雙端隊列

5．7 散列表

5．7．1 快速查找的散列表

5．7．2 HashMap

5．7．3 應用散列表

5．7．4 開放式尋址

5．7．5 布隆過濾器

5．7．6 SimHash

5．8 圖

5．8．1 表示圖

5．8．2 遍歷圖

5．9 大數據

5．10 本章小結

第6章算法

6．1 貪婪法

6．2 分治法

6．3 動態規劃

6．4 在中文分詞中使用動態規劃算法

6．5 本章小結

第7章最長匹配分詞

7．1 正向最大長度匹配法

7．2 逆向最大長度匹配法

7．3 處理未登錄串

7．4 開發分詞

7．5 本章小結

第8章概率語言模型的分詞方法

8．1 一元模型

8．2 整合基于規則的方法

8．3 表示切分詞圖

8．4 形成切分詞圖

8．5 數據基礎

8．5．1 文本形式的詞表

8．5．2 數據庫詞表

8．6 改進一元模型

8．7 二元詞典

8．8 完全二叉數組

8．9 三元詞典

8．10 N元模型

8．11 N元分詞

8．12 生成語言模型

8．13 評估語言模型

8．14 概率分詞的流程與結構

8．15 本章小結

第9章詞性標注

9．1 數據基礎

9．2 隱馬爾科夫模型

9．3 存儲數據

9．4 統計數據

9．5 整合切分與詞性標注

9．6 知識型詞性序列標注

9．7 本章小結

參考資源

后記

第4章處理文本

　　網上聊天時，可能會遇到過找錯對象的尷尬事情。程序應該可以幫助判斷聊天對象是否正確。

　　XML和JSON這樣的文本格式很流行，因為不僅程序可以讀，人也是可以讀懂的。這樣的文本格式也需要解析。

4.1 字符串操作

　　經常需要分割字符串。例如IP地址127.0.0.1按.分割。可以先用String類中的indexOf方法來查找子串“.”，然后再截取子串。例如：

String inputIP = "127.0.0.1"; //本機IP地址

int p = inputIP.indexOf('.'); //返回位置3

　　這里的‘.’在字符串“127.0.0.1”中出現了多次。因為是從頭開始找起，所以返回第一次出現的位置3。

　　如果沒有找到子串，則indexOf返回-1。例如要判斷虛擬機是否為64位的：

//當在32位虛擬機時，將返回32；而在64位虛擬機時，返回64

String x = System.getProperty("sun.arch.data.model");

System.out.println(x); //在32位虛擬機中輸出32

System.out.println(x.indexOf("64")); //輸出-1

　　如果找到了，則返回的值不小于0。所以可以這樣寫：

if (x.indexOf("64") < 0) {

　　System.out.println("32位虛擬機");

}

　　indexOf(String str, int fromIndex)從指定位置開始查找。例如：

String inputIP = "127.0.0.1";

System.out.println(inputIP.indexOf('.', 4)); //輸出5，也就是第二個.所在的位置

　　從字符串inputIP里尋找點“.”的位置，但尋找的時候，要從inputIP的索引為4的位置開始，這就是第二個參數4的作用，由于索引是從0開始的，這樣，實際尋找的時候是從字符0開始的，所以輸出5，也就是第二個點“.”所在的位置。

　　String.subString取得原字符串其中的一段，也就是子串。傳入兩個參數：開始位置和結束位置。例如：

String inputIP = "127.0.0.1";

int p = inputIP.indexOf('.');

int q = inputIP.indexOf('.', p+1);

String IPsection1 = inputIP.substring(0, p); //得到"127"

String IPsection2 = inputIP.substring(p+1, q); //得到"0"

　　StringTokenizer類專門用來按指定字符分割字符串。StringTokenizer的nextToken()方法取得下一段字符串。

　　hasMoreElements()方法判斷是否還有字符串可以讀出。可以在StringTokenizer的構造方法中指定用來分隔字符串的字符。

　　例如分割IP地址：

String inputIP = "127.0.0.1";

StringTokenizer token =

new StringTokenizer(inputIP, "."); //用.分割IP地址串

while(token.hasMoreElements()) { //有更多的子串

　　System.out.print(token.nextToken() + " "); //輸出下一個子串

}

　　StringTokenizer默認按空格分割字符串。例如翻譯英文句子：

HashMap ecMap = new HashMap();

ecMap.put("I", "我"); //放入一個鍵/值對

ecMap.put("love", "愛");

ecMap.put("you", "你");

String english = "I love you";

StringTokenizer tokenizer =

new StringTokenizer(english); //用空格分割英文句子

while(tokenizer.hasMoreElements()) { //有更多的詞沒遍歷完

　　System.out.print(ecMap.get(tokenizer.nextToken())); //輸出：我愛你

}

　　StringTokenizer有幾個構造方法，其中最復雜的構造方法是：

StringTokenizer(String str, String delim, boolean returnDelims)

　　如果最后這個參數returnDelims標記是false，則分隔字符只作為分隔詞使用，一個返回的詞是不包括分隔符號的最長序列。如果最后一個參數標記是true，則返回的詞可以是分隔字符。默認是false，也就是不返回分隔字符。

　　如果需要把字符串存入二進制文件。可能會用到字符串和字節數組間的互相轉換。首先看一下如何從字符串得到字節數組：

String word = "的";

byte[] validBytes = word.getBytes("utf-8"); //字符串轉換成字節數組

System.out.println(validBytes.length); //輸出長度是3

　　可以直接調用Charset.encode實現字符串轉字節數組：

Charset charset = Charset.forName("utf-8"); //得到字符集

CharBuffer data = CharBuffer.wrap("數據".toCharArray());

ByteBuffer bb = charset.encode(data);

System.out.println(bb.limit()); //輸出數據的實際長度6

　　Charset.decode把字節數組轉回字符串：

byte[] validBytes = "程序設計".getBytes("utf-8"); //字節數組

//對字節數組賦值

Charset charset = Charset.forName("utf-8"); //得到字符集

//字節數組轉換成字符

CharBuffer buffer = charset.decode(ByteBuffer.wrap(validBytes));

System.out.println(buffer); //輸出結果

你還可能感興趣

我要評論

您的姓名	驗證碼：
留言內容

国产91青青成人a在线/在线视频成人/aaa成人永久在线观看视频/深夜草莓视频app