‖目 錄
叢書前言
前言
第1章 概述1
1.1 實體識別問題的提出1
1.2 實體識別研究的發展歷史2
1.3 實體識別問題的描述4
1.4 實體識別的處理流程6
1.5 實體識別的挑戰6
1.5.1 相似度衡量問題7
1.5.2 計算效率問題7
1.5.3 機器學習方法的應用問題8
1.5.4 關聯對象的識別問題8
1.5.5 一些新的挑戰9
1.5.6 實體識別評估10
1.6 實體識別的應用10
1.6.1 醫療衛生10
1.6.2 人口普查11
1.6.3 客戶關系管理12
1.6.4 網購比價13
1.6.5 犯罪及欺詐偵查13
1.6.6 關聯的開放數據14
1.6.7 引文數據庫15
1.7 本章小結17
參考文獻17
第2章 相似度計算算法22
2.1 基于字段的相似度算法22
2.1.1 Jaccard相似度算法22
2.1.2 基于TF-IDF的相似度算法23
2.1.3 基于q-grams的相似度算法24
2.2 基于編輯距離的相似度算法25
2.2.1 Levenshtein距離算法25
2.2.2 Jaro和Jaro-Winkler距離算法26
2.3 混合的相似度算法27
2.3.1 擴展的Jaccard相似度算法27
2.3.2 Monge-Elkan相似度算法29
2.3.3 Soft TF-IDF相似度算法29
2.4 數值型數據相似度算法31
2.4.1 數字型相似度算法31
2.4.2 日期型相似度算法32
2.4.3 價格型相似度算法32
2.5 本章小結33
參考文獻33
第3章 實體識別的分塊技術35
3.1 引言35
3.1.1 數據分塊技術的應用35
3.1.2 實體識別數據分塊問題定義與算法分類38
3.2 分塊鍵39
3.2.1 分塊鍵的定義39
3.2.2 分塊鍵的編碼44
3.3 基于等值匹配的分塊算法45
3.3.1 標準分塊方法46
3.3.2 基于學習的分塊鍵定義48
3.4 基于相似性的分塊算法50
3.4.1 基于排序的分塊方法51
3.4.2 基于字符串分割的分塊方法54
3.4.3 基于MinHash的分塊方法58
3.4.4 基于Canopy聚類的分塊方法61
3.4.5 基于前綴過濾的分塊方法64
3.5 本章小結69
參考文獻69
第4章 基于機器學習的實體識別方法72
4.1 基于分類器的實體識別方法72
4.1.1 基于決策樹的實體識別方法73
4.1.2 基于貝葉斯分類器的實體識別方法76
4.1.3 基于SVM的實體識別方法79
4.1.4 基于主動學習的實體識別方法84
4.1.5 其他方法87
4.2 基于概率圖模型的實體識別方法88
4.2.1 基于馬爾可夫邏輯網絡的實體識別方法89
4.2.2 基于條件隨機場的實體識別方法93
4.3 本章小結97
參考文獻97
第5章 基于關系的實體識別方法100
5.1 引言100
5.2 聯合式實體識別方法101
5.2.1 基于關系聚類的聯合式實體識別方法102
5.2.2 復雜信息空間中的聯合式實體識別方法108
5.3 基于實體關系的消歧方法118
5.3.1 基于社交關系的名字消歧方法119
5.3.2 基于實體關系的實體消歧方法122
5.3.3 基于異構實體關系的實體消歧方法133
5.4 本章小結140
參考文獻141
第6章 新型的實體識別技術143
6.1 引言143
6.2 基于時間模型的實體識別技術144
6.2.1 一個實例145
6.2.2 時間模型146
6.2.3 基于時間模型的實體識別算法161
6.3 基于眾包的實體識別技術170
6.3.1 一個實例171
6.3.2 基于眾包的實體識別框架172
6.3.3 基于眾包的實體識別的核心問題174
6.3.4 基于眾包的實體識別方法的特點177
6.4 隱私保護下的實體識別技術178
6.4.1 實體匹配中隱私保護的分類179
6.4.2 實體識別隱私保護算法的評估182
6.5 本章小結184
參考文獻184
第7章 實體識別評估187
7.1 基于記錄對的精確性評價——準確率、召回率和F測度187
7.2 分塊技術評價189
7.3 常用數據集190
7.3.1 真實數據集190
7.3.2 數據生成工具191
7.4 本章小結192
參考文獻192
第8章 總結與展望193
8.1 實體識別研究總結193
8.2 新型實體識別研究展望195
8.2.1 基于時間模型的實體識別195
8.2.2 基于眾包的實體識別196
8.2.3 隱私保護下的實體識別197
8.3 研究挑戰198