簡體書 » 自然語言處理原理與技術實現

內容簡介

本書詳細介紹自然語言處理各主要領域的原理以Java實現，包括中文分詞、詞性標注、依存句法分析等。其中詳細介紹了中文分詞和詞性標注的過程及相關算法，如隱馬爾可夫模型等。

在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程，此外還有問答系統、語音識別等目前應用非常廣泛的領域。

在問答系統的介紹中，本書特地介紹了聊天機器人的實現過程，從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。

羅剛，獵兔搜索創始人，帶領獵兔搜索技術開發團隊先后開發出獵兔中文分詞系統、獵兔信息提取系統、獵兔智能垂直搜索系統以及網絡信息監測系統等，實現互聯網信息的采集、過濾、搜索和實時監測。

曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發搜索引擎》，獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。張子憲，聊城大學教師、中國礦業大學（北京）博士生，研究方向：自動句法分析、機器翻譯。

第1章應用自然語言處理技術1
1.1付出與回報2
1.1.1如何開始2
1.1.2招聘人員2
1.1.3學習3
1.2開發環境3
1.3技術基礎4
1.3.1Java4
1.3.2規則方法5
1.3.3統計方法5
1.3.4計算框架5
1.3.5文本挖掘7
1.3.6語義庫7
1.4本章小結9
1.5專業術語9
第2章中文分詞原理與實現11
2.1接口12
2.1.1切分方案13
2.1.2詞特征13
2.2查找詞典算法13
2.2.1標准Trie樹14
2.2.2三叉Trie樹18
2.2.3詞典格式26
2.3最長匹配中文分詞27
2.3.1正向最大長度匹配法28
2.3.2逆向最大長度匹配法33
2.3.3處理未登錄串39
2.3.4開發分詞43
2.4概率語言模型的分詞方法45
2.4.1一元模型47
2.4.2整合基於規則的方法54
2.4.3表示切分詞圖55
2.4.4形成切分詞圖62
2.4.5數據基礎64
2.4.6改進一元模型75
2.4.7二元詞典79
2.4.8完全二叉樹組85
2.4.9三元詞典89
2.4.10N元模型90
2.4.11N元分詞91
2.4.12生成語言模型99
2.4.13評估語言模型100
2.4.14概率分詞的流程與結構101
2.4.15可變長N元分詞102
2.4.16條件隨機場103
2.5新詞發現103
2.5.1成詞規則109
2.6詞性標注109
2.6.1數據基礎114
2.6.2隱馬爾可夫模型115
2.6.3存儲數據124
2.6.4統計數據131
2.6.5整合切分與詞性標注133
2.6.6大詞表138
2.6.7詞性序列138
2.6.8基於轉換的錯誤學習方法138
2.6.9條件隨機場141
2.7詞類模型142
2.8未登錄詞識別144
2.8.1未登錄人名144
2.8.2提取候選人名145
2.8.3最長人名切分153
2.8.4一元概率人名切分153
2.8.5二元概率人名切分156
2.8.6未登錄地名159
2.8.7未登錄企業名160
2.9平滑算法160
2.10機器學習的方法164
2.10.1最大熵165
2.10.2條件隨機場170
2.11有限狀態機171
2.12地名切分178
2.12.1識別未登錄地名179
2.12.2整體流程185
2.13企業名切分187
2.13.1識別未登錄詞188
2.13.2整體流程190
2.14結果評測190
2.15本章小結191
2.16專業術語193
第3章英文分析194
3.1分詞194
3.1.1句子切分194
3.1.2識別未登錄串197
3.1.3切分邊界198
3.2詞性標注199
3.3重點詞匯202
3.4句子時態203
3.5本章小結204
第4章依存文法分析205
4.1句法分析樹205
4.2依存文法211
4.2.1中文依存文法211
4.2.2英文依存文法220
4.2.3生成依存樹232
4.2.4遍歷235
4.2.5機器學習的方法237
4.3小結237
4.4專業術語238
第5章文檔排重239
5.1相似度計算239
5.1.1夾角余弦239
5.1.2最長公共子串242
5.1.3同義詞替換246
5.1.4地名相似度248
5.1.5企業名相似度251
5.2文檔排重251
5.2.1關鍵詞排重251
5.2.2SimHash254
5.2.3分布式文檔排重268
5.2.4使用文本排重269
5.3在搜索引擎中使用文本排重269
5.4本章小結270
5.5專業術語270
第6章信息提取271
6.1指代消解271
6.2中文關鍵詞提取273
6.2.1關鍵詞提取的基本方法273
6.2.2HITS算法應用於關鍵詞提取275
6.2.3從網頁中提取關鍵詞277
6.3信息提取278
6.3.1提取聯系方式280
6.3.2從互聯網提取信息281
6.3.3提取地名282
6.4拼寫糾錯283
6.4.1模糊匹配問題285
6.4.2正確詞表296
6.4.3英文拼寫檢查298
6.4.4中文拼寫檢查300
6.5輸入提示302
6.6本章小結303
6.7專業術語303
第7章自動摘要304
7.1自動摘要技術305
7.1.1英文文本摘要307
7.1.2中文文本摘要309
7.1.3基於篇章結構的自動摘要314
7.1.4句子壓縮314
7.2指代消解314
7.3Lucene中的動態摘要314
7.4本章小結317
7.5專業術語318
第8章文本分類319
8.1地名分類321
8.2錯誤類型分類321
8.3特征提取322
8.4關鍵詞加權法326
8.5朴素貝葉斯330
8.6貝葉斯文本分類336
8.7支持向量機336
8.7.1多級分類345
8.7.2規則方法347
8.7.3網頁分類350
8.8最大熵351
8.9信息審查352
8.10文本聚類353
8.10.1K均值聚類方法353
8.10.2K均值實現355
8.10.3深入理解DBScan算法359
8.10.4使用DBScan算法聚類實例361
8.11本章小結363
8.12專業術語363
第9章文本傾向性分析364
9.1確定詞語的褒貶傾向367
9.2實現情感識別368
9.3本章小結372
9.4專業術語373
第10章問答系統374
10.1問答系統的結構375
10.1.1提取問答對376
10.1.2等價問題376
10.2問句分析377
10.2.1問題類型377
10.2.2句型381
10.2.3業務類型381
10.2.4依存樹381
10.2.5指代消解383
10.2.6二元關系383
10.2.7邏輯表示386
10.2.8問句模板386
10.2.9結構化問句模板389
10.2.10檢索方式390
10.2.11問題重寫395
10.2.12提取事實395
10.2.13驗證答案398
10.2.14無答案的處理398
10.3知識庫398
10.4聊天機器人399
10.4.1交互式問答401
10.4.2垂直領域問答系統402
10.4.3語料庫405
10.4.4客戶端405
10.5自然語言生成405
10.6依存句法406
10.7提取同義詞410
10.7.1流程410
10.8本章小結411
10.9術語表412
第11章語音識別413
11.1總體結構414
11.1.1識別中文416
11.1.2自動問答417
11.2語音庫418
11.3語音合成419
11.3.1歸一化420
11.4語音420
11.4.1標注424
11.4.2相似度424
11.5Sphinx424
11.5.1中文訓練集426
11.6Julius429
11.7本章小結429
11.8術語表429
參考資源430
后記431

看更多

序

目前，互聯網上的信息迅速膨脹，要想從中找出需要的信息就需要使用搜索引擎，你是否知道搜索引擎的工作原理？它到底如何對諸如漢語這樣的文字進行加工、然后反饋出需要的結果？像這樣的語言處理問題都會在本書中找到答案。即使在計算機專業，也有很多人對這個學科很陌生。因此，本書借助流行的Java語言介紹自然語言處理的各個領域，希望為推動相關應用的發展做出貢獻。

本書的編者在自然語言處理教學和軟件開發過程中積累的經驗融入到本書的各個環節，讀者會因此感到原理和實際應用結合得非常緊密。編者的實踐經驗還體現在相關的其他書中，如《自己動手寫搜索引擎》《自己動手寫網絡爬蟲》《自己動手寫網絡爬蟲》《使用C#開發搜索引擎》《解密搜索引擎技術實戰》等。

有一些自然語言處理的開發原理與技巧在專業的公司內部秘而不宣。理論與實踐結合的專門講自然語言處理的書籍仍然相對較少。本書嘗試先介紹原理，接着是具體的代碼實現分析。本書相關的代碼在讀者QQ群（499526946）中的共享文件中可以找到。

國外有的基礎課程從「構建搜索引擎」開始介紹計算機科學。我們的相關培訓課程已經這樣做了。當年參加過培訓的學員，有些已經創業成功或者成為公司的技術骨干。要根據培訓經驗寫出很好的自學教程，我們還有很多工作要做。零基礎自學的讀者，可能還需要其他方式來補足。

自然語言處理開發崗位比較少。如果能夠花若干年開寫出自己的軟件產品，那麼就可以合伙創業了。這個過程對很多人來說，往往太漫長。像老外那樣把冰箱放滿匹薩餅和可樂，然后就開始干活，這樣往往行不通，因為那樣吃不了幾天。可以買好能夠保存幾十年的谷子、水培可以吃若干年的韭菜。

就好像放在水里的韭菜種子，剛開始幾天根本看不到變化，學習是個循序漸進的過程。可以在讀者群中共同學習。

感謝開源軟件和我們的家人，關心我們的老師和朋友們、創業伙伴，以及選擇獵兔自然語言處理軟件的客戶多年來的支持。

特別提醒大家：經常面對電腦，容易阻塞氣血。往往並沒有免費的程序員保健師幫忙，所以需要自己多壓腿，拉伸身體。多做腹部運動，減少腹部脂肪堆積，避免脂肪肝等疾病。此外，還可以拍打身體，例如腋下、臂彎、腘窩等關節凹下去的地方。

長時間對着散發藍光的電腦屏幕容易失眠。為了提高睡眠質量，可以經常吃小米、藕、蝦皮、雞蛋等，喝決明子、玉蘭花、熏衣草、絞股藍等花草茶。

看更多