本書是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,並給出了Java實現,其中利用了流行的開源項目Lucene和Solr,而且還包括原創的實現。
本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標注的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,並總結了實現方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。此外還進一步介紹了實現准實時搜索的方法,展示了Solr的用法以及實現分布式搜索服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜索領域的應用。
本書是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,並給出了Java實現,其中利用了流行的開源項目Lucene和Solr,而且還包括原創的實現。
本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標注的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,並總結了實現方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。此外還進一步介紹了實現准實時搜索的方法,展示了Solr的用法以及實現分布式搜索服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜索領域的應用。
-
Elasticsearch實戰與原理解析
$654 -
GO語言程式設計之旅:一起用GO做項目
$648 -
TypeScript圖形渲染實戰:基於WebGL的3D架構與實現
$491 -
ASP.NET Core與RESTful API 開發實戰
$412 -
Scratch 3.0少兒積木式程式設計(6~10歲)
$213 -
Unity & VR遊戲美術設計實戰
$414 -
數據結構和演算法(Python和C++語言描述)
$465 -
實時流計算系統設計與實現
$374 -
MINECRAFT編程:使用Python語言玩轉我的世界
$616 -
程式員修煉之道:通向務實的最高境界(第2版)
$534 -
深入淺出強化學習:編程實戰
$534 -
Python股票量化交易從入門到實踐
$465 -
虛擬機器設計與實現 以JVM為例
$673 -
Python核心程式設計從入門到開發實戰
$374 -
精通Python設計模式(第2版)
$256 -
全棧自動化測試實戰:基於TestNG、HttpClient、Selenium和Appium
$474 -
Scratch3.0少兒程式設計 創客意識啟蒙
$213 -
深入理解Java虛擬機:JVM高級特性與最佳實踐(第3版)
$673 -
算法精粹:經典計算機科學問題的Python實現
$308 -
JavaScript從入門到精通(微視頻精編版):核心技術分冊+強化訓練分冊(共2冊)
$521