解密搜索引擎技術(shù)實戰(zhàn) : Luc
本書是獵兔搜索開發(fā)團隊的軟件研發(fā)和教學(xué)實踐的經(jīng)驗匯總。
本書總結(jié)搜索引擎相關(guān)理論與實際解決方案,并給出了Java實現(xiàn),其中利用了流行的開源項目Lucene和Solr,而且還包括原創(chuàng)的實現(xiàn)。
主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關(guān)案例分析。
爬蟲部分介紹了網(wǎng)頁遍歷方法和如何實現(xiàn)增量抓取。并介紹了從網(wǎng)頁等各種格式的文檔中提取主要內(nèi)容的方法。
自然語言處理部分從統(tǒng)計機器學(xué)習(xí)的原理出發(fā),包括了中文分詞與詞性標(biāo)注的理論與實現(xiàn)以及在搜索引擎中的實用等細(xì)節(jié)。
同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領(lǐng)域的經(jīng)典問題做出了深入淺出的介紹并總結(jié)了實現(xiàn)方法。
在全文檢索部分,結(jié)合Lucene3.0介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應(yīng)用方法。包括完整的搜索實現(xiàn)過程:從完成索引到搜索用...
本書是獵兔搜索開發(fā)團隊的軟件研發(fā)和教學(xué)實踐的經(jīng)驗匯總。
本書總結(jié)搜索引擎相關(guān)理論與實際解決方案,并給出了Java實現(xiàn),其中利用了流行的開源項目Lucene和Solr,而且還包括原創(chuàng)的實現(xiàn)。
主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關(guān)案例分析。
爬蟲部分介紹了網(wǎng)頁遍歷方法和如何實現(xiàn)增量抓取。并介紹了從網(wǎng)頁等各種格式的文檔中提取主要內(nèi)容的方法。
自然語言處理部分從統(tǒng)計機器學(xué)習(xí)的原理出發(fā),包括了中文分詞與詞性標(biāo)注的理論與實現(xiàn)以及在搜索引擎中的實用等細(xì)節(jié)。
同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領(lǐng)域的經(jīng)典問題做出了深入淺出的介紹并總結(jié)了實現(xiàn)方法。
在全文檢索部分,結(jié)合Lucene3.0介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應(yīng)用方法。包括完整的搜索實現(xiàn)過程:從完成索引到搜索用戶界面的實現(xiàn)。本書還進一步介紹了實現(xiàn)準(zhǔn)實時搜索的方法。
展示了Solr1.4版本的用法以及實現(xiàn)分布式搜索服務(wù)集群的方法。
最后介紹了在地理信息系統(tǒng)領(lǐng)域和戶外活動搜索領(lǐng)域的應(yīng)用。
獵兔搜索(http://www.lietu.com)創(chuàng)始人,當(dāng)前獵兔搜索在北京和上海均設(shè)有研發(fā)部。帶領(lǐng)獵兔搜索技術(shù)開發(fā)團隊先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔信息提取系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測系統(tǒng)等,實現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實時監(jiān)測。
