解密搜索引擎技術(shù)實(shí)戰(zhàn)
《解密搜索引擎技術(shù)實(shí)戰(zhàn)-Lucene&Java精華版(附盤)》,本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關(guān)案例分析。爬蟲部分介紹了網(wǎng)頁遍歷方法和如何實(shí)現(xiàn)增量抓取,并介紹了從網(wǎng)頁等各種格式的文檔中提取主要內(nèi)容的方法。自然語言處理部分從統(tǒng)計(jì)機(jī)器學(xué)習(xí)的原理出發(fā),包括了中文分詞與詞性標(biāo)注的理論與實(shí)現(xiàn)以及在搜索引擎中的實(shí)用等細(xì)節(jié),同時(shí)對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領(lǐng)域的經(jīng)典問題進(jìn)行了深入淺出的介紹并總結(jié)了實(shí)現(xiàn)方法。
評論
圖片
表情
