Mustru桌面搜索引擎
Mustru是一個(gè)桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等開(kāi)源項(xiàng)目開(kāi)發(fā)。能夠?qū)Ρ镜匚募到y(tǒng)的多個(gè)目錄進(jìn)行索引,然后使用一個(gè)Web界面查詢?cè)撍饕ustru提供的功能包括:
- 從HTML、PDF和DOC等40多種常見(jiàn)的文件類型文件中抽取文本。
- 檢查重復(fù)的內(nèi)容。
- 使用GATE找出文本中的一些實(shí)體(人,地名和組織/機(jī)構(gòu))。
- 支持多線程索引、歸類和實(shí)體抽取。
- 能夠修復(fù)和恢復(fù)索引文件。
- 找出相似的文檔。
- 支持接受用自然語(yǔ)言提問(wèn),然后返回相應(yīng)答案列表。
- 使用一個(gè)預(yù)先定義好的分類法將文本內(nèi)容歸類成體育、商業(yè)、健康等領(lǐng)域。
評(píng)論
圖片
表情
