Minidx信息抽取組件
Minidx 這一組件是專門為開發(fā)人員準(zhǔn)備的,利用Minidx Extract-Text Com組件,您可以輕松的從Word,Xls,Pdf……等200多種文件格式中讀取文本內(nèi)容。該組件本身用C++編寫,以Com組件的形式調(diào)用,您可以 在一切可以調(diào)用Com組件的開發(fā)語(yǔ)言中調(diào)用這一組件,快速的抽取各種文本內(nèi)容。
Minidx是一個(gè)文件管理系統(tǒng)。它具有:
*自帶超高速全文搜索引擎,瞬間找到所需要的文件
*具有自己的存儲(chǔ)系統(tǒng),安全的管理重要文檔
*可存儲(chǔ)與管理TB級(jí)別的數(shù)據(jù),數(shù)據(jù)量的大小對(duì)系統(tǒng)運(yùn)行的效率影響甚微
*采用IFilter抽取文本,無(wú)須安裝例如Office的應(yīng)用程序即可閱讀內(nèi)容
*基于Unicode編碼,可正常輸入/顯示多國(guó)語(yǔ)言
*高亮語(yǔ)法顯示,方便地閱讀多種文檔
*檢索結(jié)果高亮顯示,方便查看
*模糊查詢,自動(dòng)識(shí)別同義詞 例如要查詢where時(shí),輸入whe也能得到結(jié)果
*自帶Web服務(wù)器,可方便的在Internet/局域網(wǎng)共享所管理的文檔
*獨(dú)立的P2P功能,可自由選擇啟動(dòng)服務(wù)端/客戶端,或者同時(shí)啟動(dòng)
*可以根據(jù)創(chuàng)建時(shí)間,修改時(shí)間,訪問(wèn)時(shí)間,標(biāo)題,存儲(chǔ)路徑,內(nèi)容等各項(xiàng)屬性分等級(jí),分目錄地實(shí)現(xiàn)精確查詢
*可方便設(shè)定過(guò)濾字段
搜索引擎特性:
*整個(gè)引擎非常小,由2萬(wàn)多行C/C++代碼實(shí)現(xiàn)
*標(biāo)準(zhǔn)C/C++編寫,幾乎可以運(yùn)行在所有的系統(tǒng)
*無(wú)需太多內(nèi)存,在較低的硬件環(huán)境下也可以運(yùn)行而不影響效率
*方便的集成到各種系統(tǒng),利用Minidx引擎,僅僅需要添加幾行代碼就可以讓系統(tǒng)具有全文檢索功能
*超高速檢索,百萬(wàn)條記錄也能在毫秒內(nèi)返回結(jié)果
*字,詞,句檢索
*條件”與”,”或”查詢,以及他們的組合查詢
*采用UNICODE字符集,多國(guó)語(yǔ)言字符串混合查詢
*精確查詢,甚至一個(gè)標(biāo)點(diǎn)符號(hào)也可以精確定位
