DataparkSearch搜索引擎
DataparkSearch 搜索引擎是一個(gè) C 語(yǔ)言的全功能的開源基于Web的搜索引擎,
主要特征
- 支持http、https、ftp、nntp 和news URL 方案。
- 用于索引 SQL 數(shù)據(jù)庫(kù)的htdb虛擬 URL 方案。
- 索引text/html、text/xml、text/plain、audio/mpeg (mp3) 和image/gif mime 類型。
- 外部解析器支持其他文檔類型,包括 Microsoft Word、Excel、RTF、PowerPoint、Adobe Acrobat PDF 和 Flash。
- 可以使用內(nèi)容協(xié)商索引多語(yǔ)言站點(diǎn)。
- 可以使用ispell詞綴和詞典搜索所有單詞形式。
- 基于可編輯詞典的同義詞、首字母縮寫詞查詢擴(kuò)展,由語(yǔ)言和字符集指定。
- 停用詞、同義詞和首字母縮略詞列表。
- 查詢所有單詞、所有彼此靠近的單詞、任何單詞或布爾查詢的選項(xiàng)。支持 VQL(Verity 查詢語(yǔ)言)的一個(gè)子集。
- 基于神經(jīng)網(wǎng)絡(luò)模型的人氣排名。
- 結(jié)果可以按相關(guān)性(使用向量計(jì)算)、流行度排序?yàn)椤癎oo”(為傳入鏈接添加權(quán)重)和“Neo”(神經(jīng)網(wǎng)絡(luò)模型)、最后修改時(shí)間和“重要性”(相關(guān)性的組合)和人氣排名)。
- 通過自動(dòng)字符集和語(yǔ)言檢測(cè)支持廣泛的字符集支持。
- 提供不區(qū)分重音的搜索選項(xiàng)。
- 提供中文、日文、韓文和泰文的詞組切分(分詞)。
- 包括一個(gè)索引器和一個(gè) Web CGI 前端,以及一個(gè)用于 Apache Web 服務(wù)器的搜索模塊 ( mod_dpsearch )。
- 處理國(guó)際化域名 (IDN)。
- Summary Extraction Algorithm 自動(dòng)將每個(gè)文檔總結(jié)成幾個(gè)句子。
- 使用 If-Modified-Since 來(lái)高效傳輸僅更改的文件。
- 可以使用會(huì)話 ID 和其他奇怪的格式調(diào)整 URL,包括一些 JavaScript 鏈接解碼。
- 可以執(zhí)行并行和多線程索引以加快更新速度。
- 靈活的更新計(jì)劃,包括更頻繁地檢查網(wǎng)站某些部分的選項(xiàng)。
- 處理基本身份驗(yàn)證(用戶名和密碼)和 cookie。
- 存儲(chǔ)文檔的壓縮文本版本以供提取和查看。
- 可以為服務(wù)器或子目錄指定默認(rèn)字符集和語(yǔ)言,或可能的語(yǔ)言列表。
- Noindex標(biāo)簽:<!--UdmComment-->、<NOINDEX>、<!--noindex-->、谷歌特別評(píng)論<!-- google_ad_section_start -->、<!-- google_ad_section_start(weight=ignore) -->和 <!-- google_ad_section_end --> 視為要包含/排除的標(biāo)簽。
- 可以指定一個(gè)內(nèi)容正文標(biāo)簽。
- 使用aspell對(duì)查詢?cè)~進(jìn)行拼寫檢查。
- 用于自定義搜索結(jié)果頁(yè)面的靈活選項(xiàng)和命令。
- 有效的緩存可以顯著減少搜索時(shí)間。
- 查詢?nèi)罩敬鎯?chǔ)查詢、查詢參數(shù)和找到的結(jié)果數(shù)。
評(píng)論
圖片
表情
