DDH垂直搜索引擎
DDH垂直搜索引擎,開源授權(quán)協(xié)議LGPL, 是目前互聯(lián)網(wǎng)中唯一可以商業(yè)運(yùn)作的垂直搜索引擎系統(tǒng),由JAVA語言開發(fā),可以運(yùn)行在大規(guī)模集群中的網(wǎng)絡(luò)信息整合系統(tǒng)。DDH整合Nutch(開源搜索引擎系統(tǒng)),UCI(網(wǎng)頁信息抽取系統(tǒng))和SOLR(企業(yè)級(jí)搜索應(yīng)用服務(wù)器)。無論從可擴(kuò)展性,系統(tǒng)的性能方面還是穩(wěn)定性方面,DDH垂直搜索引擎系統(tǒng),都可以算的上頂級(jí)垂直搜索引擎系統(tǒng)之一。
DDH垂直搜索引擎系統(tǒng)是一個(gè)Java實(shí)現(xiàn)的垂直搜索引擎系統(tǒng),是一套整合了Nutch/UCI/SOLR的網(wǎng)絡(luò)信息整合系統(tǒng)。借助DDH你可以快速構(gòu)建多領(lǐng)域的垂直搜索引擎系統(tǒng)。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要運(yùn)行在Linux平臺(tái)下。
DDH對(duì)Nutch做的調(diào)整
1: 加入了爬蟲控制??梢愿鶕?jù)用戶的需要控制爬蟲的抓取地址和路徑。
2: 加入了信息分類功能。Nutch只對(duì)網(wǎng)頁進(jìn)行抓取,DDH在此基礎(chǔ)上進(jìn)行了信息分類調(diào)整,這樣才能適用于不同的垂直搜索引擎系統(tǒng)。只需要輸入類別編碼,就能對(duì)爬蟲進(jìn)行控制。URL自動(dòng)識(shí)別,大幅度提高了爬取效率。
3: 加入了索引數(shù)據(jù)分類功能。Nutch只是對(duì)網(wǎng)頁進(jìn)行了文字提取處理,而垂直搜索系統(tǒng)需要在網(wǎng)頁信息抽取的基礎(chǔ)上,指定索引路徑進(jìn)行提交。而且不符合要求的網(wǎng)頁不會(huì)提交給索引,大幅度提高了索引效率。
DDH加入了UCI網(wǎng)頁信息抽取系統(tǒng)
UCI可以對(duì)網(wǎng)頁信息進(jìn)行精確抽取,而且不受目標(biāo)網(wǎng)頁代碼的限制,特別適合垂直搜索引擎使用。
UCI網(wǎng)頁信息抽取技術(shù),是一種適用于億級(jí)數(shù)量的智能網(wǎng)頁信息抽取技術(shù),主要適用于互聯(lián)網(wǎng)信息整合和搜索引擎中網(wǎng)頁信息的提取。
DDH對(duì)Solr的調(diào)整
對(duì)Solr的schema.xml的用戶定義字段類型及字段的配置文件進(jìn)行了重新配置,使得適合垂直搜索引擎的使用。并加入了中文分詞功能。
