元搜索引擎
元搜索引擎
原搜索引擎是通過一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來實(shí)現(xiàn)檢索操作,是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制。
自己沒搜索引擎,又想要大規(guī)模的數(shù)據(jù)源,怎么辦?可以對(duì)百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的應(yīng)用場(chǎng)景可以很巧妙地借助百度搜索和谷歌搜索來實(shí)現(xiàn),比如網(wǎng)站的新聞采集,比如技術(shù)、品牌的新聞跟蹤,比如知識(shí)庫的收集,比如人機(jī)問答系統(tǒng)等,我之前做的一個(gè)準(zhǔn)確率達(dá)百分之九十幾的人機(jī)問答系統(tǒng)的數(shù)據(jù)源,其中一部分就是充分利用了百度搜索和谷歌搜索。在此演示的技術(shù)的基礎(chǔ)上,可以容易地?cái)U(kuò)展到其他的搜索引擎,可以借鑒使用的NekoHTML+XPath或JSoup+CSSPath技術(shù),輕松獲取頁面的自定義的內(nèi)容。
應(yīng)用領(lǐng)域:
1、采集人物信息
2、采集電子報(bào)紙
3、使用NekoHTML和XPath解析百度搜索返回結(jié)果
4、使用JSoup和CSSPath解析百度搜索返回結(jié)果
5、使用Google AJAX API獲取谷歌搜索結(jié)果
評(píng)論
圖片
表情
