Smart and Simple Web CrawlerWeb爬蟲(chóng)框架
Smart and Simple Web Crawler是一個(gè)Web爬蟲(chóng)框架。集成Lucene支持。該爬蟲(chóng)可以從單個(gè)鏈接或一個(gè)鏈接數(shù)組開(kāi)始,提供兩種遍歷模式:最大迭代和最大深度??梢栽O(shè)置 過(guò)濾器限制爬回來(lái)的鏈接,默認(rèn)提供三個(gè)過(guò)濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過(guò)濾器可用AND、OR和NOT聯(lián)合。在解析過(guò)程或頁(yè)面加載前后都可以加監(jiān)聽(tīng)器。介紹內(nèi)容來(lái)自O(shè)pen-Open
下載地址:
評(píng)論
圖片
表情
