GuozhongCrawler開(kāi)源爬蟲(chóng)框架
guozhongCrawler的是一個(gè)無(wú)須配置、便于二次開(kāi)發(fā)的爬蟲(chóng)開(kāi)源框架,它提供簡(jiǎn)單靈活的API,只需少量代碼即可實(shí)現(xiàn)一個(gè)爬蟲(chóng)。模塊化設(shè)計(jì)完全 面向業(yè)務(wù)提供接口,功能覆蓋整個(gè)爬蟲(chóng)的生命周期(鏈接提取、頁(yè)面下載、內(nèi)容抽取、持久化),支持多線(xiàn)程抓取,分布式抓取,并支持自動(dòng)重試,定制執(zhí)行js、 自定義cookie等功能。在處理網(wǎng)站抓取多次后被封IP的問(wèn)題上,guozhongCrawler采用動(dòng)態(tài)輪換IP機(jī)制有效防止IP被封。另外,源碼中 的注釋及Log輸出全部采用通俗易懂的中文。讓初學(xué)者能有更加深刻的理解
評(píng)論
圖片
表情
