WebMagic垂直爬蟲
webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現(xiàn)一個爬蟲。
以下是爬取oschina博客的一段代碼:
Spider.create(new SimplePageProcessor("http://my.oschina.net/",
"http://my.oschina.net/*/blog/*")).thread(5).run();
webmagic采用完全模塊化的設(shè)計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。
webmagic包含強大的頁面抽取功能,開發(fā)者可以便捷的使用css selector、xpath和正則表達(dá)式進行鏈接和內(nèi)容的提取,支持多個選擇器鏈?zhǔn)秸{(diào)用。例如:
String extractResult = Html.create(html).$("div.body")
.xpath("http://a/@href").regex(".*blog.*").toString();
webmagic也可以很方便的作為一個模塊,嵌入Java項目中運行。webmagic的使用可以參考:oschina openapi 應(yīng)用:博客搬家
webmagic的使用文檔:http://webmagic.io/docs/
webmagic的設(shè)計文檔:webmagic的設(shè)計機制及原理-如何開發(fā)一個Java爬蟲
評論
圖片
表情
