SpidermanJava網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲
Spiderman 是一個基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過簡單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。
最新提示:歡迎來體驗(yàn)最新版本Spiderman2,http://git.oschina.net/l-weiwei/Spiderman2 重新打造,重新起步,努力做更好用的爬蟲!
主要特點(diǎn)
* 靈活、可擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),Spiderman提供了多達(dá) 10 個擴(kuò)展點(diǎn)。橫跨蜘蛛線程的整個生命周期。 * 通過簡單的配置就可以將復(fù)雜的網(wǎng)頁內(nèi)容解析為自己需要的業(yè)務(wù)數(shù)據(jù),無需編寫一句代碼 * 多線程
怎么使用?
- 首先,確定好你的目標(biāo)網(wǎng)站以及目標(biāo)網(wǎng)頁(即某一類你想要獲取數(shù)據(jù)的網(wǎng)頁,例如網(wǎng)易新聞的新聞頁面)
- 然后,打開目標(biāo)頁面,分析頁面的HTML結(jié)構(gòu),得到你想要數(shù)據(jù)的XPath,具體XPath怎么獲取請看下文。
- 最后,在一個xml配置文件里填寫好參數(shù),運(yùn)行Spiderman吧!
這里有個抓取案例
這里有篇文章介紹示例: http://my.oschina.net/laiweiwei/blog/100866
XPath獲取技巧?
最新提示:發(fā)現(xiàn)Chrome瀏覽器的控制臺可以直接對網(wǎng)頁執(zhí)行xpath調(diào)試,只需要輸入$x("xpath 表達(dá)式")即可實(shí)時進(jìn)行當(dāng)前打開網(wǎng)頁的xpath調(diào)試,非常棒!
這里只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過插件不同而已。
- 首先,下載xpathonclick插件,https://chrome.google.com/webstore/search/xpathonclick
- 安裝完畢之后,打開Chrome瀏覽器,可以看到右上角有個“X Path” 圖標(biāo)。
- 在瀏覽器打開你的目標(biāo)網(wǎng)頁,然后點(diǎn)擊右上角的那個圖片,然后點(diǎn)擊網(wǎng)標(biāo)上你想要獲取XPath的地方,例如某個標(biāo)題
- 這時候按住F12打開JS控制臺,拖到底部,可以看到一串XPath內(nèi)容
- 記住,這個內(nèi)容不是絕對OK的,你可能還需要做些修改,因此,你最好還是去學(xué)習(xí)下XPath語法
- 學(xué)習(xí)XPath語法的地方:http://www.w3school.com.cn/xpath/index.asp
評論
圖片
表情
