亚洲1区无码,亚洲无码电影一,国产7777777免费观看,九九九免费视频,精品国产三级片,青娱乐AⅤ,免费一级片,www.淫香淫色

SpidermanJava網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲

聯(lián)合創(chuàng)作 · 2023-09-29 13:15

Spiderman 是一個基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛，它的目標(biāo)是通過簡單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

最新提示：歡迎來體驗(yàn)最新版本Spiderman2，http://git.oschina.net/l-weiwei/Spiderman2 重新打造，重新起步，努力做更好用的爬蟲！

主要特點(diǎn)

* 靈活、可擴(kuò)展性強(qiáng)，微內(nèi)核+插件式架構(gòu)，Spiderman提供了多達(dá) 10 個擴(kuò)展點(diǎn)。橫跨蜘蛛線程的整個生命周期。
* 通過簡單的配置就可以將復(fù)雜的網(wǎng)頁內(nèi)容解析為自己需要的業(yè)務(wù)數(shù)據(jù)，無需編寫一句代碼
* 多線程

怎么使用？

首先，確定好你的目標(biāo)網(wǎng)站以及目標(biāo)網(wǎng)頁（即某一類你想要獲取數(shù)據(jù)的網(wǎng)頁，例如網(wǎng)易新聞的新聞頁面）
然后，打開目標(biāo)頁面，分析頁面的HTML結(jié)構(gòu)，得到你想要數(shù)據(jù)的XPath，具體XPath怎么獲取請看下文。
最后，在一個xml配置文件里填寫好參數(shù)，運(yùn)行Spiderman吧！

這里有個抓取案例

這里有篇文章介紹示例: http://my.oschina.net/laiweiwei/blog/100866

XPath獲取技巧？

最新提示：發(fā)現(xiàn)Chrome瀏覽器的控制臺可以直接對網(wǎng)頁執(zhí)行xpath調(diào)試，只需要輸入$x("xpath 表達(dá)式")即可實(shí)時進(jìn)行當(dāng)前打開網(wǎng)頁的xpath調(diào)試，非常棒！

這里只說下Chrome瀏覽器，其他瀏覽器估計也差不多，只不過插件不同而已。

首先，下載xpathonclick插件,https://chrome.google.com/webstore/search/xpathonclick
安裝完畢之后，打開Chrome瀏覽器，可以看到右上角有個“X Path” 圖標(biāo)。
在瀏覽器打開你的目標(biāo)網(wǎng)頁，然后點(diǎn)擊右上角的那個圖片，然后點(diǎn)擊網(wǎng)標(biāo)上你想要獲取XPath的地方，例如某個標(biāo)題
這時候按住F12打開JS控制臺，拖到底部，可以看到一串XPath內(nèi)容
記住，這個內(nèi)容不是絕對OK的，你可能還需要做些修改，因此，你最好還是去學(xué)習(xí)下XPath語法
學(xué)習(xí)XPath語法的地方:http://www.w3school.com.cn/xpath/index.asp

點(diǎn)贊

評論

編輯分享

舉報

SpidermanJava網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲

主要特點(diǎn)

怎么使用？

這里有個抓取案例

XPath獲取技巧？

XPath獲取技巧？