<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          SpidermanJava網(wǎng)絡(luò)蜘蛛/網(wǎng)絡(luò)爬蟲

          聯(lián)合創(chuàng)作 · 2023-09-29 13:15

          Spiderman 是一個基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過簡單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

          最新提示:歡迎來體驗(yàn)最新版本Spiderman2,http://git.oschina.net/l-weiwei/Spiderman2 重新打造,重新起步,努力做更好用的爬蟲!

          主要特點(diǎn)

          * 靈活、可擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),Spiderman提供了多達(dá) 10 個擴(kuò)展點(diǎn)。橫跨蜘蛛線程的整個生命周期。
          * 通過簡單的配置就可以將復(fù)雜的網(wǎng)頁內(nèi)容解析為自己需要的業(yè)務(wù)數(shù)據(jù),無需編寫一句代碼
          * 多線程

          怎么使用?

          • 首先,確定好你的目標(biāo)網(wǎng)站以及目標(biāo)網(wǎng)頁(即某一類你想要獲取數(shù)據(jù)的網(wǎng)頁,例如網(wǎng)易新聞的新聞頁面)
          • 然后,打開目標(biāo)頁面,分析頁面的HTML結(jié)構(gòu),得到你想要數(shù)據(jù)的XPath,具體XPath怎么獲取請看下文。
          • 最后,在一個xml配置文件里填寫好參數(shù),運(yùn)行Spiderman吧!

          這里有個抓取案例

          這里有篇文章介紹示例: http://my.oschina.net/laiweiwei/blog/100866

          XPath獲取技巧?

          最新提示:發(fā)現(xiàn)Chrome瀏覽器的控制臺可以直接對網(wǎng)頁執(zhí)行xpath調(diào)試,只需要輸入$x("xpath 表達(dá)式")即可實(shí)時進(jìn)行當(dāng)前打開網(wǎng)頁的xpath調(diào)試,非常棒!

          這里只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過插件不同而已。

          • 首先,下載xpathonclick插件,https://chrome.google.com/webstore/search/xpathonclick
          • 安裝完畢之后,打開Chrome瀏覽器,可以看到右上角有個“X Path” 圖標(biāo)。
          • 在瀏覽器打開你的目標(biāo)網(wǎng)頁,然后點(diǎn)擊右上角的那個圖片,然后點(diǎn)擊網(wǎng)標(biāo)上你想要獲取XPath的地方,例如某個標(biāo)題
          • 這時候按住F12打開JS控制臺,拖到底部,可以看到一串XPath內(nèi)容
          • 記住,這個內(nèi)容不是絕對OK的,你可能還需要做些修改,因此,你最好還是去學(xué)習(xí)下XPath語法
          • 學(xué)習(xí)XPath語法的地方:http://www.w3school.com.cn/xpath/index.asp
          瀏覽 32
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美一级一区 | 天天摸天天操天天干 | 黄色成人网站视频在线观看 | 黄色a免费 | 免费在线观看网站性情淫乱做爱 |