<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          WebMagic垂直爬蟲

          聯(lián)合創(chuàng)作 · 2023-09-29 13:17

          webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實現(xiàn)一個爬蟲。

          以下是爬取oschina博客的一段代碼:

          Spider.create(new SimplePageProcessor("http://my.oschina.net/",
          "http://my.oschina.net/*/blog/*")).thread(5).run();

          webmagic采用完全模塊化的設(shè)計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

          webmagic包含強大的頁面抽取功能,開發(fā)者可以便捷的使用css selector、xpath和正則表達(dá)式進行鏈接和內(nèi)容的提取,支持多個選擇器鏈?zhǔn)秸{(diào)用。例如:

          String extractResult = Html.create(html).$("div.body")
          .xpath("http://a/@href").regex(".*blog.*").toString();

          webmagic也可以很方便的作為一個模塊,嵌入Java項目中運行。webmagic的使用可以參考:oschina openapi 應(yīng)用:博客搬家

          webmagic的使用文檔:http://webmagic.io/docs/

          webmagic的設(shè)計文檔:webmagic的設(shè)計機制及原理-如何開發(fā)一個Java爬蟲

          瀏覽 32
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人在线黄色片 | 黄色日逼视频免费看 | 国产又粗又硬又黄的视频 | 大香蕉日逼视频 | 国产精品粉嫩在线播放 |