<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          kamike.collect網(wǎng)絡(luò)爬蟲

          聯(lián)合創(chuàng)作 · 2023-09-29 13:26

          Another Simple Crawler 又一個(gè)網(wǎng)絡(luò)爬蟲,可以支持代理服務(wù)器的翻墻爬取。

          1.數(shù)據(jù)存在mysql當(dāng)中。

          2.使用時(shí),先修改web-inf/config.ini的數(shù)據(jù)鏈接相關(guān)信息,主要是數(shù)據(jù)庫名和用戶名和密碼

          3.然后訪問http://127.0.0.1/fetch/install 鏈接,自動(dòng)創(chuàng)建數(shù)據(jù)庫表

          4.修改src\java\cn\exinhua\fetch中的RestServlet.java文件:

             FetchInst.getInstance().running=true;
          
             Fetch fetch = new Fetch();
          
             fetch.setUrl("http://www.washingtonpost.com/");
          
              fetch.setDepth(3);
          
              RegexRule regexRule = new RegexRule();
          
              regexRule.addNegative(".*#.*");
          
              regexRule.addNegative(".*png.*");
          
              regexRule.addNegative(".*jpg.*");
          
              regexRule.addNegative(".*gif.*");
          
              regexRule.addNegative(".*js.*");
          
              regexRule.addNegative(".*css.*");
          
              regexRule.addPositive(".*php.*");
          
              regexRule.addPositive(".*html.*");
          
              regexRule.addPositive(".*htm.*");
          
              Fetcher fetcher = new Fetcher(fetch);
          
              fetcher.setProxyAuth(true);
          
              fetcher.setRegexRule(regexRule);
          
              List<Fetcher> fetchers = new ArrayList<>();
          
              fetchers.add(fetcher);
              FetchUtils.start(fetchers);
          
          
              將其配置為需要的參數(shù),然后訪問http://127.0.0.1/fetch/fetch啟動(dòng)爬取
          
              代理的配置在Fetch.java文件中:
              protected int status;
          
          protected boolean resumable = false;
          
          protected RegexRule regexRule = new RegexRule();
          protected ArrayList<String> seeds = new ArrayList<String>();
          protected Fetch fetch;
          
          protected String proxyUrl="127.0.0.1";
          protected int proxyPort=4444;
          protected String proxyUsername="hkg";
          protected String proxyPassword="dennis";
          protected boolean proxyAuth=false;

          5.訪問http://127.0.0.1/fetch/suspend可以停止爬取

          瀏覽 24
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕北条麻妃在线 | 国产乱伦免费 | 亚洲国产日韩一区无码精品久久久久 | 色之综合天天综合色天天棕色 | 最好看2019中文在线播放电影 |