<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ScrapingSpider網(wǎng)頁爬蟲

          聯(lián)合創(chuàng)作 · 2023-09-29 13:25

          ScrapingSpider 是一個業(yè)余時間開發(fā)的,支持多線程,支持關鍵字過濾,支持正文內(nèi)容智能識別的爬蟲。   

          爬蟲的核心實現(xiàn)在ScrapingSpider.Core程序集中。爬蟲類為Spider類,爬蟲的爬取邏輯,與頁面處理邏輯通過事件分離,兩個關鍵事件為AddUrlEvent和DataReceivedEvent。

          示例代碼:

          // 構造爬蟲,需要3個參數(shù):爬蟲設置,實現(xiàn)了ILogger的日志記錄器,上次未執(zhí)行完的爬取鏈接
          Spider spider = new Spider(new Settings(), new EmptyLogger(), null);
          
          spider.AddUrlEvent += addUrlArgs =>
          {
              // Url即將添加到隊列的事件處理
          };
          
          spider.DataReceivedEvent += receivedArgs =>
          {
              // 頁面已經(jīng)被抓取下來的事件,可在此處理頁面,例如頁面保存添加到數(shù)據(jù)庫
          };
          
          // 開始爬取
          spider.Crawl();

          ScrapingSpider示例代碼

          • 具體的使用方法請參考ScrapingSpider項目的Program.cs類中的示例代碼。

          • 示例代碼使用SqlServer數(shù)據(jù)庫存儲爬取信息,表結構與WebPage類對應,數(shù)據(jù)庫連接字符串請參考App.config。

          • 采用log4net作為日志記錄組件。

          Settings說明

          • Init Seeds: 初始Url地址,多個地址使用回車分開。

          • Regex Filter: 通過正則表達式過濾Url,多個正則使用回車隔開。

          • Keyword: 關鍵字,按照指定的關鍵字爬取,多個關鍵字使用回車分開。

          • Crawl Depth: 爬取深度,小于0表示不限

          • Escape Links: 要過濾的鏈接,如:.jpg|.rar|.exe

          • Keep Cookie: 抓取過程中是否保留Cookie

          • Lock Host: 是否鎖定Host,鎖定后,指抓取站點相關鏈接。

          • Limit Speed: 是否智能限速。

          • Threads: 線程數(shù)量,啟用多個線程有利于提高爬取效率。

          • Timeout: 超時時間,以毫秒為單位。

          • User Agent: http協(xié)議UserAgent設置。

          瀏覽 30
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人操日日操 | 韩国一区二区三区四区不卡视频 | 在线精品福利 | 日本婷婷色 | 精品在线第一页 |