<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          WebCrawler網(wǎng)站數(shù)據(jù)采集工具

          聯(lián)合創(chuàng)作 · 2023-09-29 13:53

          WebCrawler 是一個(gè)網(wǎng)站數(shù)據(jù)采集工具,使用 scrapy 框架。

          環(huán)境準(zhǔn)備

          已實(shí)現(xiàn)的功能

          • 爬取網(wǎng)站發(fā)貼信息(標(biāo)題、標(biāo)題URL、作者、作者URL等),以及下載圖片到本地
          • 爬取用戶地理位置信息
          • 增加 RandomUserAgent 功能,防止被 BAN
          • 增加延時(shí)抓取功能,防止被 BAN
          • 采用hash方法分散到多個(gè)目錄進(jìn)行管理,提高打開文件夾速度

          快速開始

          #: 安裝必要 python 庫
          
          sudo pip install scrapy
          
          sudo pip install pymongo
          
          #: 下載數(shù)據(jù)到本地,并且保存相關(guān)信息到MongoDB中.
          
          scrapy crawl collector
          
          
          #: 建立本地http server,查看爬取數(shù)據(jù)
          
          python -m SimpleHTTPServer 80
          
          #: 打開瀏覽器輸入http://localhost/data
          
          瀏覽 26
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲日本视频在线播放 | 91人妻人人澡人人爽人人 | 午夜在线观看视频18 | 日日摸日日碰 | 国产刺激高潮 |