<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          微博話題爬蟲(chóng)更新:支持小時(shí)級(jí)別的搜索和爬完自動(dòng)停止

          共 2183字,需瀏覽 5分鐘

           ·

          2020-11-05 19:45

          ? ? 點(diǎn)擊上方?月小水長(zhǎng)?并?設(shè)為星標(biāo),第一時(shí)間接收干貨推送

          這是?月小水長(zhǎng)?的第?57?篇原創(chuàng)干貨

          距離上次微博超級(jí)爬蟲(chóng)更新已經(jīng)過(guò)去三個(gè)月了,很多人以為我放棄這個(gè)項(xiàng)目了,實(shí)際上我太忙(難)了。

          上個(gè)周末整理了微博話題爬蟲(chóng) WeiboTopicSpider,在 issue 里看到一個(gè)同學(xué)說(shuō)可以支持小時(shí)級(jí)別的搜索了,我開(kāi)始試試了貌似并不可以,或者說(shuō)并不準(zhǔn)確,和我很久以前嘗試的一樣,爬取的微博時(shí)間跨度并沒(méi)有和給定的 start_time 和 end_time 范圍一致,經(jīng)過(guò)一番搗鼓,終于探得其中奧秘。

          先來(lái)給這個(gè)微博超級(jí)爬蟲(chóng)倉(cāng)庫(kù)求個(gè) star

          https://github.com/Python3Spiders/WeiboSuperSpider


          點(diǎn)擊紅框中的 star,就是對(duì)一個(gè)開(kāi)源愛(ài)好者最大的鼓勵(lì)。
          首先明確一點(diǎn),微博話題爬蟲(chóng)一直是可以支持小時(shí)級(jí)別(格式諸如 2020-11-01-05)的搜索了,只是我們一直不知道使用方式,
          比如,我們想要搜索 2020-10-31 04 點(diǎn)到 2020-10-31 05 點(diǎn)關(guān)于 S10 的所有原創(chuàng)微博,我們應(yīng)該這樣給定參數(shù)
          WeiboTopicScrapy(keyword=keyword,filter=1,start_time='2020-10-30-20',end_time='2020-10-29-21')
          一臉懵逼就對(duì)了,其實(shí)這個(gè)以前傳入的時(shí)間參數(shù)和實(shí)際執(zhí)行搜索的時(shí)間參數(shù)有以下關(guān)系,經(jīng)過(guò)演繹推理即可得出

          實(shí)際的 start_time = 以前傳入的 start_time + 8hour

          實(shí)際的 end_time = 以前傳入的 end_time + 1day + 8hour

          嚴(yán)重懷疑是不是服務(wù)器不在國(guó)內(nèi),或者這個(gè)規(guī)則只對(duì)國(guó)內(nèi)的使用者有生效,待確認(rèn)中,麻煩美國(guó)等地的讀者試一下給我反饋。

          那么問(wèn)題又來(lái)了,每次這樣自己手動(dòng)換算后再傳入?yún)?shù),有點(diǎn)麻煩,于是我將這部分邏輯也寫進(jìn)程序了,

          def?time_params_formatter(params_time,?offset_day=0,?offset_hour=-8):
          ????[temp_year,?temp_month,?temp_day,?temp_hour]?=?[int(e)?for?e?in?params_time.split('-')]
          ????temp_date?=?datetime(year=temp_year,?month=temp_month,?day=temp_day,?hour=temp_hour)
          ????temp_offset?=?timedelta(days=offset_day,hours=offset_hour)
          ????res_time?=?(temp_date?+?temp_offset).strftime('%Y-%m-%d-%H')
          ????return?res_time

          在 WeiboTopicSpider 類內(nèi)部自動(dòng)做了處理

          self.start_time?=?time_params_formatter(start_time,?offset_hour=-8)?#?原來(lái)是?=?start_time
          self.end_time?=?time_params_formatter(end_time,?offset_day=-1,?offset_hour=-8)?#?原來(lái)是?=?end_time

          上次搜索過(guò)程就可以直觀地表示為:

          start_time,?end_time?=?'2020-10-31-04',?'2020-10-31-05'
          if?start_time>=end_time:
          ????raise?Exception('start_time?是離現(xiàn)在更遠(yuǎn)的那個(gè)時(shí)間,必須小于?end_time')
          WeiboTopicScrapy(keyword=keyword,?filter=1,?start_time=start_time,?end_time=start_time)

          就是上面那個(gè)公式的逆過(guò)程,求出我們想要搜索的時(shí)間范圍對(duì)應(yīng)的真正的時(shí)間范圍,話比較啰嗦,一句話,就是你在新的代碼里修改 start_time,end_time='2020-10-31-04','2020-10-31-05'這一行的時(shí)候,改成你自己想要的時(shí)間范圍即可,具體的細(xì)節(jié)程序自動(dòng)轉(zhuǎn)換。

          實(shí)際的 start_time = 現(xiàn)在傳入的 start_time
          實(shí)際的 end_time = 現(xiàn)在傳入的 end_time

          還有,小時(shí)是最最最細(xì)粒度的搜索了,分鐘和秒就不行了,至少我嘗試了 N 次是這樣。

          最后,加了一個(gè)爬完自動(dòng)結(jié)束的功能,在類內(nèi)部加了三行代碼:

          if?len(weibos)?==?0:
          ????print('自動(dòng)結(jié)束,大概率是因?yàn)閮?nèi)容爬完了,也請(qǐng)留意是否是?cookie?失效等情況\n')
          ????break

          本次更新完結(jié),撒花,閱讀原文直達(dá)源碼地址。

          點(diǎn)擊文本的 上一篇/下一篇 即可快速查看微博超級(jí)爬蟲(chóng)系列的其他文章。

          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲se性图 | 亚洲一区欧美一区在线 | 香焦尻屄视频影院 | 亚洲电影无码在线观看视频 | 天天搞天天干在线视频 |