微博話題爬蟲(chóng)更新:支持小時(shí)級(jí)別的搜索和爬完自動(dòng)停止
? ? 點(diǎn)擊上方?月小水長(zhǎng)?并?設(shè)為星標(biāo),第一時(shí)間接收干貨推送
距離上次微博超級(jí)爬蟲(chóng)更新已經(jīng)過(guò)去三個(gè)月了,很多人以為我放棄這個(gè)項(xiàng)目了,實(shí)際上我太忙(難)了。
上個(gè)周末整理了微博話題爬蟲(chóng) WeiboTopicSpider,在 issue 里看到一個(gè)同學(xué)說(shuō)可以支持小時(shí)級(jí)別的搜索了,我開(kāi)始試試了貌似并不可以,或者說(shuō)并不準(zhǔn)確,和我很久以前嘗試的一樣,爬取的微博時(shí)間跨度并沒(méi)有和給定的 start_time 和 end_time 范圍一致,經(jīng)過(guò)一番搗鼓,終于探得其中奧秘。
先來(lái)給這個(gè)微博超級(jí)爬蟲(chóng)倉(cāng)庫(kù)求個(gè) star
https://github.com/Python3Spiders/WeiboSuperSpider

WeiboTopicScrapy(keyword=keyword,filter=1,start_time='2020-10-30-20',end_time='2020-10-29-21')實(shí)際的 start_time = 以前傳入的 start_time + 8hour
實(shí)際的 end_time = 以前傳入的 end_time + 1day + 8hour
嚴(yán)重懷疑是不是服務(wù)器不在國(guó)內(nèi),或者這個(gè)規(guī)則只對(duì)國(guó)內(nèi)的使用者有生效,待確認(rèn)中,麻煩美國(guó)等地的讀者試一下給我反饋。
那么問(wèn)題又來(lái)了,每次這樣自己手動(dòng)換算后再傳入?yún)?shù),有點(diǎn)麻煩,于是我將這部分邏輯也寫進(jìn)程序了,
def?time_params_formatter(params_time,?offset_day=0,?offset_hour=-8):
????[temp_year,?temp_month,?temp_day,?temp_hour]?=?[int(e)?for?e?in?params_time.split('-')]
????temp_date?=?datetime(year=temp_year,?month=temp_month,?day=temp_day,?hour=temp_hour)
????temp_offset?=?timedelta(days=offset_day,hours=offset_hour)
????res_time?=?(temp_date?+?temp_offset).strftime('%Y-%m-%d-%H')
????return?res_time
在 WeiboTopicSpider 類內(nèi)部自動(dòng)做了處理
self.start_time?=?time_params_formatter(start_time,?offset_hour=-8)?#?原來(lái)是?=?start_time
self.end_time?=?time_params_formatter(end_time,?offset_day=-1,?offset_hour=-8)?#?原來(lái)是?=?end_time
上次搜索過(guò)程就可以直觀地表示為:
start_time,?end_time?=?'2020-10-31-04',?'2020-10-31-05'
if?start_time>=end_time:
????raise?Exception('start_time?是離現(xiàn)在更遠(yuǎn)的那個(gè)時(shí)間,必須小于?end_time')
WeiboTopicScrapy(keyword=keyword,?filter=1,?start_time=start_time,?end_time=start_time)
就是上面那個(gè)公式的逆過(guò)程,求出我們想要搜索的時(shí)間范圍對(duì)應(yīng)的真正的時(shí)間范圍,話比較啰嗦,一句話,就是你在新的代碼里修改 start_time,end_time='2020-10-31-04','2020-10-31-05'這一行的時(shí)候,改成你自己想要的時(shí)間范圍即可,具體的細(xì)節(jié)程序自動(dòng)轉(zhuǎn)換。
實(shí)際的 start_time = 現(xiàn)在傳入的 start_time 實(shí)際的 end_time = 現(xiàn)在傳入的 end_time 還有,小時(shí)是最最最細(xì)粒度的搜索了,分鐘和秒就不行了,至少我嘗試了 N 次是這樣。
最后,加了一個(gè)爬完自動(dòng)結(jié)束的功能,在類內(nèi)部加了三行代碼:
if?len(weibos)?==?0:
????print('自動(dòng)結(jié)束,大概率是因?yàn)閮?nèi)容爬完了,也請(qǐng)留意是否是?cookie?失效等情況\n')
????break
本次更新完結(jié),撒花,閱讀原文直達(dá)源碼地址。
點(diǎn)擊文本的 上一篇/下一篇 即可快速查看微博超級(jí)爬蟲(chóng)系列的其他文章。
