久久AV影片,国产激情福利,夜夜操天天操,秘黄视频免费看,涩涩蜜桃视频在线观看,在线豆花Av,αⅴ无码精品,国产情趣视频

? ? 點(diǎn)擊上方?月小水長(zhǎng)?并?設(shè)為星標(biāo)，第一時(shí)間接收干貨推送

這是?月小水長(zhǎng)?的第?57?篇原創(chuàng)干貨

距離上次微博超級(jí)爬蟲(chóng)更新已經(jīng)過(guò)去三個(gè)月了，很多人以為我放棄這個(gè)項(xiàng)目了，實(shí)際上我太忙（難）了。

上個(gè)周末整理了微博話題爬蟲(chóng) WeiboTopicSpider，在 issue 里看到一個(gè)同學(xué)說(shuō)可以支持小時(shí)級(jí)別的搜索了，我開(kāi)始試試了貌似并不可以，或者說(shuō)并不準(zhǔn)確，和我很久以前嘗試的一樣，爬取的微博時(shí)間跨度并沒(méi)有和給定的 start_time 和 end_time 范圍一致，經(jīng)過(guò)一番搗鼓，終于探得其中奧秘。

先來(lái)給這個(gè)微博超級(jí)爬蟲(chóng)倉(cāng)庫(kù)求個(gè) star

https://github.com/Python3Spiders/WeiboSuperSpider

點(diǎn)擊紅框中的 star，就是對(duì)一個(gè)開(kāi)源愛(ài)好者最大的鼓勵(lì)。

首先明確一點(diǎn)，微博話題爬蟲(chóng)一直是可以支持小時(shí)級(jí)別（格式諸如 2020-11-01-05）的搜索了，只是我們一直不知道使用方式，

比如，我們想要搜索 2020-10-31 04 點(diǎn)到 2020-10-31 05 點(diǎn)關(guān)于 S10 的所有原創(chuàng)微博，我們應(yīng)該這樣給定參數(shù)

WeiboTopicScrapy(keyword=keyword,filter=1,start_time='2020-10-30-20',end_time='2020-10-29-21')

一臉懵逼就對(duì)了，其實(shí)這個(gè)以前傳入的時(shí)間參數(shù)和實(shí)際執(zhí)行搜索的時(shí)間參數(shù)有以下關(guān)系，經(jīng)過(guò)演繹推理即可得出

實(shí)際的 start_time = 以前傳入的 start_time + 8hour
實(shí)際的 end_time = 以前傳入的 end_time + 1day + 8hour

嚴(yán)重懷疑是不是服務(wù)器不在國(guó)內(nèi)，或者這個(gè)規(guī)則只對(duì)國(guó)內(nèi)的使用者有生效，待確認(rèn)中，麻煩美國(guó)等地的讀者試一下給我反饋。

那么問(wèn)題又來(lái)了，每次這樣自己手動(dòng)換算后再傳入?yún)?shù)，有點(diǎn)麻煩，于是我將這部分邏輯也寫進(jìn)程序了，

def?time_params_formatter(params_time,?offset_day=0,?offset_hour=-8):
????[temp_year,?temp_month,?temp_day,?temp_hour]?=?[int(e)?for?e?in?params_time.split('-')]
????temp_date?=?datetime(year=temp_year,?month=temp_month,?day=temp_day,?hour=temp_hour)
????temp_offset?=?timedelta(days=offset_day,hours=offset_hour)
????res_time?=?(temp_date?+?temp_offset).strftime('%Y-%m-%d-%H')
????return?res_time

在 WeiboTopicSpider 類內(nèi)部自動(dòng)做了處理

self.start_time?=?time_params_formatter(start_time,?offset_hour=-8)?#?原來(lái)是?=?start_time
self.end_time?=?time_params_formatter(end_time,?offset_day=-1,?offset_hour=-8)?#?原來(lái)是?=?end_time

上次搜索過(guò)程就可以直觀地表示為：

start_time,?end_time?=?'2020-10-31-04',?'2020-10-31-05'
if?start_time>=end_time:
????raise?Exception('start_time?是離現(xiàn)在更遠(yuǎn)的那個(gè)時(shí)間，必須小于?end_time')
WeiboTopicScrapy(keyword=keyword,?filter=1,?start_time=start_time,?end_time=start_time)

就是上面那個(gè)公式的逆過(guò)程，求出我們想要搜索的時(shí)間范圍對(duì)應(yīng)的真正的時(shí)間范圍，話比較啰嗦，一句話，就是你在新的代碼里修改 start_time,end_time='2020-10-31-04','2020-10-31-05'這一行的時(shí)候，改成你自己想要的時(shí)間范圍即可，具體的細(xì)節(jié)程序自動(dòng)轉(zhuǎn)換。

實(shí)際的 start_time = 現(xiàn)在傳入的 start_time
實(shí)際的 end_time = 現(xiàn)在傳入的 end_time

還有，小時(shí)是最最最細(xì)粒度的搜索了，分鐘和秒就不行了，至少我嘗試了 N 次是這樣。

最后，加了一個(gè)爬完自動(dòng)結(jié)束的功能，在類內(nèi)部加了三行代碼：

if?len(weibos)?==?0:
????print('自動(dòng)結(jié)束，大概率是因?yàn)閮?nèi)容爬完了，也請(qǐng)留意是否是?cookie?失效等情況\n')
????break

本次更新完結(jié)，撒花，閱讀原文直達(dá)源碼地址。

點(diǎn)擊文本的 上一篇/下一篇 即可快速查看微博超級(jí)爬蟲(chóng)系列的其他文章。

微博話題爬蟲(chóng)更新：支持小時(shí)級(jí)別的搜索和爬完自動(dòng)停止

? ? 點(diǎn)擊上方?月小水長(zhǎng)?并?設(shè)為星標(biāo)，第一時(shí)間接收干貨推送