點(diǎn)擊上方 月小水長 并 設(shè)為星標(biāo),第一時間接收干貨推送
這是 月小水長 的第 84 篇原創(chuàng)干貨目前公眾號平臺改變了推送機(jī)制,點(diǎn)“贊”、點(diǎn)“在看”、添加過“星標(biāo)”的同學(xué),都會優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點(diǎn)一下“在看”和“贊”。
2021 新版微博爬蟲一發(fā)布,就有位讀者后臺留言說有下面這樣的 BUG,而且反饋的人越來越多,恰巧今天休息,修復(fù)了下這個問題。

我研究了下,發(fā)現(xiàn)這個問題不用修改代碼就可以解決。
舉個例子,假如要爬北京疫情相關(guān)的微博,在 json 文件中設(shè)置 keyword 為 北京疫情,那么其實(shí)爬到的微博不一定正文有 北京疫情 這連起來的四個字,可能 北京 疫情兩個詞是分開的。如下圖。

這是一部分看起來不相關(guān)的數(shù)據(jù),其實(shí)還是有一定借鑒價值的,在上個版本由于過濾了正文不包括 北京疫情 這四個連字的微博,所以爬到的數(shù)據(jù)很少,這個版本不再過濾這樣的數(shù)據(jù)。假如要只爬包含 北京疫情 這四個連字的微博,該怎么做,在 json 中把 keyword 設(shè)置為 #北京疫情# 即可。但是這樣的數(shù)據(jù)會少很多,因?yàn)樗话?/span> #北京疫情# 這樣的超話微博,不包含兩兩分開的,也不包括 北京疫情 這樣的沒有#符號單純四字連字微博正文。
最后,微博搜索結(jié)果為空時,爬蟲會錯誤地將一些推薦地關(guān)鍵詞無關(guān)微博也包含進(jìn)來。
本次也針對此做了優(yōu)化,過濾掉這樣的微博。還是去2021新版微博話題發(fā)布那篇推送中獲取爬蟲文件。