新浪微博系列爬蟲的一些使用建議
點(diǎn)擊上方 月小水長 并 設(shè)為星標(biāo),第一時間接收干貨推送
exe 早就不維護(hù)了,在 微博話題爬蟲更新:突破 50 頁限制 一文中,已經(jīng)說過不再繼續(xù)維護(hù) exe 版本了,后面自然而然就失效了;一方面 mac 上無效使用 exe,另一方面 gui 維護(hù)成本比較高,ui 操作邏輯需要隨爬蟲邏輯的改變而改變。所以,exe 版本用不了了。
運(yùn)行報錯,KeyError: 'servertime',這個錯誤是出現(xiàn)在微博超級評論爬蟲里的,原因是因為自動登錄的邏輯已經(jīng)失效了,強(qiáng)制掃碼登陸了,可以使用 cookie 版本的微博評論爬蟲。
微博用戶爬蟲,微博話題爬蟲依然是可以用的,并且話題爬蟲是依然可以支持小時級別的搜索抓取的,至于為什么抓不到,大概率是因為 cookie 復(fù)制錯了,必須是要 cn 站的 login.cn 這個接口登錄后的,以及可能是網(wǎng)絡(luò)運(yùn)營商所限,多切換幾個熱點(diǎn)試試。
為什么微博話題顯示有幾萬條,實(shí)際抓到的只有幾千甚至更少?我提出兩個可能的原因,第一是可能是這幾萬條有水分,第二是兩者的統(tǒng)計口徑不一樣,話題爬蟲其實(shí)是按照關(guān)鍵詞搜索的,暫無法知道微博的統(tǒng)計口徑。
關(guān)于這個爬蟲,還有哪些疑問,可在下方留言,或點(diǎn)擊閱讀原文,在 github 上提 issue
評論
圖片
表情
