2021 微博爬蟲更新及使用指南
點擊上方 月小水長 并 設(shè)為星標(biāo),第一時間接收干貨推送
在使用之前,建議使用 3.6.6 x64 位+ Pycharm IDE。
為什么必須是 3.6.6 x64 位呢,這是因為分發(fā)的 pyd 文件在我的電腦上是由 Python 3.6.6 生成的,如果是直接分發(fā) py 文件,則沒有這個限制,我也是后來不斷有讀者反饋才了解到這個 BUG?想著干脆直接開源出來就得了,但是這對于之前已經(jīng)購買過付費文章的同學(xué)是不公平的,所以不會開源;后續(xù)的代碼盡可能都開源,并且應(yīng)該不會再寫付費文章了。
為什么強(qiáng)調(diào)使用 Pycharm,因為保存的 csv 文件如果在外面比如 excel 打開,則由于會有 win/mac 系統(tǒng)的編碼方式和我的程序里面的 utf-8-sig 不一致導(dǎo)致的崩潰或亂碼錯誤(感興趣的同學(xué)可以了解相關(guān),這里我做黑盒處理了),最佳方式是自始至終只在 Pycharm 打開 csv 文件,同時 Pycharm 安裝個 csv plugin 方便瀏覽。永遠(yuǎn)不要在 excel 打開,除非你確保程序不會再讀取這份 csv 文件中,因為話題爬取可以中斷繼續(xù)的緣故,所以同一個話題 csv 文件是追加寫的。如果不幸用 excel 打開并保存了修改,有一個補(bǔ)救措施是再用記事本打開這份 csv 另存為同名 csv,編碼方式使用 utf-8 帶 BOM 頭,替換之;或者刪除 csv 文件重來(希望這段是廢話,遇到問題再來看吧)。
首先是微博話題爬蟲的更新,github 上的 2020 版代碼已經(jīng)停止更新了,所以就有了 2021 新版微博話題爬蟲發(fā)布;今天發(fā)布的新加了微博內(nèi)容去重及去掉非相關(guān)微博(微博搜索可能有廣告嵌入)、到時自動停止(這應(yīng)該是個 bug,第一次發(fā)布的版本的不會停止),同時在配置文件中,新加了一個字段 only_origin ,用以控制是否只抓取原創(chuàng)微博,默認(rèn)是 false,改為 true 即是只抓取原創(chuàng)微博。
{"cookie": "這里很長很長的","keyword": "五胡十六國","start_time": "2021-04-01-9","end_time": "2021-04-08-16","only_origin": false}
新發(fā)布的版本獲取口令同 2021 新版微博話題爬蟲發(fā)布。這篇文章談到怎么獲取 cookie 是一筆帶過,因此有不少讀者問怎么獲取這個 cookie,確保登錄了 weibo.com,在瀏覽器打開下面這個網(wǎng)址,第一個 weibo 請求的 cookie 就是(大佬自行跳過)。
https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top同時 2021 新版微博評論及其子評論爬蟲發(fā)布 微博評論繼續(xù)更新,上一次更新發(fā)布了 Mac 版本,這里強(qiáng)調(diào)下, Win 系統(tǒng)也能使用這個 Mac 版本。同時,本次更新優(yōu)化了邏輯,單條微博的評論上限達(dá)到了幾千到一萬之多,獲取方式依然在 2021 新版微博評論及其子評論爬蟲發(fā)布。
最后是用戶爬蟲,高興的是,依然能使用 20 年版本 cn 站的,就不多說了。一個爬取用戶所有微博的爬蟲,還能斷網(wǎng)續(xù)爬那種。
ps,打個小廣告,小店開業(yè),如有打擾,請無視。
有問題歡迎留言,下一個計劃是批量抓取的微博用戶個人信息爬蟲。
