青娱乐青青草,免费一级片在线观看,飘花影院伊人网络视频,日韩欧美中文在线视频,日本人妻视频,亚洲1区无码,国产欧美日韩免费看,五月丁香影视

點擊上方月小水長并設(shè)為星標(biāo)，第一時間接收干貨推送

這是月小水長的第 78 篇原創(chuàng)干貨

目前公眾號平臺改變了推送機(jī)制，點“贊”、點“在看”、添加過“星標(biāo)”的同學(xué)，都會優(yōu)先接收到我的文章推送，所以大家讀完文章后，記得點一下“在看”和“贊”。

包含話題，評論，用戶等的 微博爬蟲（點擊此處藍(lán)字進(jìn)入系列爬蟲合集頁，可訂閱更新）已經(jīng)更新兩年有余了，2021 新版微博爬蟲也已經(jīng)更新一月有余，并新加了轉(zhuǎn)發(fā)這個 Feature，在此期間收到不少使用咨詢和 bug 反饋；bug 已經(jīng)修復(fù)，使用統(tǒng)一在此文回復(fù)。

在使用之前，建議使用 3.6.6 x64 位+ Pycharm IDE。

為什么必須是 3.6.6 x64 位呢，這是因為分發(fā)的 pyd 文件在我的電腦上是由 Python 3.6.6 生成的，如果是直接分發(fā) py 文件，則沒有這個限制，我也是后來不斷有讀者反饋才了解到這個 BUG？想著干脆直接開源出來就得了，但是這對于之前已經(jīng)購買過付費文章的同學(xué)是不公平的，所以不會開源；后續(xù)的代碼盡可能都開源，并且應(yīng)該不會再寫付費文章了。

為什么強(qiáng)調(diào)使用 Pycharm，因為保存的 csv 文件如果在外面比如 excel 打開，則由于會有 win/mac 系統(tǒng)的編碼方式和我的程序里面的 utf-8-sig 不一致導(dǎo)致的崩潰或亂碼錯誤（感興趣的同學(xué)可以了解相關(guān)，這里我做黑盒處理了），最佳方式是自始至終只在 Pycharm 打開 csv 文件，同時 Pycharm 安裝個 csv plugin 方便瀏覽。永遠(yuǎn)不要在 excel 打開，除非你確保程序不會再讀取這份 csv 文件中，因為話題爬取可以中斷繼續(xù)的緣故，所以同一個話題 csv 文件是追加寫的。如果不幸用 excel 打開并保存了修改，有一個補(bǔ)救措施是再用記事本打開這份 csv 另存為同名 csv，編碼方式使用 utf-8 帶 BOM 頭，替換之；或者刪除 csv 文件重來（希望這段是廢話，遇到問題再來看吧）。

關(guān)于 cookie 的站點選擇，記住，weibo.com 是獨立的，m.weibo 和 weibo.cn 這兩個可以共用。

話題爬蟲

首先是微博話題爬蟲的更新，github 上的 2020 版代碼已經(jīng)停止更新了，所以就有了 2021 新版微博話題爬蟲發(fā)布；今天發(fā)布的新加了微博內(nèi)容去重及去掉非相關(guān)微博（微博搜索可能有廣告嵌入）、到時自動停止（這應(yīng)該是個 bug，第一次發(fā)布的版本的不會停止），同時在配置文件中，新加了一個字段 only_origin ，用以控制是否只抓取原創(chuàng)微博，默認(rèn)是 false，改為 true 即是只抓取原創(chuàng)微博。

{  "cookie": "這里很長很長的",  "keyword": "五胡十六國",  "start_time": "2021-04-01-9",  "end_time": "2021-04-08-16",  "only_origin": false}

新發(fā)布的版本獲取口令同 2021 新版微博話題爬蟲發(fā)布。這篇文章談到怎么獲取 cookie 是一筆帶過，因此有不少讀者問怎么獲取這個 cookie，確保登錄了 weibo.com，在瀏覽器打開下面這個網(wǎng)址，第一個 weibo 請求的 cookie 就是（大佬自行跳過）。

https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top

評論爬蟲

同時 2021 新版微博評論及其子評論爬蟲發(fā)布微博評論繼續(xù)更新，上一次更新發(fā)布了 Mac 版本，這里強(qiáng)調(diào)下， Win 系統(tǒng)也能使用這個 Mac 版本。同時，本次更新優(yōu)化了邏輯，單條微博的評論上限達(dá)到了幾千到一萬之多，獲取方式依然在 2021 新版微博評論及其子評論爬蟲發(fā)布。

用戶爬蟲

最后是用戶爬蟲，高興的是，依然能使用 20 年版本 cn 站的，就不多說了。一個爬取用戶所有微博的爬蟲，還能斷網(wǎng)續(xù)爬那種。

ps，打個小廣告，小店開業(yè)，如有打擾，請無視。

有問題歡迎留言，下一個計劃是批量抓取的微博用戶個人信息爬蟲。

2021 微博爬蟲更新及使用指南

點擊上方 月小水長 并 設(shè)為星標(biāo)，第一時間接收干貨推送

點擊上方月小水長并設(shè)為星標(biāo)，第一時間接收干貨推送