<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2021 微博爬蟲更新及使用指南

          共 1968字,需瀏覽 4分鐘

           ·

          2021-09-03 16:10

             點擊上方 月小水長 并 設(shè)為星標(biāo),第一時間接收干貨推送

          這是 月小水長 的第 78 篇原創(chuàng)干貨

          目前公眾號平臺改變了推送機(jī)制,點“贊”、點“在看”、添加過“星標(biāo)”的同學(xué),都會優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點一下“在看”和“贊”。

          包含話題,評論,用戶等的 微博爬蟲點擊此處藍(lán)字進(jìn)入系列爬蟲合集頁,可訂閱更新)已經(jīng)更新兩年有余了,2021 新版微博爬蟲也已經(jīng)更新一月有余,并新加了轉(zhuǎn)發(fā)這個 Feature,在此期間收到不少使用咨詢和 bug 反饋;bug 已經(jīng)修復(fù),使用統(tǒng)一在此文回復(fù)。

          在使用之前,建議使用 3.6.6 x64 位+ Pycharm IDE。

          為什么必須是 3.6.6 x64 位呢,這是因為分發(fā)的 pyd 文件在我的電腦上是由 Python 3.6.6 生成的,如果是直接分發(fā) py 文件,則沒有這個限制,我也是后來不斷有讀者反饋才了解到這個 BUG?想著干脆直接開源出來就得了,但是這對于之前已經(jīng)購買過付費文章的同學(xué)是不公平的,所以不會開源;后續(xù)的代碼盡可能都開源,并且應(yīng)該不會再寫付費文章了。


              為什么強(qiáng)調(diào)使用 Pycharm,因為保存的 csv 文件如果在外面比如 excel 打開,則由于會有 win/mac 系統(tǒng)的編碼方式和我的程序里面的 utf-8-sig 不一致導(dǎo)致的崩潰或亂碼錯誤(感興趣的同學(xué)可以了解相關(guān),這里我做黑盒處理了),最佳方式是自始至終只在 Pycharm 打開 csv 文件,同時 Pycharm 安裝個 csv plugin 方便瀏覽。永遠(yuǎn)不要在 excel 打開,除非你確保程序不會再讀取這份 csv 文件中,因為話題爬取可以中斷繼續(xù)的緣故,所以同一個話題 csv 文件是追加寫的。如果不幸用 excel 打開并保存了修改,有一個補(bǔ)救措施是再用記事本打開這份 csv 另存為同名 csv,編碼方式使用 utf-8 帶 BOM 頭,替換之;或者刪除 csv 文件重來(希望這段是廢話,遇到問題再來看吧)。


          關(guān)于 cookie 的站點選擇,記住,weibo.com 是獨立的,m.weibo 和 weibo.cn 這兩個可以共用。

          話題爬蟲

          首先是微博話題爬蟲的更新,github 上的 2020 版代碼已經(jīng)停止更新了,所以就有了 2021 新版微博話題爬蟲發(fā)布;今天發(fā)布的新加了微博內(nèi)容去重及去掉非相關(guān)微博(微博搜索可能有廣告嵌入)、到時自動停止(這應(yīng)該是個 bug,第一次發(fā)布的版本的不會停止),同時在配置文件中,新加了一個字段 only_origin ,用以控制是否只抓取原創(chuàng)微博,默認(rèn)是 false,改為 true 即是只抓取原創(chuàng)微博。

          {  "cookie": "這里很長很長的",  "keyword": "五胡十六國",  "start_time": "2021-04-01-9",  "end_time": "2021-04-08-16",  "only_origin": false}

          新發(fā)布的版本獲取口令同 2021 新版微博話題爬蟲發(fā)布。這篇文章談到怎么獲取 cookie 是一筆帶過,因此有不少讀者問怎么獲取這個 cookie,確保登錄了 weibo.com,在瀏覽器打開下面這個網(wǎng)址,第一個 weibo 請求的 cookie 就是(大佬自行跳過)。


          https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top


          評論爬蟲


          同時 2021 新版微博評論及其子評論爬蟲發(fā)布 微博評論繼續(xù)更新,上一次更新發(fā)布了 Mac 版本,這里強(qiáng)調(diào)下, Win 系統(tǒng)也能使用這個 Mac 版本。同時,本次更新優(yōu)化了邏輯,單條微博的評論上限達(dá)到了幾千到一萬之多,獲取方式依然在 2021 新版微博評論及其子評論爬蟲發(fā)布


          用戶爬蟲


          最后是用戶爬蟲,高興的是,依然能使用 20 年版本 cn 站的,就不多說了。一個爬取用戶所有微博的爬蟲,還能斷網(wǎng)續(xù)爬那種


          ps,打個小廣告,小店開業(yè),如有打擾,請無視。



          有問題歡迎留言,下一個計劃是批量抓取的微博用戶個人信息爬蟲。

          瀏覽 186
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一道本无码免费 | 免费看黄秘 片视频 | 探花w片免费 | www.日撸 | 亚洲成人性爱视频 |