<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          微博位置爬蟲發(fā)布

          共 2066字,需瀏覽 5分鐘

           ·

          2021-09-19 08:47

              點擊上方 月小水長 并 設(shè)為星標(biāo),第一時間接收干貨推送

          這是 月小水長 的第 83 篇原創(chuàng)干貨

          目前公眾號平臺改變了推送機制,點“贊”、點“在看”、添加過“星標(biāo)”的同學(xué),都會優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點一下“在看”和“贊”。

          微博數(shù)據(jù)分析經(jīng)常需要和地理位置相關(guān)聯(lián),比如查看某一話題爬蟲下發(fā)博人員地理分布,或者用戶爬蟲下某人軌跡分布,等等;而這次的微博位置爬蟲則是直接以位置為切入點爬取微博,只需要輸入一個地名,就能抓取在該地點發(fā)過的微博具體信息,表結(jié)構(gòu)類似話題爬蟲

          這個位置爬蟲的結(jié)果可以和用戶信息爬蟲聯(lián)動,比如有這樣一個分析任務(wù):去北京環(huán)球影城的人,都發(fā)了什么微博,男生多還是女生多,年齡群體分布怎么樣,等等。都可以先用這個微博位置爬蟲,爬完后的 csv 交給用戶信息爬蟲處理。



          閑話不多說,首先在本號(月小水長)后臺回復(fù)關(guān)鍵詞 微博位置爬蟲 獲取 pyd 文件(only for python3.6 64 bit),然后在新建一個 py 文件,引用這個 pyd 文件

          from WeiboLocationSpider import WeiboLocationSpider
          if __name__ == '__main__': WeiboLocationSpider(location_title='北京環(huán)球影城', cookie='改成你自己的 cookie', save_image=False)

          首先是三個參數(shù)介紹,字面意思,第一個 location_title 就是你要爬的地名,必選;

          cookie 也是必選,如果不想在參數(shù)這指定,也可以新建個 cookie.json 文件,里面是如下形式;

          怎么獲取這個 cookie 呢,打開下面這個網(wǎng)址(隨便一個位置聚合頁面都可) Chrome F12 Network Header
          https://weibo.com/p/100101B2094654D36EA5FF459E

          第三個 save_image 非必選,意思是是否保存爬取到的微博的圖片,并且是微博原圖,清晰度比較高,所以下載比較慢,所以為了快速抓取,默認(rèn)值為 False,不保存,想要保存的話指定為 True 即可;河南暴雨超話時,很多信息是通過圖片發(fā)布的,所以圖片信息也很重要,可以通過 OCR 技術(shù)提取出文本,嘗試了下,由于該微博保存的圖片是原圖,圖片里面的文本信息幾乎都能解析出來。

          如果 save_image 設(shè)置為 True,圖片保存如下:


          一個地點無論大小,最多只能爬到四位數(shù)左右的微博數(shù)據(jù),想要爬到更多怎么辦,可以拆分成很多小地點,比如爬北京,你可以改成海淀區(qū)、朝陽區(qū)等等,或者把海淀區(qū)按照街道再細(xì)分,這樣就能爬到更多的位置微博數(shù)據(jù)。

          這個位置爬蟲報錯會有一些提示信息,如果出現(xiàn) List IndexError,一般是需要換 cookie 了,報錯會同時保存配置信息,比如當(dāng)前爬到哪一頁了,換了 cookie 后可以繼續(xù)爬取,自動保存的配置文件格式如下。



          一般來說,這個配置文件不需要人為修改,page = 15 表示當(dāng)前爬到第 15 頁了,下次繼續(xù);
          你可能會好奇為什么會有個 neighborhoods 字段,它保存的是當(dāng)前爬取地點的附近地點信息,根據(jù) less is more 原則,我設(shè)計時附近地點并不是自動抓取,如果想要抓取,需要做以下修改。
          • 用想要抓取附近地點的 place_name 替代 location,比如 location 值改成 北京環(huán)球影城主題樂園

          • location 同級新增一個 page_root_url 字段,取值為上一步  place_name 對應(yīng)的 place_url

          • 把 page 改成 1

          改完以后的 json 文件信息如下,


          在做這些修改之前,建議先把自動生成的配置文件備份一下。
          重新運行就行抓取這個北京環(huán)球影城主題樂園了,又或者你懶得改,直接改剛才的代碼。
          from WeiboLocationSpider import WeiboLocationSpider
          if __name__ == '__main__':   WeiboLocationSpider(location_title='北京環(huán)球影城主題樂園', cookie='改成你自己的 cookie', save_image=False)
          有問題留言即可。
          瀏覽 50
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩成人电影 | 成人三级电影天堂 | 欧美草逼网 | 青娱乐手机在线视频 | 亚洲免费AV网站 |