免费无码又爽又高潮的网站,www.三级网站,一区二区三区久久久久,日韩午夜久久,操笔视频国产,无码av随便看,午夜国产福利,亚洲色导航五月

點擊上方月小水長并設(shè)為星標(biāo)，第一時間接收干貨推送

這是月小水長的第 83 篇原創(chuàng)干貨

目前公眾號平臺改變了推送機制，點“贊”、點“在看”、添加過“星標(biāo)”的同學(xué)，都會優(yōu)先接收到我的文章推送，所以大家讀完文章后，記得點一下“在看”和“贊”。

微博數(shù)據(jù)分析經(jīng)常需要和地理位置相關(guān)聯(lián)，比如查看某一話題爬蟲下發(fā)博人員地理分布，或者用戶爬蟲下某人軌跡分布，等等；而這次的微博位置爬蟲則是直接以位置為切入點爬取微博，只需要輸入一個地名，就能抓取在該地點發(fā)過的微博具體信息，表結(jié)構(gòu)類似話題爬蟲。

這個位置爬蟲的結(jié)果可以和用戶信息爬蟲聯(lián)動，比如有這樣一個分析任務(wù)：去北京環(huán)球影城的人，都發(fā)了什么微博，男生多還是女生多，年齡群體分布怎么樣，等等。都可以先用這個微博位置爬蟲，爬完后的 csv 交給用戶信息爬蟲處理。

閑話不多說，首先在本號（月小水長）后臺回復(fù)關(guān)鍵詞 微博位置爬蟲 獲取 pyd 文件（only for python3.6 64 bit)，然后在新建一個 py 文件，引用這個 pyd 文件

from WeiboLocationSpider import WeiboLocationSpider
if __name__ == '__main__':   WeiboLocationSpider(location_title='北京環(huán)球影城',                       cookie='改成你自己的 cookie',                       save_image=False)

首先是三個參數(shù)介紹，字面意思，第一個 location_title 就是你要爬的地名，必選；

cookie 也是必選，如果不想在參數(shù)這指定，也可以新建個 cookie.json 文件，里面是如下形式；

怎么獲取這個 cookie 呢，打開下面這個網(wǎng)址(隨便一個位置聚合頁面都可) Chrome F12 Network Header

https://weibo.com/p/100101B2094654D36EA5FF459E

第三個 save_image 非必選，意思是是否保存爬取到的微博的圖片，并且是微博原圖，清晰度比較高，所以下載比較慢，所以為了快速抓取，默認(rèn)值為 False，不保存，想要保存的話指定為 True 即可；河南暴雨超話時，很多信息是通過圖片發(fā)布的，所以圖片信息也很重要，可以通過 OCR 技術(shù)提取出文本，嘗試了下，由于該微博保存的圖片是原圖，圖片里面的文本信息幾乎都能解析出來。

如果 save_image 設(shè)置為 True，圖片保存如下：

一個地點無論大小，最多只能爬到四位數(shù)左右的微博數(shù)據(jù)，想要爬到更多怎么辦，可以拆分成很多小地點，比如爬北京，你可以改成海淀區(qū)、朝陽區(qū)等等，或者把海淀區(qū)按照街道再細(xì)分，這樣就能爬到更多的位置微博數(shù)據(jù)。

這個位置爬蟲報錯會有一些提示信息，如果出現(xiàn) List IndexError，一般是需要換 cookie 了，報錯會同時保存配置信息，比如當(dāng)前爬到哪一頁了，換了 cookie 后可以繼續(xù)爬取，自動保存的配置文件格式如下。

一般來說，這個配置文件不需要人為修改，page = 15 表示當(dāng)前爬到第 15 頁了，下次繼續(xù)；

你可能會好奇為什么會有個 neighborhoods 字段，它保存的是當(dāng)前爬取地點的附近地點信息，根據(jù) less is more 原則，我設(shè)計時附近地點并不是自動抓取，如果想要抓取，需要做以下修改。

用想要抓取附近地點的 place_name 替代 location，比如 location 值改成北京環(huán)球影城主題樂園
location 同級新增一個 page_root_url 字段，取值為上一步 place_name 對應(yīng)的 place_url
把 page 改成 1

改完以后的 json 文件信息如下，

在做這些修改之前，建議先把自動生成的配置文件備份一下。

重新運行就行抓取這個北京環(huán)球影城主題樂園了，又或者你懶得改，直接改剛才的代碼。

from WeiboLocationSpider import WeiboLocationSpider
if __name__ == '__main__':   WeiboLocationSpider(location_title='北京環(huán)球影城主題樂園',                       cookie='改成你自己的 cookie',                       save_image=False)

有問題留言即可。

微博位置爬蟲發(fā)布

點擊上方 月小水長 并 設(shè)為星標(biāo)，第一時間接收干貨推送

點擊上方月小水長并設(shè)為星標(biāo)，第一時間接收干貨推送