<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

一篇文章教會你使用Python定時(shí)抓取微博評論

共 1368字，需瀏覽 3分鐘

·

2020-12-14 14:03

點(diǎn)擊上方“IT共享之家”，進(jìn)行關(guān)注

回復(fù)“資料”可獲贈Python學(xué)習(xí)福利

今

日

雞

湯

念天地之悠悠，獨(dú)愴然而涕下

【Part1——理論篇】

????試想一個(gè)問題，如果我們要抓取某個(gè)微博大V微博的評論數(shù)據(jù)，應(yīng)該怎么實(shí)現(xiàn)呢？最簡單的做法就是找到微博評論數(shù)據(jù)接口，然后通過改變參數(shù)來獲取最新數(shù)據(jù)并保存。首先從微博api尋找抓取評論的接口，如下圖所示。

????但是很不幸，該接口頻率受限，抓不了幾次就被禁了，還沒有開始起飛，就涼涼了。

????接下來小編又選擇微博的移動端網(wǎng)站，先登錄，然后找到我們想要抓取評論的微博，打開瀏覽器自帶流量分析工具，一直下拉評論，找到評論數(shù)據(jù)接口，如下圖所示。

????之后點(diǎn)擊“參數(shù)”選項(xiàng)卡，可以看到參數(shù)為下圖所示的內(nèi)容：

????可以看到總共有4個(gè)參數(shù)，其中第1、2個(gè)參數(shù)為該條微博的id，就像人的身份證號一樣，這個(gè)相當(dāng)于該條微博的“身份證號”，max_id是變換頁碼的參數(shù)，每次都要變化，下次的max_id參數(shù)值在本次請求的返回?cái)?shù)據(jù)中。

【Part2——實(shí)戰(zhàn)篇】

????有了上文的基礎(chǔ)之后，下面我們開始擼代碼，使用Python進(jìn)行實(shí)現(xiàn)。

??? 1、首先區(qū)分url，第一次不需要max_id,第二次需要用第一次返回的max_id。

??? 2、請求的時(shí)候需要帶上cookie數(shù)據(jù)，微博cookie的有效期比較長，足夠抓一條微博的評論數(shù)據(jù)了，cookie數(shù)據(jù)可以從瀏覽器分析工具中找到。

??? 3、然后將返回?cái)?shù)據(jù)轉(zhuǎn)換成json格式，取出評論內(nèi)容、評論者昵稱和評論時(shí)間等數(shù)據(jù)，輸出結(jié)果如下圖所示。

??? 4、為了保存評論內(nèi)容，我們要將評論中的表情去掉，使用正則表達(dá)式進(jìn)行處理，如下圖所示。

??? 5、之后接著把內(nèi)容保存到txt文件中，使用簡單的open函數(shù)進(jìn)行實(shí)現(xiàn)，如下圖所示。

??? 6、重點(diǎn)來了，通過此接口最多只能返回16頁的數(shù)據(jù)（每頁20條），網(wǎng)上也有說返回50頁的，但是接口不同、返回的數(shù)據(jù)條數(shù)也不同，所以我加了個(gè)for循環(huán)，一步到位，遍歷還是很給力的，如下圖所示。

????7、這里把函數(shù)命名為job。為了能夠一直取出最新的數(shù)據(jù)，我們可以用schedule給程序加個(gè)定時(shí)功能，每隔10分鐘或者半個(gè)小時(shí)抓1次，如下圖所示。

??? 8、對獲取到的數(shù)據(jù)，做去重處理，如下圖所示。如果評論已經(jīng)在里邊的話，就直接pass掉，如果沒有的話，繼續(xù)追加即可。

這項(xiàng)工作到此就基本完成了。

【Part3——總結(jié)篇】

????這種方法雖然抓不全數(shù)據(jù)，但在這種微博的限制條件下，也是一種比較有效的方法。

????最后如果您需要本文代碼的話，請?jiān)诤笈_回復(fù)“微博”二字，覺得不錯，記得給個(gè)star噢~

看完本文有收獲？請轉(zhuǎn)發(fā)分享給更多的人

IT共享之家

入群請?jiān)谖⑿藕笈_回復(fù)【入群】

-------------------?End?-------------------

往期精彩文章推薦：

教你一招另辟蹊徑抓取美團(tuán)火鍋數(shù)據(jù)
使用Java帶你打造一款簡單的英語學(xué)習(xí)系統(tǒng)
一篇文章教會你用Python爬取淘寶評論數(shù)據(jù)（寫在記事本）

瀏覽 50

點(diǎn)贊

收藏

分享

舉報(bào)

評論

圖片

表情

一篇文章教會你使用Python定時(shí)抓取微博評論

Python爬蟲與數(shù)據(jù)挖掘

一篇文章教會你使用SVG 畫線

前端進(jìn)階學(xué)習(xí)交流

一篇文章教會你使用SVG 畫圓形

前端進(jìn)階學(xué)習(xí)交流

一篇文章教會你用Python抓取抖音app熱點(diǎn)數(shù)據(jù)

戀習(xí)Python

一篇文章教會你用Python抓取抖音app熱點(diǎn)數(shù)據(jù)

一篇文章教會你用Python抓取抖音app熱點(diǎn)數(shù)據(jù)

Python爬蟲與數(shù)據(jù)挖掘

一篇文章教會你使用SVG 畫多邊形

前端進(jìn)階學(xué)習(xí)交流

一篇文章教會你使用SVG 填充圖案

前端進(jìn)階學(xué)習(xí)交流

一篇文章教會你Python中三種簡單函數(shù)的使用

Python爬蟲與數(shù)據(jù)挖掘

一篇文章教會你使用Python中三種簡單的函數(shù)

Python爬蟲與數(shù)據(jù)挖掘

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

国产靠逼视频 | 国产农村乱╳╳╳乱免费下载 | 中国12一13毛片 | 欧美变态性爱一区二区三区 | 超碰自拍网 |