<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一篇文章教會(huì)你使用Python定時(shí)抓取微博評(píng)論

          共 1368字,需瀏覽 3分鐘

           ·

          2020-12-13 03:44

          點(diǎn)擊上方“IT共享之家”,進(jìn)行關(guān)注

          回復(fù)“資料”可獲贈(zèng)Python學(xué)習(xí)福利

          念天地之悠悠,獨(dú)愴然而涕下

          【Part1——理論篇】

          ????試想一個(gè)問(wèn)題,如果我們要抓取某個(gè)微博大V微博的評(píng)論數(shù)據(jù),應(yīng)該怎么實(shí)現(xiàn)呢?最簡(jiǎn)單的做法就是找到微博評(píng)論數(shù)據(jù)接口,然后通過(guò)改變參數(shù)來(lái)獲取最新數(shù)據(jù)并保存。首先從微博api尋找取評(píng)論的接口,如下圖所示。

          ????但是很不幸,該接口頻率受限,抓不了幾次就被禁了,還沒(méi)有開(kāi)始起飛,就涼涼了。

          ????接下來(lái)小編又選擇微博的移動(dòng)端網(wǎng)站,先登錄,然后找到我們想要取評(píng)論的微博,打開(kāi)瀏覽器自帶流量分析工具,一直下拉評(píng)論,找到評(píng)論數(shù)據(jù)接口,如下圖所示。

          ????之后點(diǎn)擊“參數(shù)”選項(xiàng)卡,可以看到參數(shù)為下圖所示的內(nèi)容:

          ????可以看到總共有4個(gè)參數(shù),其中第1、2個(gè)參數(shù)為該條微博的id,就像人的身份證號(hào)一樣,這個(gè)相當(dāng)于該條微博的“身份證號(hào)”,max_id是變換頁(yè)碼的參數(shù),每次都要變化,下次的max_id參數(shù)值在本次請(qǐng)求的返回?cái)?shù)據(jù)中。


          【Part2——實(shí)戰(zhàn)篇】

          ????有了上文的基礎(chǔ)之后,下面我們開(kāi)始擼代碼,使用Python進(jìn)行實(shí)現(xiàn)。

          ??? 1、首先區(qū)分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

          ??? 2、請(qǐng)求的時(shí)候需要帶上cookie數(shù)據(jù),微博cookie的有效期比較長(zhǎng),足夠一條微博的評(píng)論數(shù)據(jù)了,cookie數(shù)據(jù)可以從瀏覽器分析工具中找到。

          ??? 3、然后將返回?cái)?shù)據(jù)轉(zhuǎn)換成json格式,取出評(píng)論內(nèi)容、評(píng)論者昵稱和評(píng)論時(shí)間等數(shù)據(jù),輸出結(jié)果如下圖所示。

          ??? 4、為了保存評(píng)論內(nèi)容,我們要將評(píng)論中的表情去掉,使用正則表達(dá)式進(jìn)行處理,如下圖所示。

          ??? 5、之后接著把內(nèi)容保存到txt文件中,使用簡(jiǎn)單的open函數(shù)進(jìn)行實(shí)現(xiàn),如下圖所示。

          ??? 6、重點(diǎn)來(lái)了,通過(guò)此接口最多只能返回16頁(yè)的數(shù)據(jù)(每頁(yè)20條),網(wǎng)上也有說(shuō)返回50頁(yè)的,但是接口不同、返回的數(shù)據(jù)條數(shù)也不同,所以我加了個(gè)for循環(huán),一步到位,遍歷還是很給力的,如下圖所示。

          ????7、這里把函數(shù)命名為job。為了能夠一直取出最新的數(shù)據(jù),我們可以用schedule給程序加個(gè)定時(shí)功能,每隔10分鐘或者半個(gè)小時(shí)抓1次,如下圖所示。

          ??? 8、對(duì)獲取到的數(shù)據(jù),做去重處理,如下圖所示。如果評(píng)論已經(jīng)在里邊的話,就直接pass掉,如果沒(méi)有的話,繼續(xù)追加即可。

          這項(xiàng)工作到此就基本完成了。


          【Part3——總結(jié)篇】

          ????這種方法雖然不全數(shù)據(jù),但在這種微博的限制條件下,也是一種比較有效的方法。

          ????最后如果您需要本文代碼的話,請(qǐng)?jiān)诤笈_(tái)回復(fù)“微博”二字,覺(jué)得不錯(cuò),記得給個(gè)star噢~


          看完本文有收獲?請(qǐng)轉(zhuǎn)發(fā)分享給更多的人

          IT共享之家

          入群請(qǐng)?jiān)谖⑿藕笈_(tái)回復(fù)【入群】

          -------------------?End?-------------------

          往期精彩文章推薦:

          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  玖玖av| 日你av | 国产三级三级三级看三级囯产亚洲 | 一级片在线免费观看 | 韩国精品在线播放 |