<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【B 站視頻教程】抓取用戶微博和批量抓取評論

          共 2322字,需瀏覽 5分鐘

           ·

          2021-10-22 08:43

          ? ? 點(diǎn)擊上方?月小水長?并?設(shè)為星標(biāo),第一時間接收干貨推送

          這是?月小水長?的第?90?篇原創(chuàng)干貨

          目前公眾號平臺改變了推送機(jī)制,點(diǎn)“贊”、點(diǎn)“在看”、添加過“星標(biāo)”的同學(xué),都會優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點(diǎn)一下“在看”和“贊”。


          如何抓取用戶的所有微博,該部分代碼地址在:?一個爬取用戶所有微博的爬蟲,還能斷網(wǎng)續(xù)爬那種(點(diǎn)擊直達(dá)),下面的視頻詳情演示了這個過程



          如何抓取一條甚至多條微博的評論呢?代碼地址在:2021 新版微博評論及其子評論爬蟲發(fā)布(點(diǎn)擊直達(dá)),具體操作可參考下面的視頻

          批量抓取微博評論,需要配置的一個文件是 mac_comment_config.json,其格式如下:

          {  "cookie": "換成你的 cookie",  "comments": [    {      "mid": "KCXTUah9W",      "uid": "2656274875",      "limit": 100000,      "decs": "吳京說神州十三號太美了"    },    {      "mid": "KCYA7jubh",      "uid": "2803301701",      "limit": 100000,      "decs": "吳京說神州十三號太美了"    }  ]}

          以上的配置可以抓取兩條微博的評論,有個問題是,如果有很多很多個微博需要爬評論,難道需要一個個輸入 mid 和 uid 嗎?考慮到這個問題,我特意寫了個腳本,比如我們爬完話題爬蟲:?2021 新版微博話題爬蟲發(fā)布?后,需要獲取該話題下所有微博的評論,我們可以使用如下的 py 腳本代碼自動構(gòu)建視頻中抓取評論所需要的 json 配置文件

          # -*- coding: utf-8 -*-# author:           inspurer(月小水長)# create_time:      2021/10/17 10:31# 運(yùn)行環(huán)境           Python3.6+# github            https://github.com/inspurer# 微信公眾號         月小水長
          import json
          import pandas as pd
          limit = 10000
          config_path = 'mac_comment_config.json'
          data_path = './topic/小米.csv'

          def drop_duplicate(path, col_index=0): df = pd.read_csv(path) first_column = df.columns.tolist()[col_index] # 去除重復(fù)行數(shù)據(jù) df.drop_duplicates(keep='first', inplace=True, subset=[first_column]) # 可能還剩下重復(fù) header df = df[-df[first_column].isin([first_column])] df.to_csv(path, encoding='utf-8-sig', index=False)

          drop_duplicate(data_path)
          with open(config_path, 'r', encoding='utf-8-sig') as f: config_json = json.loads(f.read())
          df = pd.read_csv(data_path)
          # 清楚原有的 comments 配置,如不需要可注釋config_json['comments'].clear()
          for index, row in df.iterrows(): print(f'{index + 1}/{df.shape[0]}') weibo_link = row['weibo_link'] if '?' in weibo_link: weibo_link = weibo_link[:weibo_link.index('?')] uid = weibo_link[weibo_link.index('com') + 4:weibo_link.rindex('/')] mid = weibo_link[weibo_link.rindex('/') + 1:] config_json['comments'].append({ 'mid': mid, 'uid': uid, 'limit': limit, 'desc': row['user_name'] })
          with open(config_path, 'w', encoding='utf-8-sig') as f: f.write(json.dumps(config_json, indent=2, ensure_ascii=False))

          構(gòu)建一次即可,如果抓取過程出錯,可以把已經(jīng)抓取過評論的的微博從 json?配置文件中刪除,下次就可以從當(dāng)前微博繼續(xù)抓取了。

          點(diǎn)擊 閱讀原文 可以直達(dá)視頻地址~
          瀏覽 55
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操碰97人人操 | 视频一区在线观看视频 | 国产精品毛片视频 | 免费污污网站在线观看 | 另类TS人妖一区二区三区 |