微博話題爬蟲新增發(fā)布手機、超話字段
? ? 點擊上方?月小水長?并?設(shè)為星標(biāo),第一時間接收干貨推送
最新的話題爬蟲新增了 source 字段,這個字段包含了發(fā)布手機、超話等諸多信息,可以去 2021 新版微博話題爬蟲發(fā)布 獲取最新的爬蟲文件。該爬蟲爬取保存的 csv 文件如下:

文件是邊抓取邊保存的,保存路徑在項目的 topic 文件夾下,建議在 Pycharm 中直接打開保存的 csv 文件。
新加了之后,新版話題爬蟲的字段已經(jīng)多達十四個,無論是微博 ID、發(fā)布時間,內(nèi)容等微博信息,還是轉(zhuǎn)發(fā)數(shù)、點贊數(shù)和評論數(shù)等社區(qū)信息,亦或者是用戶名、用戶主頁等用戶信息,還是地理位置、發(fā)布手機等其他信息,均可以抓取保存,看到很多讀者在后臺留言說想要新增一個發(fā)布用戶的 UID,其實這個 UID 在字段用戶主頁 user_link 就體現(xiàn)出來了,user_link 里面的數(shù)字串就是 UID。可以下面的方式提取。
if '?' in user_link:user_link = user_link[:user_link.index('?')]user_id = user_link[user_link.rindex('/')+1:]
同時,最近使用新版微博話題爬蟲時,出現(xiàn) UnboundLocalError 較多

?local?variable?'like_num'?referenced?before?assignment也一并修復(fù)了。
最后,公眾號后臺留言問題較多,可能有遺漏無法一一回復(fù),新開了交流群,歡迎進群討論。
評論
圖片
表情
