中斷可繼續(xù),10w+,無(wú) cookie 微博評(píng)論抓取網(wǎng)站上線(xiàn)
點(diǎn)擊上方 月小水長(zhǎng) 并 設(shè)為星標(biāo),第一時(shí)間接收干貨推送
補(bǔ)齊無(wú) cookie 爬蟲(chóng)系列的最后一塊拼圖:無(wú) cookie 評(píng)論爬蟲(chóng)今日上線(xiàn)。雖然是 無(wú) cookie 系列,但是它和無(wú) cookie 話(huà)題等相比,限制更少,更為強(qiáng)大。欲知強(qiáng)在何處,且聽(tīng)我一一道來(lái)。

無(wú) cookie
不需要 cookie或者說(shuō)對(duì)于使用者來(lái)說(shuō),感受不到 cookie 的存在,即可 run,這是最基本的特征。
評(píng)論上限可達(dá) 10w+
此處抓取的評(píng)論不是同步從 weibo.com 抓取的,因此同一條微博的,抓取的結(jié)果和 weibo.com 看到的評(píng)論有時(shí)差,筆者覺(jué)得無(wú)傷大雅。
和微博話(huà)題只能最近幾十頁(yè)的數(shù)據(jù)相比,無(wú) cookie 評(píng)論的上限大概在 10w+ 這個(gè)量級(jí),實(shí)測(cè)最多抓到 30w。能抓到 10w+,不是說(shuō)網(wǎng)頁(yè)上顯示有 10w 條就能抓到 10w 條,
一來(lái)博主可能精選評(píng)論,二來(lái)微博會(huì)過(guò)濾,評(píng)論的數(shù)量顯示只會(huì)往多了顯示;除開(kāi)這些原因,顯示 100w+ 評(píng)論大概率能抓到 10w+。
字段豐富
抓取保存的 csv 文件包括評(píng)論時(shí)間、評(píng)論文本、評(píng)論 ID、評(píng)論點(diǎn)贊數(shù)等評(píng)論本身信息和評(píng)論用戶(hù)名、評(píng)論用戶(hù)關(guān)注數(shù)、粉絲數(shù)、性別、所在地、是否認(rèn)證等評(píng)論用戶(hù)信息。
可以從上次中斷的繼續(xù)抓取
字面意思,比如這次抓到 1w 條停了,下次可以繼續(xù)上次停的地方繼續(xù)抓取,這是自動(dòng)配置的,使用者不用設(shè)置即可自動(dòng)繼續(xù)。一次抓取結(jié)束可以下載當(dāng)前的結(jié)果文件。
共享數(shù)據(jù)集
其他人抓取好一個(gè)微博 30w 的評(píng)論數(shù)據(jù)集,如果你有同樣的需求,輸入微博 id 后,無(wú)需抓取,可以直接下載。微博 id 可以是純數(shù)字 id,也可以是數(shù)字字母混合 id,它會(huì)自動(dòng)轉(zhuǎn)化成純數(shù)字 id。最后的結(jié)果文件也是按照 {數(shù)字id}.csv 這樣的格式命名的。
使用指南
網(wǎng)站全量開(kāi)啟 https 安全訪(fǎng)問(wèn),地址為:
https://weibo-comment-crawl.buyixiao.xyz/網(wǎng)站對(duì)所有人開(kāi)放,但執(zhí)行抓取需要密鑰,密鑰獲取地址
https://afdian.net/p/4c1ad92aeaf311ec971752540025c377為了服務(wù)器和網(wǎng)站的持續(xù)穩(wěn)健運(yùn)行,密鑰設(shè)置為付費(fèi)獲取,一旦泄露隨時(shí)可能更新。本網(wǎng)站適合長(zhǎng)期有大量評(píng)論抓取需求或者特定字段要求的讀者使用,如果至是一次性使用,建議使用 新增 ip 屬地,抓得更多,微博超級(jí)評(píng)論爬蟲(chóng)大更新。它是有 cookie 的,抓到的評(píng)論基本和 weibo.com 看到的保持一致。
