數(shù)據(jù)淺談微博評論異常流量和水軍賬號(hào)
? ? 點(diǎn)擊上方?月小水長?并?設(shè)為星標(biāo),第一時(shí)間接收干貨推送
近年來,微博評論區(qū)的異常評論流量現(xiàn)象甚囂塵上,背后是大量的營銷賬號(hào)的擾亂視聽以及作為他們的傀儡的水軍賬號(hào)的推波助瀾,本篇利用微博評論爬蟲采集的公開數(shù)據(jù),簡單分析了這些現(xiàn)象的一些表征和原因。
以人民日報(bào)發(fā)表的關(guān)于 #吳亦凡被批捕# 這條微博及其評論數(shù)據(jù)為例子。

網(wǎng)頁顯示有近 18w 條微博,實(shí)際抓取去重后有 10w 稍有余的數(shù)據(jù),包括根評論和回復(fù),后文分析評論時(shí),僅針對分析發(fā)博一天內(nèi)的評論。抓取保存的評論字段信息如下:
| 字段名 | 含義 |
|---|---|
| parent_cid | 該回復(fù)所屬的根評論 id,只有回復(fù)評論有值,根評論為空 |
| cid | 評論 id |
| time | 評論發(fā)表時(shí)間 |
| text | 評論內(nèi)容 |
| like_count | 評論點(diǎn)贊數(shù) |
| reply_count | 該根評論有多少條回復(fù)評論,只有根評論有值,回復(fù)評論為 0 |
| uid | 評論者 id |
| username | 評論者用戶名 |
| following | 評論者關(guān)注數(shù) |
| followed | 評論者粉絲數(shù) |
| gender | 評論者性別 |
第一步,可視化該條微博發(fā)布后一天內(nèi)每分鐘新發(fā)評論數(shù)量時(shí)間線。

每分鐘評論數(shù)在短時(shí)間內(nèi)指數(shù)型急劇上升,最后又以一象限雙曲線形式下降,符合常理認(rèn)知。同時(shí)可以看出,在發(fā)博時(shí)間 2021/08/16 20:30 過去 840mins,也就是發(fā)博 16 小時(shí)后,2021/08/17 10:30 時(shí)有個(gè)極大值,why?迫于本篇推送選題的壓力,我馬上想到了可能是水軍賬號(hào)這個(gè)時(shí)候營業(yè)了,但是我分析了這個(gè)時(shí)間段發(fā)布評論的用戶,肉眼可見幾乎沒有水軍賬號(hào)。于是乎,我翻開了微博的歷史熱搜數(shù)據(jù),發(fā)現(xiàn)在這個(gè)時(shí)間點(diǎn),#都美竹感謝朝陽公安和粉絲# 這個(gè)話題沖到了熱搜第一,很顯然,是由于該關(guān)聯(lián)話題的熱度擴(kuò)散到了這條微博。

如果查證歷史熱搜數(shù)據(jù)該時(shí)間點(diǎn)無相關(guān)熱搜,且?guī)缀鯖]有觀察到該時(shí)間點(diǎn)附近評論營銷水軍內(nèi)容,那么下降曲線就會(huì)是完美的一象限雙曲線;否則就需要確定是相關(guān)熱搜或者是營銷水軍,亦或者是它們共同作用的結(jié)果。
第二步,怎么大致判斷評論中水軍賬號(hào)呢,我的做法是 group_by uid。

分析結(jié)果顯示,一天之內(nèi),一個(gè)賬號(hào)最多針對該微博發(fā)布了 26 條評論,發(fā)布 10 條評論以上的賬號(hào)多達(dá) 30 余人,這些賬號(hào)具有一定的營銷號(hào)或水軍嫌疑,目前只能手動(dòng)點(diǎn)開微博主頁瀏覽去確定,長期地,我想輸出一個(gè)模型,根據(jù) uid 判斷賬號(hào)是否是營銷號(hào)或者水軍賬號(hào),目前的想法就是根據(jù)它的發(fā)博連續(xù)性,關(guān)注粉絲之比,賬號(hào)新舊程序等維度考量,大家有好想法歡迎留言。
最后可視化每分鐘評論的平均文本長度如下。

處理時(shí)去除了 html 標(biāo)簽表情等非文本內(nèi)容,但是上圖依舊有很大的鋸齒,應(yīng)該用中值濾波處理之,不過走勢應(yīng)該不會(huì)變。
參考附錄
1、研究報(bào)告 | 微博評論中的水軍異常流量分析:https://zhuanlan.zhihu.com/p/436967668
2、微博歷史熱搜數(shù)據(jù):https://www.weibotop.cn/2.0/
