<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)淺談微博評論異常流量和水軍賬號(hào)

          共 1431字,需瀏覽 3分鐘

           ·

          2021-12-19 07:11

          ? ? 點(diǎn)擊上方?月小水長?并?設(shè)為星標(biāo),第一時(shí)間接收干貨推送

          這是?月小水長?的第?102?篇原創(chuàng)干貨

          目前公眾號(hào)平臺(tái)改變了推送機(jī)制,點(diǎn)“贊”、點(diǎn)“在看”、添加過“星標(biāo)”的同學(xué),都會(huì)優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點(diǎn)一下“在看”和“贊”。

          近年來,微博評論區(qū)的異常評論流量現(xiàn)象甚囂塵上,背后是大量的營銷賬號(hào)的擾亂視聽以及作為他們的傀儡的水軍賬號(hào)的推波助瀾,本篇利用微博評論爬蟲采集的公開數(shù)據(jù),簡單分析了這些現(xiàn)象的一些表征和原因。

          以人民日報(bào)發(fā)表的關(guān)于 #吳亦凡被批捕# 這條微博及其評論數(shù)據(jù)為例子。

          網(wǎng)頁顯示有近 18w 條微博,實(shí)際抓取去重后有 10w 稍有余的數(shù)據(jù),包括根評論和回復(fù),后文分析評論時(shí),僅針對分析發(fā)博一天內(nèi)的評論。抓取保存的評論字段信息如下:

          字段名含義
          parent_cid該回復(fù)所屬的根評論 id,只有回復(fù)評論有值,根評論為空
          cid評論 id
          time評論發(fā)表時(shí)間
          text評論內(nèi)容
          like_count評論點(diǎn)贊數(shù)
          reply_count該根評論有多少條回復(fù)評論,只有根評論有值,回復(fù)評論為 0
          uid評論者 id
          username評論者用戶名
          following評論者關(guān)注數(shù)
          followed評論者粉絲數(shù)
          gender評論者性別

          第一步,可視化該條微博發(fā)布后一天內(nèi)每分鐘新發(fā)評論數(shù)量時(shí)間線。

          每分鐘評論數(shù)在短時(shí)間內(nèi)指數(shù)型急劇上升,最后又以一象限雙曲線形式下降,符合常理認(rèn)知。同時(shí)可以看出,在發(fā)博時(shí)間 2021/08/16 20:30 過去 840mins,也就是發(fā)博 16 小時(shí)后,2021/08/17 10:30 時(shí)有個(gè)極大值,why?迫于本篇推送選題的壓力,我馬上想到了可能是水軍賬號(hào)這個(gè)時(shí)候營業(yè)了,但是我分析了這個(gè)時(shí)間段發(fā)布評論的用戶,肉眼可見幾乎沒有水軍賬號(hào)。于是乎,我翻開了微博的歷史熱搜數(shù)據(jù),發(fā)現(xiàn)在這個(gè)時(shí)間點(diǎn),#都美竹感謝朝陽公安和粉絲# 這個(gè)話題沖到了熱搜第一,很顯然,是由于該關(guān)聯(lián)話題的熱度擴(kuò)散到了這條微博。

          如果查證歷史熱搜數(shù)據(jù)該時(shí)間點(diǎn)無相關(guān)熱搜,且?guī)缀鯖]有觀察到該時(shí)間點(diǎn)附近評論營銷水軍內(nèi)容,那么下降曲線就會(huì)是完美的一象限雙曲線;否則就需要確定是相關(guān)熱搜或者是營銷水軍,亦或者是它們共同作用的結(jié)果。

          第二步,怎么大致判斷評論中水軍賬號(hào)呢,我的做法是 group_by uid。

          分析結(jié)果顯示,一天之內(nèi),一個(gè)賬號(hào)最多針對該微博發(fā)布了 26 條評論,發(fā)布 10 條評論以上的賬號(hào)多達(dá) 30 余人,這些賬號(hào)具有一定的營銷號(hào)或水軍嫌疑,目前只能手動(dòng)點(diǎn)開微博主頁瀏覽去確定,長期地,我想輸出一個(gè)模型,根據(jù) uid 判斷賬號(hào)是否是營銷號(hào)或者水軍賬號(hào),目前的想法就是根據(jù)它的發(fā)博連續(xù)性,關(guān)注粉絲之比,賬號(hào)新舊程序等維度考量,大家有好想法歡迎留言。

          最后可視化每分鐘評論的平均文本長度如下。

          處理時(shí)去除了 html 標(biāo)簽表情等非文本內(nèi)容,但是上圖依舊有很大的鋸齒,應(yīng)該用中值濾波處理之,不過走勢應(yīng)該不會(huì)變。

          參考附錄

          1、研究報(bào)告 | 微博評論中的水軍異常流量分析:https://zhuanlan.zhihu.com/p/436967668

          2、微博歷史熱搜數(shù)據(jù):https://www.weibotop.cn/2.0/

          瀏覽 166
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美在线无码视频 | 亚洲三级黄色 | 日本驲屄视频在线高潮视频 | 四虎二区 | 国产黄a|