作者 |?小Z
來源 |?數(shù)據(jù)不吹牛
起因:
發(fā)際線堪憂的小Q,為了守住頭發(fā)最后的尊嚴(yán),深入分析了幾十款防脫洗發(fā)水的評價(jià),最后綜合選了一款他認(rèn)為最完美的防脫洗發(fā)水。
一星期后,他沒察覺到任何變化。
一個(gè)月后,他用卷尺量了量,發(fā)際線竟然后退了0.5cm!難道防脫要經(jīng)歷一個(gè)物極必反的過程,先脫再長?小Q不甘心,決定繼續(xù)堅(jiān)持。
兩個(gè)月后,小Q心如死灰,忍不住和小Z抱怨。

!!!!!!
這句話,平地一驚雷,炸出了小Q慘痛的網(wǎng)購回憶。
他,屢屢沖著賣家秀而去,卻屢屢化身買家秀而歸。
說好的椰子!?

我想買兩個(gè)杯子來著,怎么變成了一個(gè)!?

小Q曾經(jīng)因?yàn)榫W(wǎng)購吃虧太多,而為自己的顏值和智商擔(dān)憂。但經(jīng)過小Z的點(diǎn)撥,他認(rèn)定了一件事:活成賣家秀,并不是自身的問題,而是萬惡的假評價(jià)誤導(dǎo)了自己的消費(fèi)決策。
為了自己,為了讓更多的朋友免受誤導(dǎo),他和小Z一拍即合,決定用數(shù)據(jù)思維來鑒定刷單。
經(jīng)過一番翻云覆雨,終于總結(jié)出了用數(shù)據(jù)鑒定刷單的兩板斧。
第一板斧:評銷比
購買——使用——評價(jià)是一個(gè)完整的購后鏈路。消費(fèi)者在購買了產(chǎn)品之后,一定會使用,但評價(jià)則需要一定場景來觸發(fā)。
比如這個(gè)產(chǎn)品超出預(yù)期,我要感謝賣家!或者這個(gè)產(chǎn)品在侮辱我的智商,我要罵街!
當(dāng)然,還存在一部分為了刷積分而評價(jià)的人,不過正常情況下,主動評論的人占總?cè)藬?shù)的比重是維持在穩(wěn)定水平的。

如果有通過大規(guī)模紅包返現(xiàn)或其他人為手段刷的好評,在同樣購買人數(shù)的前提下,參與評價(jià)的人大概率是高于正常的。
怎么衡量這個(gè)比例是否合理呢?這里,我們引入一個(gè)叫做評銷比的指標(biāo)。
評銷比 = 單款產(chǎn)品總評論數(shù) / 單款產(chǎn)品總銷量 * 100,以此來衡量平均每賣出100單位的產(chǎn)品,對應(yīng)著多少條評價(jià)。
接下來,我們導(dǎo)入爬取的脫敏真實(shí)數(shù)據(jù)(為了去重廣告嫌疑脫的敏)來實(shí)踐一下:

增加一列計(jì)算評銷比:

看看評銷比分布形態(tài),數(shù)據(jù)在20左右分散開來,略微偏右:

從評銷比分布圖,可以看出在40處有二次下跌,我們暫且把40(一般也可以嘗試平均值)設(shè)置為一個(gè)篩選閾值,高于閾值的判定為有刷單嫌疑。

第一版斧揮過,12%疑似刷單的產(chǎn)品應(yīng)聲倒下,小Z露出了欣慰的微笑。
小Q卻眉頭緊鎖:“這個(gè)鑒定邏輯是有一定道理,但是,我買的那款洗發(fā)水竟然逃過了篩選!”
不要慌,我們還有第二板斧保駕護(hù)航。
第二板斧:內(nèi)容重復(fù)度
第二板斧整個(gè)判別邏輯極其簡單粗暴:對于一款產(chǎn)品,如果存在不同的用戶,在不同的時(shí)間,評論了相同的內(nèi)容,那妥妥的是刷啊!
直接上案例數(shù)據(jù),我們爬取了小Q購買的那款防脫洗發(fā)水評價(jià),共計(jì)1706條:

為了讓鑒別更加科學(xué),先換位思考:除極端情緒外,我們自己在評論時(shí)總會用“還行”、“一般般”、“剛收到,還沒用”等短評來敷衍。這些短評非常容易重復(fù),但也不能說是刷的評價(jià)。
so,我們在用重復(fù)度鑒別時(shí),可以先預(yù)設(shè)一個(gè)評論長度作為篩選標(biāo)準(zhǔn),比如只對超過15個(gè)字的評論進(jìn)行重復(fù)度匹配:

長度篩選之后,正好還剩下1200條評價(jià),下面開始正式匹配。大家如果想更精細(xì),可以考慮用文本挖掘等高階方法,在這里我們用最最最簡單粗暴的文本排序:

前6條評價(jià),有3個(gè)不同的客戶,分別在19年的10月16日、24日和21日發(fā)表了相同的內(nèi)容,他們都受高考壓力影響,脫發(fā)嚴(yán)重,每天房間、床鋪、地上掉滿他們的頭發(fā)。
幸好!!!他們在禿頂前遇到了這款洗發(fā)水!用了幾次不僅比之前掉的少,還新長出來了一些小碎發(fā)!

177個(gè)字,洋洋灑灑,令人動容!
但這到底是偶然的巧合還是有組織刷的評價(jià)呢?我們不能這么簡單下定論。
繼續(xù)看一看,這些長篇大論一字不差的重復(fù)評論有多少條:注:A,B,C三條內(nèi)容完全一樣,則統(tǒng)計(jì)為3條重復(fù)評價(jià)

1200條超過15個(gè)字的評價(jià),有378條是虛偽的,占比高達(dá)31.5%。
他們文風(fēng)多變,除了“高考壓力”,還有“為父分憂而買”、也有“被微博廣告安利”、甚至有“擔(dān)心被騙,用第二套才敢評價(jià)的”。
可謂情真而意切,感人而至深!
小Z看過評價(jià),深深不能自拔,瞬間理解了小Q為什么被忽悠。
“你跺你也麻啊!”
幸好,以后有了這兩板斧保駕護(hù)航,再也不用擔(dān)心這些虛評假意了。
注:文章所涉及所有源數(shù)據(jù)和代碼,已上傳至github(或點(diǎn)擊閱讀原文)https://github.com/seizeeveryday/DA-cases/tree/master/Comments