如何用Python和數(shù)據(jù)分析鑒別網(wǎng)絡(luò)刷單 ?
且看小Q如何吃一塹,長兩智
發(fā)際線堪憂的小Q,為了守住頭發(fā)最后的尊嚴(yán),深入分析了幾十款防脫洗發(fā)水的評價,最后綜合選了一款他認(rèn)為最完美的防脫洗發(fā)水。
一星期后,他沒察覺到任何變化。
一個月后,他用卷尺量了量,發(fā)際線竟然后退了0.5cm!難道防脫要經(jīng)歷一個物極必反的過程,先脫再長?小Q不甘心,決定繼續(xù)堅持。
兩個月后,小Q心如死灰,忍不住和小Z抱怨。

!!!!!!
這句話,平地一驚雷,炸出了小Q慘痛的網(wǎng)購回憶。
他,屢屢沖著賣家秀而去,卻屢屢化身買家秀而歸。
說好的椰子!?

我想買兩個杯子來著,怎么變成了一個!?

小Q曾經(jīng)因為網(wǎng)購吃虧太多,而為自己的顏值和智商擔(dān)憂。但經(jīng)過小Z的點撥,他認(rèn)定了一件事:活成賣家秀,并不是自身的問題,而是萬惡的假評價誤導(dǎo)了自己的消費決策。
為了自己,為了讓更多的朋友免受誤導(dǎo),他和小Z一拍即合,決定用數(shù)據(jù)思維來鑒定刷單。
經(jīng)過一番翻云覆雨,終于總結(jié)出了用數(shù)據(jù)鑒定刷單的兩板斧。

第一板斧:評銷比
購買——使用——評價是一個完整的購后鏈路。消費者在購買了產(chǎn)品之后,一定會使用,但評價則需要一定場景來觸發(fā)。
比如這個產(chǎn)品超出預(yù)期,我要感謝賣家!或者這個產(chǎn)品在侮辱我的智商,我要罵街!
當(dāng)然,還存在一部分為了刷積分而評價的人,不過正常情況下,主動評論的人占總?cè)藬?shù)的比重是維持在穩(wěn)定水平的。

如果有通過大規(guī)模紅包返現(xiàn)或其他人為手段刷的好評,在同樣購買人數(shù)的前提下,參與評價的人大概率是高于正常的。
怎么衡量這個比例是否合理呢?這里,我們引入一個叫做評銷比的指標(biāo)。
評銷比 = 單款產(chǎn)品總評論數(shù) / 單款產(chǎn)品總銷量 * 100,以此來衡量平均每賣出100單位的產(chǎn)品,對應(yīng)著多少條評價。
接下來,我們導(dǎo)入爬取的脫敏真實數(shù)據(jù)(為了去重廣告嫌疑脫的敏)來實踐一下:

增加一列計算評銷比:

看看評銷比分布形態(tài),數(shù)據(jù)在20左右分散開來,略微偏右:

從評銷比分布圖,可以看出在40處有二次下跌,我們暫且把40(一般也可以嘗試平均值)設(shè)置為一個篩選閾值,高于閾值的判定為有刷單嫌疑。

第一版斧揮過,12%疑似刷單的產(chǎn)品應(yīng)聲倒下,小Z露出了欣慰的微笑。
小Q卻眉頭緊鎖:“這個鑒定邏輯是有一定道理,但是,我買的那款洗發(fā)水竟然逃過了篩選!”
不要慌,我們還有第二板斧保駕護(hù)航。

第二板斧:內(nèi)容重復(fù)度
第二板斧整個判別邏輯極其簡單粗暴:對于一款產(chǎn)品,如果存在不同的用戶,在不同的時間,評論了相同的內(nèi)容,那妥妥的是刷啊!
直接上案例數(shù)據(jù),我們爬取了小Q購買的那款防脫洗發(fā)水評價,共計1706條:

為了讓鑒別更加科學(xué),先換位思考:除極端情緒外,我們自己在評論時總會用“還行”、“一般般”、“剛收到,還沒用”等短評來敷衍。這些短評非常容易重復(fù),但也不能說是刷的評價。
so,我們在用重復(fù)度鑒別時,可以先預(yù)設(shè)一個評論長度作為篩選標(biāo)準(zhǔn),比如只對超過15個字的評論進(jìn)行重復(fù)度匹配:

長度篩選之后,正好還剩下1200條評價,下面開始正式匹配。大家如果想更精細(xì),可以考慮用文本挖掘等高階方法,在這里我們用最最最簡單粗暴的文本排序:

前6條評價,有3個不同的客戶,分別在19年的10月16日、24日和21日發(fā)表了相同的內(nèi)容,他們都受高考壓力影響,脫發(fā)嚴(yán)重,每天房間、床鋪、地上掉滿他們的頭發(fā)。
幸好!!!他們在禿頂前遇到了這款洗發(fā)水!用了幾次不僅比之前掉的少,還新長出來了一些小碎發(fā)!

177個字,洋洋灑灑,令人動容!
但這到底是偶然的巧合還是有組織刷的評價呢?我們不能這么簡單下定論。
繼續(xù)看一看,這些長篇大論一字不差的重復(fù)評論有多少條:
注:A,B,C三條內(nèi)容完全一樣,則統(tǒng)計為3條重復(fù)評價

1200條超過15個字的評價,有378條是虛偽的,占比高達(dá)31.5%。
他們文風(fēng)多變,除了“高考壓力”,還有“為父分憂而買”、也有“被微博廣告安利”、甚至有“擔(dān)心被騙,用第二套才敢評價的”。
可謂情真而意切,感人而至深!
小Z看過評價,深深不能自拔,瞬間理解了小Q為什么被忽悠。
“你跺你也麻啊!”
幸好,以后有了這兩板斧保駕護(hù)航,再也不用擔(dān)心這些虛評假意了。
END
關(guān)注【程序IT圈】,更多的Python好文輸出
