真的,不要迷信數(shù)據(jù)分析.


來源:知乎
作者:Allen Sun
最近有同學(xué)問了我一個很致命的問題:數(shù)據(jù)分析真的有必要做嗎?為什么感覺都是偽需求?怎么確定數(shù)據(jù)分析結(jié)論是真的?
其實這個問題我也曾經(jīng)想過,究竟為什么很多人都在神化數(shù)據(jù)分析,遇到任何問題不管三七二十一,都要拿出數(shù)據(jù)來分析一通?
其實,這是過度追求數(shù)據(jù)分析的表現(xiàn),數(shù)據(jù)往往不一定就是真實客觀的,做數(shù)據(jù)分析的人也會被數(shù)據(jù)給欺騙,所以很多時候太過迷信數(shù)據(jù),反而容易出問題。
所以今天從數(shù)據(jù)來源偏差、數(shù)據(jù)解讀陷阱、人為操控誤導(dǎo)這三方面來聊聊數(shù)據(jù)的“坑”,希望你看完后能了解些套路,再看報告或數(shù)據(jù)時多個心眼,帶著懷疑的精神看數(shù)據(jù),不要掉入陷阱。


一、數(shù)據(jù)來源偏差
?1、樣本量和代表性
你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果,媒體記者們紛紛轉(zhuǎn)載。但其實這個事件都是波哈諾杜撰出來的,他隨便找了16個人做樣本基數(shù),然后就推導(dǎo)出這么個結(jié)論,目的就是想看看謠言怎么變成權(quán)威媒體的頭條。研究發(fā)表后沒有一個記者來聯(lián)系他問他這個實驗的樣本量是多少、代表性怎么樣、過程是否合理,直接就發(fā)表和引用了“研究成果”。
所以,樣本量和代表性是決定數(shù)據(jù)結(jié)果靠不靠譜的前提條件。大廠們雖然看起來有“大”數(shù)據(jù),但是由于數(shù)據(jù)孤島的存在,其實數(shù)據(jù)也是有偏向的。比如阿里固然有淘寶幾億用戶的消費數(shù)據(jù),但是也拿不到這幾億用戶的微信數(shù)據(jù)。而且大數(shù)據(jù)基本都是行為數(shù)據(jù),和真實態(tài)度、心理預(yù)期等等態(tài)度數(shù)據(jù)還有有差別,再有就是用相關(guān)性推測因果也有不少坑。作為非專業(yè)人士的我們,其實看報告或者看數(shù)據(jù)時主要還是留個心眼??纯从袥]有提到數(shù)據(jù)源,數(shù)據(jù)源可能帶來哪種偏差,帶著思考去看報告。如果看到一些數(shù)據(jù)結(jié)論和你的認(rèn)知有差別、甚至是相反的,不用立刻相信結(jié)論,扭轉(zhuǎn)認(rèn)知,而是先想一想這數(shù)據(jù)來源靠譜嘛,發(fā)數(shù)據(jù)的機(jī)構(gòu)有目的嗎。另外,也不用太糾結(jié)于具體數(shù)字,而是去看數(shù)字背后的趨勢、比較、差異。
2、問題缺陷剛才我們也提到大數(shù)據(jù)更多是行為數(shù)據(jù),有時要拿到態(tài)度數(shù)據(jù),還是要靠用問卷問問題的方式。在用問卷收集數(shù)據(jù)時,如何問對問題就很有講究了,比如這幾種情況:曾經(jīng)有個某飲料品牌打算推出新口味的飲品,推出前心里沒底,就做調(diào)查。他們問了一個問題“我們要推出一款口味更柔和的新產(chǎn)品,你會喜歡嗎?”數(shù)據(jù)收集回來以后,發(fā)現(xiàn)喜歡的比例高達(dá)90%,結(jié)果新品上市以后,消費者惡評如潮?,F(xiàn)實和數(shù)據(jù)體現(xiàn)了如此大的反差,原因就在于問題中有一個很明顯的正面誘導(dǎo)詞“更柔和”。所以無論是看別人的數(shù)據(jù)報告,還是自己做問卷,都得注意問的問題是不是客觀無偏向,選項是不是合理。選項一般來說要盡可能符合MECE原則。

二、數(shù)據(jù)解讀陷阱
?數(shù)據(jù)解讀可以說是遍地是坑,這里我選了比較常見和有意思的幾種。1. 相關(guān)不等于因果相關(guān)和因果是解讀數(shù)據(jù)繞不開的話題,特別是我們要用數(shù)據(jù)去預(yù)測趨勢,解決問題,用一件事的情況去推測和判斷另一件事,搞混相關(guān)和因果,就容易鬧笑話。比如:
每年冰淇淋銷量一升高,游泳溺亡人數(shù)就開始增長。所以禁止銷售冰淇淋,有助于挽救生命。
其實,事件A和事件B有相關(guān)關(guān)系,但可能有因果關(guān)系也可能沒有因果關(guān)系。這個道理說起來簡單,好像人人也都知道,但是很多時候,甚至經(jīng)驗豐富的分析人員也會在這上面犯錯。其實很多時候我們都是帶著期待,帶著目的在看數(shù)據(jù),我們希望數(shù)據(jù)能告訴我們真相,給我們解答,告訴我們?yōu)槭裁?,好讓我們做出決策。所以看到兩條曲線趨勢有規(guī)律,看到兩組數(shù)據(jù)有相關(guān),就會開始興奮,感覺自己好像抓到了答案,但這時候就往往容易過度解讀。數(shù)據(jù)只是數(shù)據(jù)而已,所謂答案其實不是數(shù)據(jù)告訴你的,而是你自己推出來的。越是這時候就越應(yīng)該冷靜一下,多思考,不要輕易下判斷。
2. 幸存者偏差還有一個特別有名的誤讀,你可能也聽說過,就是大名鼎鼎的幸存者偏差。幸存者偏差是怎么來的呢?二戰(zhàn)期間,美軍計劃在飛機(jī)上安裝厚鋼板來抵抗攻擊,提升飛行員生存率。但是因為重量限制,只能給最關(guān)鍵的部位安裝。他們仔細(xì)檢查了所有返航回來的飛機(jī)機(jī)身上的彈孔分布,發(fā)現(xiàn)大部分都位于機(jī)翼和飛機(jī)尾部。于是大家就熱火朝天準(zhǔn)備給機(jī)翼加鋼板。
但是這時候,數(shù)學(xué)家瓦爾德就站出來反對,他說要加強(qiáng)那些沒彈孔的位置,比如發(fā)動機(jī)和駕駛艙。3. 自選擇偏差有時我們自以為找到了支持自己想法的客觀數(shù)據(jù),但其實我們是先有了想法,再找數(shù)據(jù)來支持自己的想法,那些不符合我們假設(shè)的數(shù)據(jù)會被忽視掉,這就是“選擇偏差”。

4. 辛普森悖論這個就比較神奇了,我們還是先看個故事:話說有個綜合大學(xué)招生,結(jié)果招生數(shù)據(jù)一公布,男生們都表示反對:因為女生的錄取率比男生要高很多!
而事實上呢,其實明明兩類院系都是男生錄取率高,但是一加起來,就變成女生錄取率高了:
其實是因為文科院的女生錄取率拉高了女生整體錄取率,而理工科的男生錄取率拉低了男生整體錄取率。這就是辛普森悖論,兩組數(shù)據(jù)分別看時都滿足某種結(jié)果/趨勢,但加起來就呈現(xiàn)相反結(jié)果/趨勢。
三、人為操作誤導(dǎo)
?前面講的那些坑很多時候都是無意的。這部分就不太一樣了,很多數(shù)據(jù)其實稍加修飾,就成了一個個陷阱。1. 放大尺度比如你看下面這張圖,是不是增長勢頭非常猛?要是當(dāng)成業(yè)績匯報給老板豈不是分分鐘要升職加薪走上巔峰。
但其實注意Y軸,這種差異只是被人為的放大了,一旦回歸正常尺度……
2. 重新定級川普做了民調(diào),發(fā)現(xiàn)30-39歲的刁民們對自己很不友善:
這要公布出去,豈不是要在推特上被噴爆,于是將兩個層次進(jìn)行合并:
這樣一看,就好看多了。3. 提自己,不做對比。購買A類產(chǎn)品的用戶中80%都是甲類用戶,是不是就應(yīng)該給甲類用戶推薦更多A類產(chǎn)品?這個結(jié)論乍一看沒有問題,但是如果B類產(chǎn)品的用戶中90%都是甲類用戶呢?如果B類產(chǎn)品只有20%是甲類用戶,但是B類產(chǎn)品基數(shù)遠(yuǎn)大于A類呢?
很多時候,數(shù)據(jù)還是要對比才有意義。
4. 自定標(biāo)準(zhǔn)只要你敢加的標(biāo)簽足夠多,你就永遠(yuǎn)是名列前茅。雖然小明考試考了班里的40名,但是他在第四列所有身高1.7以上的學(xué)生中排第2。所以再看到有廣告聲稱自己產(chǎn)品排名怎么怎么樣,可以想一想這排名是怎么排出來的。
5. 片面釋放為什么每次平均收入一公布,大家都覺得自己拖后腿了?其實數(shù)據(jù)分布情況不一樣,平均數(shù)有時并不能描述“平均情況”。還有中位數(shù)、眾數(shù)呢。
總而言之,數(shù)據(jù)也只是數(shù)據(jù),它來幫助我們理解復(fù)雜世界中的龐大信息,但是不是萬能的,是來幫我們解釋,而不是替我們思考的,所以“盡信數(shù)據(jù),還不如無數(shù)據(jù)”。◆?◆?◆ ?◆?◆
長按二維碼關(guān)注我們
數(shù)據(jù)森麟公眾號的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。
管理員二維碼:
評論
圖片
表情
