<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          勸你們不要過度迷信數(shù)據(jù)分析!

          共 2844字,需瀏覽 6分鐘

           ·

          2020-11-21 14:56

          ↑↑↑點擊上方藍字,回復資料,10個G的驚喜

          作者:Allen Sun@zhihu

          最近有同學問了我一個很致命的問題:數(shù)據(jù)分析真的有必要做嗎?為什么感覺都是偽需求?怎么確定數(shù)據(jù)分析結(jié)論是真的?

          其實這個問題我也曾經(jīng)想過,究竟為什么很多人都在神化數(shù)據(jù)分析,遇到任何問題不管三七二十一,都要拿出數(shù)據(jù)來分析一通?

          其實,這是過度追求數(shù)據(jù)分析的表現(xiàn),數(shù)據(jù)往往不一定就是真實客觀的,做數(shù)據(jù)分析的人也會被數(shù)據(jù)給欺騙,所以很多時候太過迷信數(shù)據(jù),反而容易出問題。

          所以今天從數(shù)據(jù)來源偏差、數(shù)據(jù)解讀陷阱、人為操控誤導這三方面來聊聊數(shù)據(jù)的“坑”,希望你看完后能了解些套路,再看報告或數(shù)據(jù)時多個心眼,帶著懷疑的精神看數(shù)據(jù),不要掉入陷阱。

          一、數(shù)據(jù)來源偏差

          ?

          1、樣本量和代表性

          你可能聽說過“黑巧克力能減肥”這個說法。2015年約翰波哈諾博士在一篇期刊上登出了這項研究成果,媒體記者們紛紛轉(zhuǎn)載。Allen Sun

          但其實這個事件都是波哈諾杜撰出來的,他隨便找了16個人做樣本基數(shù),然后就推導出這么個結(jié)論,目的就是想看看謠言怎么變成權威媒體的頭條。研究發(fā)表后沒有一個記者來聯(lián)系他問他這個實驗的樣本量是多少、代表性怎么樣、過程是否合理,直接就發(fā)表和引用了“研究成果”。

          所以,樣本量和代表性是決定數(shù)據(jù)結(jié)果靠不靠譜的前提條件。

          大廠們雖然看起來有“大”數(shù)據(jù),但是由于數(shù)據(jù)孤島的存在,其實數(shù)據(jù)也是有偏向的。比如阿里固然有淘寶幾億用戶的消費數(shù)據(jù),但是也拿不到這幾億用戶的微信數(shù)據(jù)。而且大數(shù)據(jù)基本都是行為數(shù)據(jù),和真實態(tài)度、心理預期等等態(tài)度數(shù)據(jù)還有有差別,再有就是用相關性推測因果也有不少坑。

          作為非專業(yè)人士的我們,其實看報告或者看數(shù)據(jù)時主要還是留個心眼??纯从袥]有提到數(shù)據(jù)源,數(shù)據(jù)源可能帶來哪種偏差,帶著思考去看報告。

          如果看到一些數(shù)據(jù)結(jié)論和你的認知有差別、甚至是相反的,不用立刻相信結(jié)論,扭轉(zhuǎn)認知,而是先想一想這數(shù)據(jù)來源靠譜嘛,發(fā)數(shù)據(jù)的機構(gòu)有目的嗎。另外,也不用太糾結(jié)于具體數(shù)字,而是去看數(shù)字背后的趨勢、比較、差異。

          2、問題缺陷

          剛才我們也提到大數(shù)據(jù)更多是行為數(shù)據(jù),有時要拿到態(tài)度數(shù)據(jù),還是要靠用問卷問問題的方式。在用問卷收集數(shù)據(jù)時,如何問對問題就很有講究了,比如這幾種情況:

          曾經(jīng)有個某飲料品牌打算推出新口味的飲品,推出前心里沒底,就做調(diào)查。

          他們問了一個問題“我們要推出一款口味更柔和的新產(chǎn)品,你會喜歡嗎?”數(shù)據(jù)收集回來以后,發(fā)現(xiàn)喜歡的比例高達90%,結(jié)果新品上市以后,消費者惡評如潮?,F(xiàn)實和數(shù)據(jù)體現(xiàn)了如此大的反差,原因就在于問題中有一個很明顯的正面誘導詞“更柔和”。

          所以無論是看別人的數(shù)據(jù)報告,還是自己做問卷,都得注意問的問題是不是客觀無偏向,選項是不是合理。選項一般來說要盡可能符合MECE原則。

          二、數(shù)據(jù)解讀陷阱

          ?

          數(shù)據(jù)解讀可以說是遍地是坑,這里我選了比較常見和有意思的幾種。

          1. 相關不等于因果

          相關和因果是解讀數(shù)據(jù)繞不開的話題,特別是我們要用數(shù)據(jù)去預測趨勢,解決問題,用一件事的情況去推測和判斷另一件事,搞混相關和因果,就容易鬧笑話。

          比如:

          每年冰淇淋銷量一升高,游泳溺亡人數(shù)就開始增長。所以禁止銷售冰淇淋,有助于挽救生命。

          其實,事件A和事件B有相關關系,但可能有因果關系也可能沒有因果關系。

          這個道理說起來簡單,好像人人也都知道,但是很多時候,甚至經(jīng)驗豐富的分析人員也會在這上面犯錯。

          其實很多時候我們都是帶著期待,帶著目的在看數(shù)據(jù),我們希望數(shù)據(jù)能告訴我們真相,給我們解答,告訴我們?yōu)槭裁矗米屛覀冏龀鰶Q策。

          所以看到兩條曲線趨勢有規(guī)律,看到兩組數(shù)據(jù)有相關,就會開始興奮,感覺自己好像抓到了答案,但這時候就往往容易過度解讀。

          數(shù)據(jù)只是數(shù)據(jù)而已,所謂答案其實不是數(shù)據(jù)告訴你的,而是你自己推出來的。越是這時候就越應該冷靜一下,多思考,不要輕易下判斷。

          2. 幸存者偏差

          還有一個特別有名的誤讀,你可能也聽說過,就是大名鼎鼎的幸存者偏差。

          幸存者偏差是怎么來的呢?

          二戰(zhàn)期間,美軍計劃在飛機上安裝厚鋼板來抵抗攻擊,提升飛行員生存率。但是因為重量限制,只能給最關鍵的部位安裝。他們仔細檢查了所有返航回來的飛機機身上的彈孔分布,發(fā)現(xiàn)大部分都位于機翼和飛機尾部。于是大家就熱火朝天準備給機翼加鋼板。

          但是這時候,數(shù)學家瓦爾德就站出來反對,他說要加強那些沒彈孔的位置,比如發(fā)動機和駕駛艙。

          3. 自選擇偏差

          有時我們自以為找到了支持自己想法的客觀數(shù)據(jù),但其實我們是先有了想法,再找數(shù)據(jù)來支持自己的想法,那些不符合我們假設的數(shù)據(jù)會被忽視掉,這就是“選擇偏差”。

          4. 辛普森悖論

          這個就比較神奇了,我們還是先看個故事:

          話說有個綜合大學招生,結(jié)果招生數(shù)據(jù)一公布,男生們都表示反對:因為女生的錄取率比男生要高很多!

          而事實上呢,其實明明兩類院系都是男生錄取率高,但是一加起來,就變成女生錄取率高了:

          其實是因為文科院的女生錄取率拉高了女生整體錄取率,而理工科的男生錄取率拉低了男生整體錄取率。

          這就是辛普森悖論,兩組數(shù)據(jù)分別看時都滿足某種結(jié)果/趨勢,但加起來就呈現(xiàn)相反結(jié)果/趨勢。

          三、人為操作誤導

          ?

          前面講的那些坑很多時候都是無意的。這部分就不太一樣了,很多數(shù)據(jù)其實稍加修飾,就成了一個個陷阱。

          1. 放大尺度

          比如你看下面這張圖,是不是增長勢頭非常猛?要是當成業(yè)績匯報給老板豈不是分分鐘要升職加薪走上巔峰。

          但其實注意Y軸,這種差異只是被人為的放大了,一旦回歸正常尺度……

          2. 重新定級

          川普做了民調(diào),發(fā)現(xiàn)30-39歲的刁民們對自己很不友善:

          這要公布出去,豈不是要在推特上被噴爆,于是將兩個層次進行合并:

          這樣一看,就好看多了。

          3. 提自己,不做對比。

          購買A類產(chǎn)品的用戶中80%都是甲類用戶,是不是就應該給甲類用戶推薦更多A類產(chǎn)品?

          這個結(jié)論乍一看沒有問題,但是如果B類產(chǎn)品的用戶中90%都是甲類用戶呢?

          如果B類產(chǎn)品只有20%是甲類用戶,但是B類產(chǎn)品基數(shù)遠大于A類呢?

          很多時候,數(shù)據(jù)還是要對比才有意義。

          4. 自定標準

          只要你敢加的標簽足夠多,你就永遠是名列前茅。雖然小明考試考了班里的40名,但是他在第四列所有身高1.7以上的學生中排第2。

          所以再看到有廣告聲稱自己產(chǎn)品排名怎么怎么樣,可以想一想這排名是怎么排出來的。

          5. 片面釋放

          為什么每次平均收入一公布,大家都覺得自己拖后腿了?

          其實數(shù)據(jù)分布情況不一樣,平均數(shù)有時并不能描述“平均情況”。還有中位數(shù)、眾數(shù)呢。

          總而言之,數(shù)據(jù)也只是數(shù)據(jù),它來幫助我們理解復雜世界中的龐大信息,但是不是萬能的,是來幫我們解釋,而不是替我們思考的,所以“盡信數(shù)據(jù),還不如無數(shù)據(jù)”。

          看到這還沒來得及跑的同學,給個三連好嗎?

          機器學習最好的入門課程是什么?

          機器學習從 入 門 到 精 通 路 線 圖

          【干貨】統(tǒng) 計 學 × 數(shù) 據(jù) 分 析

          瀏覽 69
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  对白刺激国语子与伦 | 99在线免费 | 免费无码做爱视频 | 天天操天天摸天天看 | 天天综合~91入口 |