終于有人把幸存者偏差講明白了
導(dǎo)讀:本文帶你了解數(shù)據(jù)收集的偏差。

數(shù)據(jù)收集是一項(xiàng)重要的工作,需要投入大量精力和時(shí)間,這是因?yàn)閿?shù)據(jù)質(zhì)量直接關(guān)乎分析結(jié)論的成敗。然而,錯(cuò)誤的數(shù)據(jù)收集方法可能造成結(jié)果偏差。
比如統(tǒng)計(jì)對(duì)象出現(xiàn)錯(cuò)誤,明明應(yīng)該統(tǒng)計(jì)數(shù)據(jù)集合A,卻統(tǒng)計(jì)了數(shù)據(jù)集合B。又比如統(tǒng)計(jì)對(duì)象不全面,只抽樣了部分?jǐn)?shù)據(jù),卻沒有統(tǒng)計(jì)全體,或者忽略了數(shù)據(jù)分布存在偏斜等。
這些錯(cuò)誤的數(shù)據(jù)收集方法會(huì)產(chǎn)生兩種常見的數(shù)據(jù)偏差——幸存者偏差和選擇性偏差。
01 幸存者偏差
幸存者偏差指用于統(tǒng)計(jì)的數(shù)據(jù)僅來自幸存者,導(dǎo)致結(jié)論與實(shí)際情況存在偏差的情況。
幸存者偏差源自一個(gè)真實(shí)故事:二戰(zhàn)時(shí)期,美軍統(tǒng)計(jì)了作戰(zhàn)飛機(jī)的受損情況,他們發(fā)現(xiàn),返航飛機(jī)各個(gè)損傷部位被擊中的彈孔數(shù)不同。這些飛機(jī)發(fā)動(dòng)機(jī)部位的彈孔數(shù)最少,機(jī)翼的彈孔數(shù)量最多。于是有人提出,要趕緊加固飛機(jī)機(jī)翼,因?yàn)檫@些部位更容易受到敵方炮火的攻擊。
可是,美國(guó)哥倫比亞大學(xué)的沃德教授立即否決了這個(gè)方案。沃德教授是一位統(tǒng)計(jì)學(xué)專家,他應(yīng)軍方要求提供相關(guān)專業(yè)建議。沃德指出,應(yīng)該強(qiáng)化的不是機(jī)翼,而是發(fā)動(dòng)機(jī)。從理論上講,飛機(jī)各部位的中彈概率應(yīng)該是相同的。發(fā)動(dòng)機(jī)部位的彈孔明顯偏少,只能說明:那些被擊中引擎的飛機(jī)大多沒有返航。
這就是幸存者偏差,軍方只看到幸存下來的飛機(jī),卻沒有意識(shí)到它們只是一部分?jǐn)?shù)據(jù),不能反映飛機(jī)受損的真實(shí)情況。
選擇正確的數(shù)據(jù)樣本非常重要。我們必須保證數(shù)據(jù)考察是全面的,而非其中的一部分。在很多場(chǎng)合,人們下意識(shí)地會(huì)做出具有幸存者偏差的選擇。
比如一個(gè)粗心的研究者在統(tǒng)計(jì)醫(yī)學(xué)數(shù)據(jù)時(shí),為圖方便選擇了住院病人為研究對(duì)象,卻沒有意識(shí)到這種做法可能為研究結(jié)果帶來偏差——只有病人才去醫(yī)院。
一些成功學(xué)的書中提到,比爾·蓋茨、扎克伯格、喬布斯、埃里森等成功人士都在大學(xué)退學(xué)創(chuàng)業(yè),似乎從大學(xué)退學(xué)更有可能獲得成功。但這只是幸存者的案例,我們從未聽到失敗者故事,更不能說明大學(xué)退學(xué)創(chuàng)業(yè)就是成功的必需特質(zhì)。
如果一項(xiàng)研究是通過已有的樣本去研究過去某個(gè)規(guī)律,那就要當(dāng)心了,因?yàn)樗苡锌赡艽嬖谛掖嬲咂睢?/span>當(dāng)我們選擇已有的樣本時(shí),就只看到了幸存者,而忽略了沒被統(tǒng)計(jì)到的樣本。
比如,查看公司財(cái)務(wù)報(bào)表時(shí),就已經(jīng)過濾掉了那些經(jīng)營(yíng)不善而破產(chǎn)的公司;查看老年人在醫(yī)院的診療記錄時(shí),就默認(rèn)地排除了沒有活到老年的人群;統(tǒng)計(jì)某款手機(jī)軟件的受歡迎程度,不自覺地排除了那些買不起手機(jī)或者從未安裝過該手機(jī)軟件的人。這樣的例子比比皆是。
之所以會(huì)產(chǎn)生幸存者偏差,是因?yàn)楹芏嗳藦囊婚_始就搞錯(cuò)了統(tǒng)計(jì)樣本,只看到經(jīng)過篩選的數(shù)據(jù),但沒有意識(shí)到篩選的過程。如果只是人為地選擇部分觀察數(shù)據(jù),那就無法保證結(jié)論的客觀性。
要獲得“全樣本”數(shù)據(jù)絕非易事。由于認(rèn)知局限,很多人只看見了那些能看見的現(xiàn)象——比如受損的飛機(jī)、就醫(yī)的病人、成功的企業(yè)家、公司的報(bào)表,但忽略了沒有看見的真相—未返航的飛機(jī)、健康的人、失敗的創(chuàng)業(yè)者、破產(chǎn)的公司,而這些被忽略的數(shù)據(jù)同樣重要,甚至更加重要。

02 選擇性偏差
19世紀(jì)初期,人們認(rèn)為統(tǒng)計(jì)就是要追求考察對(duì)象的大而全,數(shù)據(jù)越多,結(jié)果就越準(zhǔn)。不過,想要考察大而全的總體,有時(shí)不具備操作性。于是一些統(tǒng)計(jì)學(xué)家提出了抽樣的想法,認(rèn)為只要方法得當(dāng),就算不考察總體,也能通過研究一部分有代表性的隨機(jī)個(gè)體來推斷出總體的特征。
這些從總體中選出來的個(gè)體的集合,叫作樣本,隨機(jī)選擇的動(dòng)作叫作抽樣。統(tǒng)計(jì)學(xué)界圍繞“抽樣”這件事爭(zhēng)論了好幾十年。直到20世紀(jì)30年代,抽樣的科學(xué)性才被學(xué)術(shù)界逐漸認(rèn)可。
抽樣是一種非常好的了解大量樣本空間分布情況的方法,適用于大樣本。抽樣的對(duì)象要盡可能分散和有代表性,這樣才能體現(xiàn)出整個(gè)樣本的分布特點(diǎn)。
不過,抽樣畢竟對(duì)研究對(duì)象做了精簡(jiǎn),因此它很可能存在樣本選擇上的偏差,即選擇性偏差。比如想要調(diào)研中年男性的健康程度,抽樣時(shí)只選了亞洲人,這個(gè)抽樣對(duì)象顯然不夠全面。又或者,調(diào)研時(shí)只收集了若干人的數(shù)據(jù),研究樣本過少,因此得到的結(jié)論也不具備普適性。
選擇性偏差是在抽樣時(shí)出現(xiàn)的一大問題。有時(shí),人們?yōu)榱俗C明自己的觀點(diǎn),傾向于選擇特定的數(shù)據(jù)來支撐結(jié)論,從而忽略了其他證據(jù)。采用有偏差的抽樣數(shù)據(jù),幾乎可以得到人們想要的任何結(jié)論。
假如在調(diào)研問卷中問這樣一個(gè)情感問題:“假如愛情可以重來,你是否還會(huì)選擇和他/她在一起?”結(jié)果會(huì)如何呢?我想多數(shù)會(huì)收到“不會(huì)”的答案。這并不是真相,只是那些回復(fù)的人群可能是“有偏的”。
因?yàn)檎{(diào)查問卷是自愿回復(fù),所以對(duì)這個(gè)話題抱有強(qiáng)烈負(fù)面感受的人,更有可能不厭其煩地做出回應(yīng),那些生活幸福的人也許隨手就將問卷丟進(jìn)了垃圾桶。
又比如,去高檔的購(gòu)物場(chǎng)所進(jìn)行調(diào)研,會(huì)出現(xiàn)選擇性偏差,因?yàn)槿ツ抢锵M(fèi)的人相對(duì)富有;而如果去山村調(diào)研,則很可能得出完全相反的結(jié)論。
在以上的例子中,前者由被調(diào)查的人自行決定要不要回應(yīng),后者則由調(diào)查人員決定如何選取樣本,這兩種調(diào)查方法都會(huì)人為地影響統(tǒng)計(jì)結(jié)果。
抽樣的結(jié)論若要很好地代表整體,需要具備兩個(gè)條件:
一是樣本足夠大,根據(jù)大數(shù)定律,這樣的樣本分布更接近總體;
二是抽樣方法要正確,確保抽樣是完全隨機(jī)的,它既不受調(diào)查者的選擇影響,也不受被調(diào)查者的偏好影響。
采用隨機(jī)抽樣的方法,可以一定程度上消除對(duì)樣本選擇的偏差。
以民意調(diào)查為例,我們知道,美國(guó)的總統(tǒng)選舉永遠(yuǎn)是個(gè)熱門話題,網(wǎng)絡(luò)和媒體會(huì)密切關(guān)注,并跟蹤報(bào)道一手資料。其中一個(gè)熱門話題就是關(guān)于選舉結(jié)果的預(yù)測(cè)。由于選票會(huì)涉及不同階級(jí)、不同種族、不同利益的人和團(tuán)體,所以要調(diào)研民眾意向,抽樣時(shí)就應(yīng)該考慮兼顧各種利益團(tuán)體的樣本,否則很有可能出現(xiàn)帶有偏差或者歧視的結(jié)論。
為了調(diào)查民眾的看法、意見和心態(tài),喬治·蓋洛普設(shè)計(jì)了一種蓋洛普民意測(cè)驗(yàn)。他根據(jù)年齡、性別、教育程度、職業(yè)、經(jīng)濟(jì)收入、宗教信仰這6個(gè)標(biāo)準(zhǔn),在美國(guó)各州進(jìn)行抽樣問卷調(diào)查或電話訪談,然后對(duì)統(tǒng)計(jì)結(jié)果做出分析。此方法產(chǎn)生于20世紀(jì)30年代,今天仍會(huì)被使用,并且有著相當(dāng)高的權(quán)威性。
總之,抽樣要針對(duì)大樣本,保證樣本的隨機(jī)性。如果抽樣的樣本很少,或由于其他原因?qū)е铝私y(tǒng)計(jì)不充分,那么結(jié)論很可能是錯(cuò)誤的。

小結(jié)
數(shù)據(jù)樣本偏差帶來了“以偏概全”的風(fēng)險(xiǎn),它會(huì)得出“差之毫厘,謬以千里”的錯(cuò)誤結(jié)論。過去,人們擔(dān)心小樣本導(dǎo)致統(tǒng)計(jì)誤差;而在大數(shù)據(jù)時(shí)代,這個(gè)問題并不會(huì)消失,反而變得更加復(fù)雜,也更難察覺。
幸存者偏差提醒我們,要考察所有類型的數(shù)據(jù)。選擇性偏差提醒我們,要客觀地挑選數(shù)據(jù)。前者是因?yàn)闆]有準(zhǔn)確選擇研究對(duì)象而導(dǎo)致的偏差,后者是由于沒有“公平”地挑選數(shù)據(jù)導(dǎo)致的偏差,兩者都未看清數(shù)據(jù)的全貌。
為了避免幸存者偏差,我們需要擁有全面的數(shù)據(jù)集合,而不是有意或無意地排除總體中的某個(gè)子集。為了避免選擇性偏差,我們應(yīng)該客觀地考察所有數(shù)據(jù),而不是僅僅考慮少量的數(shù)據(jù),或者支持既定假設(shè)的數(shù)據(jù)。


干貨直達(dá)??
