<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          終于有人把幸存者偏差講明白了

          共 3580字,需瀏覽 8分鐘

           ·

          2021-12-28 15:06

          導(dǎo)讀:本文帶你了解數(shù)據(jù)收集的偏差。


          作者:徐晟
          來源:大數(shù)據(jù)DT(ID:hzdashuju)





          數(shù)據(jù)收集是一項(xiàng)重要的工作,需要投入大量精力和時(shí)間,這是因?yàn)閿?shù)據(jù)質(zhì)量直接關(guān)乎分析結(jié)論的成敗。然而,錯(cuò)誤的數(shù)據(jù)收集方法可能造成結(jié)果偏差。


          比如統(tǒng)計(jì)對(duì)象出現(xiàn)錯(cuò)誤,明明應(yīng)該統(tǒng)計(jì)數(shù)據(jù)集合A,卻統(tǒng)計(jì)了數(shù)據(jù)集合B。又比如統(tǒng)計(jì)對(duì)象不全面,只抽樣了部分?jǐn)?shù)據(jù),卻沒有統(tǒng)計(jì)全體,或者忽略了數(shù)據(jù)分布存在偏斜等。


          這些錯(cuò)誤的數(shù)據(jù)收集方法會(huì)產(chǎn)生兩種常見的數(shù)據(jù)偏差——幸存者偏差選擇性偏差。



          01 幸存者偏差


          幸存者偏差指用于統(tǒng)計(jì)的數(shù)據(jù)僅來自幸存者,導(dǎo)致結(jié)論與實(shí)際情況存在偏差的情況。


          幸存者偏差源自一個(gè)真實(shí)故事:二戰(zhàn)時(shí)期,美軍統(tǒng)計(jì)了作戰(zhàn)飛機(jī)的受損情況,他們發(fā)現(xiàn),返航飛機(jī)各個(gè)損傷部位被擊中的彈孔數(shù)不同。這些飛機(jī)發(fā)動(dòng)機(jī)部位的彈孔數(shù)最少,機(jī)翼的彈孔數(shù)量最多。于是有人提出,要趕緊加固飛機(jī)機(jī)翼,因?yàn)檫@些部位更容易受到敵方炮火的攻擊。


          可是,美國(guó)哥倫比亞大學(xué)的沃德教授立即否決了這個(gè)方案。沃德教授是一位統(tǒng)計(jì)學(xué)專家,他應(yīng)軍方要求提供相關(guān)專業(yè)建議。沃德指出,應(yīng)該強(qiáng)化的不是機(jī)翼,而是發(fā)動(dòng)機(jī)。從理論上講,飛機(jī)各部位的中彈概率應(yīng)該是相同的。發(fā)動(dòng)機(jī)部位的彈孔明顯偏少,只能說明:那些被擊中引擎的飛機(jī)大多沒有返航。


          這就是幸存者偏差,軍方只看到幸存下來的飛機(jī),卻沒有意識(shí)到它們只是一部分?jǐn)?shù)據(jù),不能反映飛機(jī)受損的真實(shí)情況。


          選擇正確的數(shù)據(jù)樣本非常重要。我們必須保證數(shù)據(jù)考察是全面的,而非其中的一部分。在很多場(chǎng)合,人們下意識(shí)地會(huì)做出具有幸存者偏差的選擇。


          比如一個(gè)粗心的研究者在統(tǒng)計(jì)醫(yī)學(xué)數(shù)據(jù)時(shí),為圖方便選擇了住院病人為研究對(duì)象,卻沒有意識(shí)到這種做法可能為研究結(jié)果帶來偏差——只有病人才去醫(yī)院。


          一些成功學(xué)的書中提到,比爾·蓋茨、扎克伯格、喬布斯、埃里森等成功人士都在大學(xué)退學(xué)創(chuàng)業(yè),似乎從大學(xué)退學(xué)更有可能獲得成功。但這只是幸存者的案例,我們從未聽到失敗者故事,更不能說明大學(xué)退學(xué)創(chuàng)業(yè)就是成功的必需特質(zhì)。


          如果一項(xiàng)研究是通過已有的樣本去研究過去某個(gè)規(guī)律,那就要當(dāng)心了,因?yàn)樗苡锌赡艽嬖谛掖嬲咂睢?/span>當(dāng)我們選擇已有的樣本時(shí),就只看到了幸存者,而忽略了沒被統(tǒng)計(jì)到的樣本。


          比如,查看公司財(cái)務(wù)報(bào)表時(shí),就已經(jīng)過濾掉了那些經(jīng)營(yíng)不善而破產(chǎn)的公司;查看老年人在醫(yī)院的診療記錄時(shí),就默認(rèn)地排除了沒有活到老年的人群;統(tǒng)計(jì)某款手機(jī)軟件的受歡迎程度,不自覺地排除了那些買不起手機(jī)或者從未安裝過該手機(jī)軟件的人。這樣的例子比比皆是。


          之所以會(huì)產(chǎn)生幸存者偏差,是因?yàn)楹芏嗳藦囊婚_始就搞錯(cuò)了統(tǒng)計(jì)樣本,只看到經(jīng)過篩選的數(shù)據(jù),但沒有意識(shí)到篩選的過程。如果只是人為地選擇部分觀察數(shù)據(jù),那就無法保證結(jié)論的客觀性。


          要獲得“全樣本”數(shù)據(jù)絕非易事。由于認(rèn)知局限,很多人只看見了那些能看見的現(xiàn)象——比如受損的飛機(jī)、就醫(yī)的病人、成功的企業(yè)家、公司的報(bào)表,但忽略了沒有看見的真相—未返航的飛機(jī)、健康的人、失敗的創(chuàng)業(yè)者、破產(chǎn)的公司,而這些被忽略的數(shù)據(jù)同樣重要,甚至更加重要。




          02 選擇性偏差


          19世紀(jì)初期,人們認(rèn)為統(tǒng)計(jì)就是要追求考察對(duì)象的大而全,數(shù)據(jù)越多,結(jié)果就越準(zhǔn)。不過,想要考察大而全的總體,有時(shí)不具備操作性。于是一些統(tǒng)計(jì)學(xué)家提出了抽樣的想法,認(rèn)為只要方法得當(dāng),就算不考察總體,也能通過研究一部分有代表性的隨機(jī)個(gè)體來推斷出總體的特征。


          這些從總體中選出來的個(gè)體的集合,叫作樣本,隨機(jī)選擇的動(dòng)作叫作抽樣。統(tǒng)計(jì)學(xué)界圍繞“抽樣”這件事爭(zhēng)論了好幾十年。直到20世紀(jì)30年代,抽樣的科學(xué)性才被學(xué)術(shù)界逐漸認(rèn)可。


          抽樣是一種非常好的了解大量樣本空間分布情況的方法,適用于大樣本。抽樣的對(duì)象要盡可能分散和有代表性,這樣才能體現(xiàn)出整個(gè)樣本的分布特點(diǎn)。


          不過,抽樣畢竟對(duì)研究對(duì)象做了精簡(jiǎn),因此它很可能存在樣本選擇上的偏差,即選擇性偏差。比如想要調(diào)研中年男性的健康程度,抽樣時(shí)只選了亞洲人,這個(gè)抽樣對(duì)象顯然不夠全面。又或者,調(diào)研時(shí)只收集了若干人的數(shù)據(jù),研究樣本過少,因此得到的結(jié)論也不具備普適性。


          選擇性偏差是在抽樣時(shí)出現(xiàn)的一大問題。有時(shí),人們?yōu)榱俗C明自己的觀點(diǎn),傾向于選擇特定的數(shù)據(jù)來支撐結(jié)論,從而忽略了其他證據(jù)。采用有偏差的抽樣數(shù)據(jù),幾乎可以得到人們想要的任何結(jié)論。


          假如在調(diào)研問卷中問這樣一個(gè)情感問題:“假如愛情可以重來,你是否還會(huì)選擇和他/她在一起?”結(jié)果會(huì)如何呢?我想多數(shù)會(huì)收到“不會(huì)”的答案。這并不是真相,只是那些回復(fù)的人群可能是“有偏的”。


          因?yàn)檎{(diào)查問卷是自愿回復(fù),所以對(duì)這個(gè)話題抱有強(qiáng)烈負(fù)面感受的人,更有可能不厭其煩地做出回應(yīng),那些生活幸福的人也許隨手就將問卷丟進(jìn)了垃圾桶。


          又比如,去高檔的購(gòu)物場(chǎng)所進(jìn)行調(diào)研,會(huì)出現(xiàn)選擇性偏差,因?yàn)槿ツ抢锵M(fèi)的人相對(duì)富有;而如果去山村調(diào)研,則很可能得出完全相反的結(jié)論。


          在以上的例子中,前者由被調(diào)查的人自行決定要不要回應(yīng),后者則由調(diào)查人員決定如何選取樣本,這兩種調(diào)查方法都會(huì)人為地影響統(tǒng)計(jì)結(jié)果。


          抽樣的結(jié)論若要很好地代表整體,需要具備兩個(gè)條件:


          • 一是樣本足夠大,根據(jù)大數(shù)定律,這樣的樣本分布更接近總體;

          • 二是抽樣方法要正確,確保抽樣是完全隨機(jī)的,它既不受調(diào)查者的選擇影響,也不受被調(diào)查者的偏好影響。


          采用隨機(jī)抽樣的方法,可以一定程度上消除對(duì)樣本選擇的偏差。


          以民意調(diào)查為例,我們知道,美國(guó)的總統(tǒng)選舉永遠(yuǎn)是個(gè)熱門話題,網(wǎng)絡(luò)和媒體會(huì)密切關(guān)注,并跟蹤報(bào)道一手資料。其中一個(gè)熱門話題就是關(guān)于選舉結(jié)果的預(yù)測(cè)。由于選票會(huì)涉及不同階級(jí)、不同種族、不同利益的人和團(tuán)體,所以要調(diào)研民眾意向,抽樣時(shí)就應(yīng)該考慮兼顧各種利益團(tuán)體的樣本,否則很有可能出現(xiàn)帶有偏差或者歧視的結(jié)論。


          為了調(diào)查民眾的看法、意見和心態(tài),喬治·蓋洛普設(shè)計(jì)了一種蓋洛普民意測(cè)驗(yàn)。他根據(jù)年齡、性別、教育程度、職業(yè)、經(jīng)濟(jì)收入、宗教信仰這6個(gè)標(biāo)準(zhǔn),在美國(guó)各州進(jìn)行抽樣問卷調(diào)查或電話訪談,然后對(duì)統(tǒng)計(jì)結(jié)果做出分析。此方法產(chǎn)生于20世紀(jì)30年代,今天仍會(huì)被使用,并且有著相當(dāng)高的權(quán)威性。


          總之,抽樣要針對(duì)大樣本,保證樣本的隨機(jī)性。如果抽樣的樣本很少,或由于其他原因?qū)е铝私y(tǒng)計(jì)不充分,那么結(jié)論很可能是錯(cuò)誤的。




          小結(jié)


          數(shù)據(jù)樣本偏差帶來了“以偏概全”的風(fēng)險(xiǎn),它會(huì)得出“差之毫厘,謬以千里”的錯(cuò)誤結(jié)論。過去,人們擔(dān)心小樣本導(dǎo)致統(tǒng)計(jì)誤差;而在大數(shù)據(jù)時(shí)代,這個(gè)問題并不會(huì)消失,反而變得更加復(fù)雜,也更難察覺。


          幸存者偏差提醒我們,要考察所有類型的數(shù)據(jù)。選擇性偏差提醒我們,要客觀地挑選數(shù)據(jù)。前者是因?yàn)闆]有準(zhǔn)確選擇研究對(duì)象而導(dǎo)致的偏差,后者是由于沒有“公平”地挑選數(shù)據(jù)導(dǎo)致的偏差,兩者都未看清數(shù)據(jù)的全貌。


          為了避免幸存者偏差,我們需要擁有全面的數(shù)據(jù)集合,而不是有意或無意地排除總體中的某個(gè)子集。為了避免選擇性偏差,我們應(yīng)該客觀地考察所有數(shù)據(jù),而不是僅僅考慮少量的數(shù)據(jù),或者支持既定假設(shè)的數(shù)據(jù)。


          關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見解,專注于智能運(yùn)維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。

          本文摘編自大話機(jī)器智能:一書看透AI的底層運(yùn)行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)

          大話機(jī)器智能:一書看透AI的底層運(yùn)行邏輯
          點(diǎn)擊上圖了解及購(gòu)買
          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

          推薦語(yǔ):AI是什么?機(jī)器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現(xiàn)AI的底層運(yùn)行邏輯,即AI是如何工作的。



          劃重點(diǎn)??


          干貨直達(dá)??



          更多精彩??

          在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          讀書 | 書單 | 干貨 | 講明白 | 神操作 | 手把手
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫(kù) | Python | 爬蟲 | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺(tái) | 用戶畫像 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
          ??
          瀏覽 15
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲色基地 | 久久久黄色 | 国产+日本++变态+++另类 | 台湾精品一区二区三区最新作品 | 91久久精品日日躁欧美 |