亚洲一级一级黄色,国产无码天美,91福利影院,性爱小说视频,亚洲在线三级片,黄色视频网站日本大全免费看,伊人久久影院,尤物视频最新网址

導(dǎo)讀：本文帶你了解數(shù)據(jù)收集的偏差。

作者：徐晟

來源：大數(shù)據(jù)DT（ID：hzdashuju）

數(shù)據(jù)收集是一項(xiàng)重要的工作，需要投入大量精力和時(shí)間，這是因?yàn)閿?shù)據(jù)質(zhì)量直接關(guān)乎分析結(jié)論的成敗。然而，錯(cuò)誤的數(shù)據(jù)收集方法可能造成結(jié)果偏差。

比如統(tǒng)計(jì)對(duì)象出現(xiàn)錯(cuò)誤，明明應(yīng)該統(tǒng)計(jì)數(shù)據(jù)集合A，卻統(tǒng)計(jì)了數(shù)據(jù)集合B。又比如統(tǒng)計(jì)對(duì)象不全面，只抽樣了部分?jǐn)?shù)據(jù)，卻沒有統(tǒng)計(jì)全體，或者忽略了數(shù)據(jù)分布存在偏斜等。

這些錯(cuò)誤的數(shù)據(jù)收集方法會(huì)產(chǎn)生兩種常見的數(shù)據(jù)偏差——幸存者偏差和選擇性偏差。

01 幸存者偏差

幸存者偏差指用于統(tǒng)計(jì)的數(shù)據(jù)僅來自幸存者，導(dǎo)致結(jié)論與實(shí)際情況存在偏差的情況。

幸存者偏差源自一個(gè)真實(shí)故事：二戰(zhàn)時(shí)期，美軍統(tǒng)計(jì)了作戰(zhàn)飛機(jī)的受損情況，他們發(fā)現(xiàn)，返航飛機(jī)各個(gè)損傷部位被擊中的彈孔數(shù)不同。這些飛機(jī)發(fā)動(dòng)機(jī)部位的彈孔數(shù)最少，機(jī)翼的彈孔數(shù)量最多。于是有人提出，要趕緊加固飛機(jī)機(jī)翼，因?yàn)檫@些部位更容易受到敵方炮火的攻擊。

可是，美國(guó)哥倫比亞大學(xué)的沃德教授立即否決了這個(gè)方案。沃德教授是一位統(tǒng)計(jì)學(xué)專家，他應(yīng)軍方要求提供相關(guān)專業(yè)建議。沃德指出，應(yīng)該強(qiáng)化的不是機(jī)翼，而是發(fā)動(dòng)機(jī)。從理論上講，飛機(jī)各部位的中彈概率應(yīng)該是相同的。發(fā)動(dòng)機(jī)部位的彈孔明顯偏少，只能說明：那些被擊中引擎的飛機(jī)大多沒有返航。

這就是幸存者偏差，軍方只看到幸存下來的飛機(jī)，卻沒有意識(shí)到它們只是一部分?jǐn)?shù)據(jù)，不能反映飛機(jī)受損的真實(shí)情況。

選擇正確的數(shù)據(jù)樣本非常重要。我們必須保證數(shù)據(jù)考察是全面的，而非其中的一部分。在很多場(chǎng)合，人們下意識(shí)地會(huì)做出具有幸存者偏差的選擇。

比如一個(gè)粗心的研究者在統(tǒng)計(jì)醫(yī)學(xué)數(shù)據(jù)時(shí)，為圖方便選擇了住院病人為研究對(duì)象，卻沒有意識(shí)到這種做法可能為研究結(jié)果帶來偏差——只有病人才去醫(yī)院。

一些成功學(xué)的書中提到，比爾·蓋茨、扎克伯格、喬布斯、埃里森等成功人士都在大學(xué)退學(xué)創(chuàng)業(yè)，似乎從大學(xué)退學(xué)更有可能獲得成功。但這只是幸存者的案例，我們從未聽到失敗者故事，更不能說明大學(xué)退學(xué)創(chuàng)業(yè)就是成功的必需特質(zhì)。

如果一項(xiàng)研究是通過已有的樣本去研究過去某個(gè)規(guī)律，那就要當(dāng)心了，因?yàn)樗苡锌赡艽嬖谛掖嬲咂睢?/span>當(dāng)我們選擇已有的樣本時(shí)，就只看到了幸存者，而忽略了沒被統(tǒng)計(jì)到的樣本。

比如，查看公司財(cái)務(wù)報(bào)表時(shí)，就已經(jīng)過濾掉了那些經(jīng)營(yíng)不善而破產(chǎn)的公司；查看老年人在醫(yī)院的診療記錄時(shí)，就默認(rèn)地排除了沒有活到老年的人群；統(tǒng)計(jì)某款手機(jī)軟件的受歡迎程度，不自覺地排除了那些買不起手機(jī)或者從未安裝過該手機(jī)軟件的人。這樣的例子比比皆是。

之所以會(huì)產(chǎn)生幸存者偏差，是因?yàn)楹芏嗳藦囊婚_始就搞錯(cuò)了統(tǒng)計(jì)樣本，只看到經(jīng)過篩選的數(shù)據(jù)，但沒有意識(shí)到篩選的過程。如果只是人為地選擇部分觀察數(shù)據(jù)，那就無法保證結(jié)論的客觀性。

要獲得“全樣本”數(shù)據(jù)絕非易事。由于認(rèn)知局限，很多人只看見了那些能看見的現(xiàn)象——比如受損的飛機(jī)、就醫(yī)的病人、成功的企業(yè)家、公司的報(bào)表，但忽略了沒有看見的真相—未返航的飛機(jī)、健康的人、失敗的創(chuàng)業(yè)者、破產(chǎn)的公司，而這些被忽略的數(shù)據(jù)同樣重要，甚至更加重要。

02 選擇性偏差

19世紀(jì)初期，人們認(rèn)為統(tǒng)計(jì)就是要追求考察對(duì)象的大而全，數(shù)據(jù)越多，結(jié)果就越準(zhǔn)。不過，想要考察大而全的總體，有時(shí)不具備操作性。于是一些統(tǒng)計(jì)學(xué)家提出了抽樣的想法，認(rèn)為只要方法得當(dāng)，就算不考察總體，也能通過研究一部分有代表性的隨機(jī)個(gè)體來推斷出總體的特征。

這些從總體中選出來的個(gè)體的集合，叫作樣本，隨機(jī)選擇的動(dòng)作叫作抽樣。統(tǒng)計(jì)學(xué)界圍繞“抽樣”這件事爭(zhēng)論了好幾十年。直到20世紀(jì)30年代，抽樣的科學(xué)性才被學(xué)術(shù)界逐漸認(rèn)可。

抽樣是一種非常好的了解大量樣本空間分布情況的方法，適用于大樣本。抽樣的對(duì)象要盡可能分散和有代表性，這樣才能體現(xiàn)出整個(gè)樣本的分布特點(diǎn)。

不過，抽樣畢竟對(duì)研究對(duì)象做了精簡(jiǎn)，因此它很可能存在樣本選擇上的偏差，即選擇性偏差。比如想要調(diào)研中年男性的健康程度，抽樣時(shí)只選了亞洲人，這個(gè)抽樣對(duì)象顯然不夠全面。又或者，調(diào)研時(shí)只收集了若干人的數(shù)據(jù)，研究樣本過少，因此得到的結(jié)論也不具備普適性。

選擇性偏差是在抽樣時(shí)出現(xiàn)的一大問題。有時(shí)，人們?yōu)榱俗C明自己的觀點(diǎn)，傾向于選擇特定的數(shù)據(jù)來支撐結(jié)論，從而忽略了其他證據(jù)。采用有偏差的抽樣數(shù)據(jù)，幾乎可以得到人們想要的任何結(jié)論。

假如在調(diào)研問卷中問這樣一個(gè)情感問題：“假如愛情可以重來，你是否還會(huì)選擇和他/她在一起？”結(jié)果會(huì)如何呢？我想多數(shù)會(huì)收到“不會(huì)”的答案。這并不是真相，只是那些回復(fù)的人群可能是“有偏的”。

因?yàn)檎{(diào)查問卷是自愿回復(fù)，所以對(duì)這個(gè)話題抱有強(qiáng)烈負(fù)面感受的人，更有可能不厭其煩地做出回應(yīng)，那些生活幸福的人也許隨手就將問卷丟進(jìn)了垃圾桶。

又比如，去高檔的購(gòu)物場(chǎng)所進(jìn)行調(diào)研，會(huì)出現(xiàn)選擇性偏差，因?yàn)槿ツ抢锵M(fèi)的人相對(duì)富有；而如果去山村調(diào)研，則很可能得出完全相反的結(jié)論。

在以上的例子中，前者由被調(diào)查的人自行決定要不要回應(yīng)，后者則由調(diào)查人員決定如何選取樣本，這兩種調(diào)查方法都會(huì)人為地影響統(tǒng)計(jì)結(jié)果。

抽樣的結(jié)論若要很好地代表整體，需要具備兩個(gè)條件：

一是樣本足夠大，根據(jù)大數(shù)定律，這樣的樣本分布更接近總體；
二是抽樣方法要正確，確保抽樣是完全隨機(jī)的，它既不受調(diào)查者的選擇影響，也不受被調(diào)查者的偏好影響。

采用隨機(jī)抽樣的方法，可以一定程度上消除對(duì)樣本選擇的偏差。

以民意調(diào)查為例，我們知道，美國(guó)的總統(tǒng)選舉永遠(yuǎn)是個(gè)熱門話題，網(wǎng)絡(luò)和媒體會(huì)密切關(guān)注，并跟蹤報(bào)道一手資料。其中一個(gè)熱門話題就是關(guān)于選舉結(jié)果的預(yù)測(cè)。由于選票會(huì)涉及不同階級(jí)、不同種族、不同利益的人和團(tuán)體，所以要調(diào)研民眾意向，抽樣時(shí)就應(yīng)該考慮兼顧各種利益團(tuán)體的樣本，否則很有可能出現(xiàn)帶有偏差或者歧視的結(jié)論。

為了調(diào)查民眾的看法、意見和心態(tài)，喬治·蓋洛普設(shè)計(jì)了一種蓋洛普民意測(cè)驗(yàn)。他根據(jù)年齡、性別、教育程度、職業(yè)、經(jīng)濟(jì)收入、宗教信仰這6個(gè)標(biāo)準(zhǔn)，在美國(guó)各州進(jìn)行抽樣問卷調(diào)查或電話訪談，然后對(duì)統(tǒng)計(jì)結(jié)果做出分析。此方法產(chǎn)生于20世紀(jì)30年代，今天仍會(huì)被使用，并且有著相當(dāng)高的權(quán)威性。

總之，抽樣要針對(duì)大樣本，保證樣本的隨機(jī)性。如果抽樣的樣本很少，或由于其他原因?qū)е铝私y(tǒng)計(jì)不充分，那么結(jié)論很可能是錯(cuò)誤的。

小結(jié)

數(shù)據(jù)樣本偏差帶來了“以偏概全”的風(fēng)險(xiǎn)，它會(huì)得出“差之毫厘，謬以千里”的錯(cuò)誤結(jié)論。過去，人們擔(dān)心小樣本導(dǎo)致統(tǒng)計(jì)誤差；而在大數(shù)據(jù)時(shí)代，這個(gè)問題并不會(huì)消失，反而變得更加復(fù)雜，也更難察覺。

幸存者偏差提醒我們，要考察所有類型的數(shù)據(jù)。選擇性偏差提醒我們，要客觀地挑選數(shù)據(jù)。前者是因?yàn)闆]有準(zhǔn)確選擇研究對(duì)象而導(dǎo)致的偏差，后者是由于沒有“公平”地挑選數(shù)據(jù)導(dǎo)致的偏差，兩者都未看清數(shù)據(jù)的全貌。

為了避免幸存者偏差，我們需要擁有全面的數(shù)據(jù)集合，而不是有意或無意地排除總體中的某個(gè)子集。為了避免選擇性偏差，我們應(yīng)該客觀地考察所有數(shù)據(jù)，而不是僅僅考慮少量的數(shù)據(jù)，或者支持既定假設(shè)的數(shù)據(jù)。

關(guān)于作者：徐晟，某商業(yè)銀行IT技術(shù)主管，畢業(yè)于上海交通大學(xué)，從事IT技術(shù)領(lǐng)域工作十余年，對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見解，專注于智能運(yùn)維（AIOps）、數(shù)據(jù)可視化、容量管理等方面工作。

本文摘編自《大話機(jī)器智能：一書看透AI的底層運(yùn)行邏輯》，經(jīng)出版方授權(quán)發(fā)布。（ISBN：9787111696193）