<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          獨(dú)家 | 每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該熟悉的 5 個(gè)統(tǒng)計(jì)學(xué)悖論

          共 4195字,需瀏覽 9分鐘

           ·

          2023-08-20 22:32

          ad974e750e3f3bfb85a673752bc6ae22.webp
              

          翻譯:潘玏妤

          校對(duì):趙茹萱

          本文約3200字,建議閱讀5分鐘 本文 我們將探討每個(gè)數(shù)據(jù)科學(xué)工作者都應(yīng)該熟悉的5個(gè)統(tǒng)計(jì)學(xué)悖論。


          摘要:統(tǒng)計(jì)是數(shù)據(jù)科學(xué)的一個(gè)重要部分,它為我們分析和理解數(shù)據(jù)提供了各種工具和技術(shù)。然而,有時(shí)通過統(tǒng)計(jì)得出的結(jié)果會(huì)違背我們的直覺,甚至自相矛盾,從而引起人們的困惑與誤解。在這篇博客里,我們將探討每個(gè)數(shù)據(jù)科學(xué)工作者都應(yīng)該熟悉的5個(gè)統(tǒng)計(jì)學(xué)悖論。我們也將解釋每個(gè)悖論是什么,為什么會(huì)發(fā)生,以及如何避免落入它的常見陷阱。讀完本博客,你將對(duì)統(tǒng)計(jì)分析中可能出現(xiàn)的一些奇怪和預(yù)想之外的結(jié)果有更好的理解,從而能更好地在項(xiàng)目中處理它們。
          目錄
          1.Accuracy Paradox    準(zhǔn)確度悖論 2.False Positive Paradox    假陽性悖論 3.Gambler’s Fallacy    賭徒謬誤 4.Simpson’s Paradox    辛普森悖論 5.Berkson’s Paradox    伯克森悖論 6.Conclusion    總結(jié)


          1.Accuracy Paradox    準(zhǔn)確度悖論


          準(zhǔn)確度悖論是指即使模型不具有預(yù)測(cè)性,也有可能得到具有高準(zhǔn)確度的結(jié)果。這種情況常發(fā)生在數(shù)據(jù)集中的類的分布不平衡時(shí)。例如,給定一個(gè)數(shù)據(jù)集,其中90%的觀察值屬于一類,而剩下的10%屬于另一類。那么預(yù)測(cè)所有觀察值的多數(shù)類(majority class)的模型將有90%的準(zhǔn)確度,即使它實(shí)際上不具備預(yù)測(cè)任何東西的能力。
          接下來我們通過一個(gè)Python實(shí)例來解釋上述內(nèi)容:

          3363cf71e3bd5004f6041cd47de9c67c.webp



          在本例中,我們創(chuàng)建了一個(gè)包含兩個(gè)類的不平衡數(shù)據(jù)集。它的一個(gè)類中有900個(gè)觀察值(0),而另一個(gè)類中只有100個(gè)觀察值(1)。然后,我們創(chuàng)建一個(gè)模型來預(yù)測(cè)所有觀察值的多數(shù)類(0)。盡管實(shí)際上沒有預(yù)測(cè)任何東西(只是一個(gè)包含1000個(gè)0的數(shù)組),這個(gè)模型達(dá)到了90%的準(zhǔn)確度。
          在醫(yī)學(xué)測(cè)試中可以找到一些準(zhǔn)確度悖論的真實(shí)案例。假設(shè)有一種患病概率為十萬分之一的罕見病。如果創(chuàng)建了一個(gè)在檢測(cè)疾病方面有99.9%準(zhǔn)確度的測(cè)試,并將其提供給只有0.1%的患病人群,則該測(cè)試將具有99.9%的高準(zhǔn)確率。然而,它將導(dǎo)致大量的假陽性(False Positive),也就是說,許多健康人將被錯(cuò)誤地診斷為患有該疾病。
          精確度和召回率在評(píng)估分類任務(wù)的表現(xiàn)上比準(zhǔn)確度更好。而這兩個(gè)指標(biāo)(精確度和召回率)與我們下一節(jié)討論的假陽性悖論有關(guān)。
          2.False Positive Paradox    假陽性悖論


          當(dāng)模型具有高準(zhǔn)確度和高假陽率時(shí),假陽性悖論就會(huì)發(fā)生。也就是說,當(dāng)大量樣本實(shí)際上是陰性時(shí),該模型可能將它們分類為陽性(即假陽。假陽率(False Positive Rate, FPR):檢測(cè)出來的假陽性樣本數(shù)除以所有真實(shí)陰性樣本數(shù))。這個(gè)悖論會(huì)導(dǎo)致錯(cuò)誤的結(jié)論和決策。
          Python解釋假陽性悖論的簡(jiǎn)單示例:

          c2730edbefc98ab23b6e2c09e225a9ea.webp


          例如,想象一個(gè)病患占總?cè)丝?%的疾病的醫(yī)學(xué)測(cè)試。如果該測(cè)試有99%的準(zhǔn)確率,則它有99%的概率正確識(shí)別疾病的存在或不存在。但倘若對(duì)1000人進(jìn)行檢測(cè),那么將會(huì)有10人被測(cè)出陽性,盡管事實(shí)上只有1人患病。這意味著陽性測(cè)試結(jié)果更可能是假陽性而不是真陽性。


          下面是另一個(gè)針對(duì)假陽性悖論的Python代碼示例:


          bbb898edc4effce3a5eece9ccec46dfc.webp


          在這種情況下,精確度和召回率是評(píng)估模型性能的更好方法。精確度評(píng)估所有陽性分類中真陽性的比例,而召回率評(píng)估所有實(shí)際陽性實(shí)例中真陽性的比例。這些措施可以幫助避免假陽性悖論,對(duì)模型性能進(jìn)行更準(zhǔn)確的評(píng)估。
          3.Gambler’s Fallacy    賭徒謬誤


          賭徒謬誤是相信過去的事件可以在隨機(jī)過程中影響未來事件的概率。例如,在輪盤游戲中,一些玩家認(rèn)為,如果球連續(xù)幾次旋轉(zhuǎn)都落在黑色上,那么下次它落在紅色上的幾率會(huì)更高,盡管結(jié)果依舊是隨機(jī)的。
          我們可以借助Python中的numpy模擬投擲一枚公平的硬幣來說明這一點(diǎn):

          41b2650751a893eaf4ba2b5f17e2a568.webp


          在上面的例子中,代碼模擬投擲硬幣10次并計(jì)算連續(xù)正面或反面的數(shù)量。賭徒謬誤認(rèn)為,如果連續(xù)出現(xiàn)了幾個(gè)正面,那么下一次的結(jié)果更有可能是反面,反之亦然。然而,在現(xiàn)實(shí)中,硬幣的每一次翻轉(zhuǎn)都是獨(dú)立的,并且有相同的概率產(chǎn)生正面或反面。
          賭徒謬誤會(huì)在股票市場(chǎng)等生活場(chǎng)景中出現(xiàn)。一些投資者可能認(rèn)為,如果一只股票的價(jià)值連續(xù)幾天持續(xù)上漲,之后它就更有可能下跌,盡管市場(chǎng)運(yùn)動(dòng)其實(shí)仍然是內(nèi)在不可預(yù)測(cè)的,并受一系列因素的影響。
          4.Simpson’s Paradox    辛普森悖論
          辛普森悖論是指在一個(gè)具有某種趨勢(shì)的數(shù)據(jù)集中,倘若我們把這個(gè)數(shù)據(jù)集分成許多子數(shù)據(jù)集,那么原趨勢(shì)會(huì)消失或子數(shù)據(jù)集呈現(xiàn)的趨勢(shì)與原趨勢(shì)相反。如果數(shù)據(jù)被錯(cuò)誤處理與分析,這可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。
          我們通過一個(gè)例子來更好地理解這一現(xiàn)象。假設(shè)我們想比較一所大學(xué)男女申請(qǐng)者的錄取率。已知我們有兩個(gè)院系的數(shù)據(jù):院系A(chǔ)和院系B。


          b0be80740f94220fc8c041dfe9fd4e85.webp


          在上表中,男女申請(qǐng)者的綜合錄取率為50%。但是,當(dāng)我們按院系分析數(shù)據(jù)時(shí),可以發(fā)現(xiàn),在每個(gè)院系中,女性的錄取率都高于男性。這似乎違背了我們的直覺,因?yàn)槟行缘恼w錄取率更高。
          出現(xiàn)這種悖論是因?yàn)槊總€(gè)院系的申請(qǐng)人數(shù)和錄取率都不一樣。院系A(chǔ)整體錄取率較高,但女性申請(qǐng)者比例較低。院系B整體錄取率較低,但女性申請(qǐng)者比例較高。
          在Python中,我們可以使用以下代碼演示這個(gè)示例:

          12e432b9de783a22bbb3c227322b61af.webp


          在代碼中,我們用上表中的數(shù)據(jù)創(chuàng)建了一個(gè)dataframe,計(jì)算錄取率并顯示數(shù)據(jù)圖表。然后計(jì)算整體錄取率,得出為19.44%。最后,我們將數(shù)據(jù)按院系和性別分組,并計(jì)算每個(gè)分組的錄取率。我們看到兩個(gè)院系的女性錄取率都較高,盡管男性的整體錄取率較高。這是辛普森悖論的一個(gè)例子。
          5.Berkson’s Paradox    伯克森悖論


          伯克森悖論是指當(dāng)兩個(gè)(獨(dú)立)變量之間出現(xiàn)/存在負(fù)相關(guān)時(shí),如果觀察由原數(shù)據(jù)分成的子數(shù)據(jù)集,這兩個(gè)變量之間可能會(huì)出現(xiàn)正相關(guān)或無實(shí)際相關(guān)性的統(tǒng)計(jì)學(xué)現(xiàn)象。在分析中如果沒考慮這兩個(gè)獨(dú)立變量的共因或共果,伯克森悖論就會(huì)發(fā)生。
          我們將萼片長度和寬度作為兩個(gè)感興趣的變量,使用鳶尾花數(shù)據(jù)集來解釋這個(gè)悖論。 首先,可以在pandas中使用corr()方法計(jì)算這兩個(gè)變量之間的相關(guān)系數(shù):

          8f557998d1cf167330e73a6b0c6ca975.webp


          如結(jié)果所示,在整個(gè)數(shù)據(jù)集中,萼片長度和寬度之間存在負(fù)相關(guān)。
          然而,如果我們按品種分割數(shù)據(jù)集并分別計(jì)算每個(gè)品種的相關(guān)系數(shù),我們可能會(huì)得到不同的結(jié)果。比如,如果我們只考慮setosa,我們會(huì)得到一個(gè)正相關(guān):

          044c17b9d0778df8a26281ff5c68fa23.webp


          這意味著setosa的萼片長度和寬度之間存在正相關(guān),這與總體負(fù)相關(guān)相反。
          這種矛盾的出現(xiàn)是因?yàn)閟etosa的萼片長度和寬度的數(shù)值范圍比其他品種小。因此,當(dāng)我們只考慮setosa時(shí),整個(gè)數(shù)據(jù)集內(nèi)的負(fù)相關(guān)性被setosa內(nèi)的正相關(guān)性所掩蓋。
          6.Conclusion    結(jié)論


          總的來說,理解統(tǒng)計(jì)學(xué)悖論對(duì)數(shù)據(jù)科學(xué)家來說至關(guān)重要,因?yàn)樗鼈兛梢詭椭苊鈹?shù)據(jù)分析中的常見錯(cuò)誤和偏見。
          1. 準(zhǔn)確度悖論告訴我們,僅僅依靠準(zhǔn)確度不足以評(píng)估分類任務(wù),精確度和召回率能提供更多有價(jià)值的信息; 2.假陽性悖論強(qiáng)調(diào)了理解假陽性相對(duì)于假陰性的重要性; 3.賭徒謬誤提醒我們,每個(gè)事件都是獨(dú)立的,過去的結(jié)果不會(huì)影響未來; 4.辛普森悖論表明:整體數(shù)據(jù)有可能掩蓋細(xì)節(jié)變量之間的關(guān)系,從而導(dǎo)致錯(cuò)誤的結(jié)論; 5.最后,伯克森悖論顯示了從總體中選取非隨機(jī)樣本時(shí),抽樣偏差是如何發(fā)生的。


          原文標(biāo)題: 5 Paradoxes in Statistics Every Data Scientist Should be Familiar With 原文鏈接: https://pub.towardsai.net/5-paradoxes-in-statistics-every-data-scientist-should-be-familiar-with-478b74310099
          編輯:王菁



          譯者簡(jiǎn)介




          潘玏妤,流連于劇院和美術(shù)館的CS本科生,沉迷于AI與數(shù)據(jù)科學(xué)相關(guān)學(xué)術(shù)前沿信息的古典音樂愛好者。

          翻譯組招募信息

          工作內(nèi)容: 需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z水平有信心的朋友歡迎加入翻譯小組。

          你能得到: 定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對(duì)于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來好的發(fā)展機(jī)遇。

          其他福利: 來自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。


          點(diǎn)擊文末“ 閱讀原文 ”加入數(shù)據(jù)派團(tuán)隊(duì)~



          轉(zhuǎn)載須知

          如需轉(zhuǎn)載,請(qǐng)?jiān)陂_篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標(biāo)識(shí)文章,請(qǐng)發(fā)送【文章名稱-待授權(quán)公眾號(hào)名稱及ID】至聯(lián)系郵箱,申請(qǐng)白名單授權(quán)并按要求編輯。

          發(fā)布后請(qǐng)將鏈接反饋至聯(lián)系郵箱(見下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責(zé)任。



          點(diǎn)擊 “閱讀原文” 擁抱組織



          瀏覽 58
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲日韩国产剧情自制在线观看 | 波多野结衣久久精品 | 天天操天天干天天爱 | 婷婷内射视频 | 欧美一区二区在线 |