<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          因果推斷的3種偏差

          共 2008字,需瀏覽 5分鐘

           ·

          2022-01-11 14:52

          因果關(guān)系試圖回答的是 what-if 的問題,當(dāng)且僅當(dāng)保持其他條件不變,如果改變 X 后,Y 的取值改變,則 X 和 Y 有因果關(guān)系,X 導(dǎo)致了 Y。因果關(guān)系必然造成相關(guān)關(guān)系,但是相關(guān)關(guān)系未必就是因果關(guān)系,如果不注意對因果關(guān)系和相關(guān)關(guān)系進行區(qū)分,很容易做出錯誤的判斷。

          1、兩種分析悖論

          辛普森悖論

          辛普森悖論是指兩個變量 X 和 Y 在每個分組中的關(guān)系是正(負),但在總體中關(guān)系會發(fā)生逆轉(zhuǎn)變成負(正)。假設(shè)要研究某種藥物的療效,數(shù)據(jù)里有 30 歲和 40 歲兩組人,每組都有服藥與未服藥的個體,觀測數(shù)據(jù)如下。

          在分組中,服藥與健康狀況呈正相關(guān),在總體指數(shù)中服藥與健康指數(shù)呈現(xiàn)負相關(guān),為什么總體的結(jié)果和分組的結(jié)果不一樣?哪一種相關(guān)性才能反映服藥對健康的因果效應(yīng)?

          從上可以看出,未服藥的人大多數(shù)是 30 歲且健康狀況較佳的個體,服藥者大多數(shù)是 40 歲且健康狀況較差的個體,因此用總體數(shù)據(jù)去比較服藥者和未服藥者的平均狀況時,占大多數(shù) 30 歲未服藥者的健康狀況決定了總體未服藥的平均健康狀況,占大多數(shù) 30 歲服藥者的健康狀況決定了總體服藥的平均健康狀況,造成總體斜率逆轉(zhuǎn)為負。總體數(shù)據(jù)的比較結(jié)果不完全取決于服藥的因果效果,其中還包含年齡因素造成的健康狀況差異,總體數(shù)據(jù)的比較結(jié)果未對個體年齡的因素進行控制,造成服藥效果中混入個體年齡的影響。

          詳細案例:人工智能之辛普森悖論:解密撒謊的數(shù)據(jù)[1]

          伯克森悖論

          是指兩個本來無關(guān)的變量之間體現(xiàn)出貌似強烈的相關(guān)關(guān)系。伯克森悖論是美國醫(yī)生和統(tǒng)計學(xué)家約瑟夫·伯克森在 1946 年提出的一個命題。他在研究中發(fā)現(xiàn):醫(yī)院中患有糖尿病的人群中,同時患膽囊炎的人數(shù)較少;而沒有糖尿病的人群中,患膽囊炎的人數(shù)比例則比較高。這似乎可以說明患有糖尿病可以幫助病人減少患膽囊炎的概率,但事實上這個結(jié)論是錯誤的。伯克森悖論的原因是統(tǒng)計樣本時,只選擇了住院的病人,卻忽略了更多的沒有住院的樣本。正是由于統(tǒng)計數(shù)據(jù)不夠全面,才會導(dǎo)致兩個本來無關(guān)的變量之間表現(xiàn)出貌似緊密的相關(guān)關(guān)系。

          2、因果關(guān)系的三種路徑

          因果路徑(避免過度控制偏差)

          因果路徑是從解釋變量指向被解釋變量的路徑,其特點是所有箭頭指向同一方向,如 X→Z→Y,這種接合形式是被稱為“鏈”接合或中介接合。

          一個熟悉的例子是“火災(zāi)→煙霧→警報”。雖然我們稱這個系統(tǒng)為“火災(zāi)警報”,但實際上它應(yīng)該叫煙霧報警。火災(zāi)本身并沒有引起警報,所以這里也就沒有從火災(zāi)直接指向警報的箭頭?;馂?zāi)也不會通過任何其他的變量,比如高溫來引發(fā)警報,只有火災(zāi)向空氣中釋放的煙霧分子才會觸發(fā)警報。假如一旦我們知道了煙霧的“值”,關(guān)于火的任何新信息便不會再以任何理由讓我們增強或削弱對警報的信念,我們就可以說火災(zāi)和警報是條件獨立的,在這種情況下,中介物Z屏蔽了從X到Y(jié)的信息信息,應(yīng)該避免過度控制。

          混淆路徑(避免混淆偏差)

          混淆路徑是指解釋變量 X 與被解釋變量 Y 之間存在混淆變量的路徑,如 X←Z→Y。這種接合形式被稱為“叉”接合,Z 通常被視作 X 和 Y 的共因或混雜因子。混雜因子會使X和Y在統(tǒng)計學(xué)上發(fā)生關(guān)聯(lián),即使它們之間并沒有直接的因果關(guān)系。

          一個好例子是“鞋的尺碼←孩子的年齡→閱讀能力”??梢杂^察到,穿較大碼的鞋的孩子往往閱讀能力較強,但這種關(guān)系是非因果的,給孩子穿大一號的鞋不會讓他有更強的閱讀能力,相反,這兩個變量的變化都可以通過第三個變量,即孩子的年齡來解釋。越年長的孩子鞋碼越大,他們的閱讀能力也越強。我們可以通過“以孩子的年齡為條件”這一操作來消除這種虛假關(guān)聯(lián)。例如,如果我們只看年齡為“七歲”的孩子,我們就會發(fā)現(xiàn)這些孩子的鞋碼和閱讀能力之間沒有關(guān)系。

          對撞路徑(避免內(nèi)生性選擇偏差)

          對撞路徑是包含對撞變量的路徑,對撞變量是被兩個變量共同影響的變量,如路徑 X→Y←Z。也被稱作“對撞”(collider)接合,對撞路徑并不會造成兩個變量相關(guān),但如果給定了兩個變量的對撞變量,會造成兩個本不相關(guān)的變量之間產(chǎn)生相關(guān)關(guān)系。

          是否中槍和是否中風(fēng)是沒有關(guān)系的,但是他們都會決定死亡,如果給定對撞變量是否死亡,就會發(fā)現(xiàn)是否中槍和是否中風(fēng)是相關(guān)的。

          由于因果關(guān)系通常無法被直接觀測到,我們只能通過變量間的相關(guān)性去推測因果關(guān)系,因此從路徑的角度看,因果分析的本質(zhì)就是發(fā)現(xiàn)因果路徑,截斷混淆路徑,避免對撞路徑產(chǎn)生的衍生路徑。

          參考資料

          [1]

          人工智能之辛普森悖論:解密撒謊的數(shù)據(jù): https://teahouse.fifty-five.com/zh-hans/simpson-paradox-or-how-to-make-numbers-lie/

          瀏覽 423
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品激情无码视频小说 | 久久久久久久久国产精品视频 | 青春草免费在线视频 | 超碰97在线免费观看 | 中文字幕在线官网 |