<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          丁鵬:多角度回顧因果推斷的模型方法

          共 33357字,需瀏覽 67分鐘

           ·

          2021-09-17 14:04

          來源:集智俱樂部

          本文約23000字,建議閱讀20+分鐘 
          本文整理自丁鵬老師的8篇短文,從多角度回顧了因果推斷的各種模型方法。


          [ 導(dǎo)讀 ] 推斷因果關(guān)系,是人類思想史與科學(xué)史上的重要主題?,F(xiàn)代因果推斷的研究,始于約爾-辛普森悖論,經(jīng)由魯賓因果模型、隨機(jī)試驗(yàn)等改進(jìn),到朱力亞·珀?duì)柕囊蚬锩?,如今因果科學(xué)與人工智能的結(jié)合正掀起熱潮。


          目錄


          1. 因果推斷簡介之一:從 Yule-Simpson’s Paradox 講起
          2. 因果推斷簡介之二:Rubin Causal Model (RCM) 和隨機(jī)化試驗(yàn)
          3. 因果推斷簡介之三:R. A. Fisher 和 J. Neyman 的分歧
          4. 因果推斷簡介之四:觀察性研究,可忽略性和傾向得分
          5. 因果推斷簡介之五:因果圖 (Causal Diagram)
          6. 因果推斷簡介之六:工具變量(instrumental variable)
          7. 因果推斷簡介之七:Lord’s Paradox
          8. 因果推斷簡介之八:吸煙是否導(dǎo)致肺癌?Fisher versus Cornfield


          1. 因果推斷簡介之一:
          從 Yule-Simpson’s Paradox 講起


          在國內(nèi)的時(shí)候,向別人介紹自己是研究因果推斷(causal inference)的,多半的反應(yīng)是:什么?統(tǒng)計(jì)還能研究因果?這確實(shí)是一個問題:統(tǒng)計(jì)研究因果,能、還是不能?直接給出回答,比較冒險(xiǎn);如果有可能,我需要花一些篇幅來闡述這個問題。


          目前市面上能夠買到的相關(guān)教科書僅有 2011 年圖靈獎得主 Judea Pearl 的 Causality: Models, Reasoning, and Inference。Harvard 的統(tǒng)計(jì)學(xué)家 Donald Rubin 和 計(jì)量經(jīng)濟(jì)學(xué)家 Guido Imbens 合著的教科書歷時(shí)多年仍尚未完成;Harvard 的流行病學(xué)家 James Robins 和他的同事也在寫一本因果推斷的教科書,本書目前只完成了第一部分,還未出版。我本人學(xué)習(xí)因果推斷是從 Judea Pearl 的教科書入手的,不過這本書晦澀難懂,實(shí)在不適合作為入門的教科書。Donald Rubin 對 Judea Pearl 提出的因果圖模型(causal diagram)非常反對,他的教科書中杜絕使用因果圖模型。我本人雖然腦中習(xí)慣用圖模型進(jìn)行思考,但是還是更偏好 Donald Rubin 的風(fēng)格,因?yàn)檫@對于入門者,可能更容易。不過這一節(jié),先從一個例子出發(fā),不引進(jìn)新的統(tǒng)計(jì)符號和概念。



          天才的高斯在研究天文學(xué)時(shí),首次引進(jìn)了最大似然和最小二乘的思想,并且導(dǎo)出了正態(tài)分布(或稱高斯分布)。其中最大似然有些爭議,比如 Arthur Dempster 教授說,其實(shí)高斯那里的似然,有貝葉斯或者信仰推斷(fiducial inference)的成分。高斯那里的 “統(tǒng)計(jì)” 是關(guān)于 “誤差” 的理論,因?yàn)樗芯康膶ο笫?“物理模型” 加“隨機(jī)誤差”。大約在 100 多年前,F(xiàn)rancis Galton 研究了父母身高和子女身高的 “關(guān)系”,提出了“(向均值)回歸” 的概念。眾所周知,他用的是線性回歸模型。此時(shí)的模型不再是嚴(yán)格意義的“物理模型”,而是“統(tǒng)計(jì)模型” — 用于刻畫變量之間的關(guān)系,而不一定是物理機(jī)制。之后,Karl Pearson 提出了“相關(guān)系數(shù)”(correlation coefficient)。


          后世研究的統(tǒng)計(jì),大多是關(guān)于 “相關(guān)關(guān)系” 的理論。但是關(guān)于 “因果關(guān)系” 的統(tǒng)計(jì)理論,非常稀少。據(jù) Judea Pearl 說,Karl Pearson 明確的反對用統(tǒng)計(jì)研究因果關(guān)系;有意思的是,后來因果推斷為數(shù)不多的重要文章(如 Rosenbaum and Rubin 1983; Pearl 1995都發(fā)表在由 Karl Pearson 創(chuàng)刊的 Biometrika 上。下面講到的悖論,可以說是困擾統(tǒng)計(jì)的根本問題,我學(xué)習(xí)因果推斷便是由此入門的。


          在高維列聯(lián)表分析中, 有一個很有名的例子,叫做 Yule-Simpson’s Paradox。有文獻(xiàn)稱,Karl Pearson 很早就發(fā)現(xiàn)了這個悖論 ——也許這正是他反對統(tǒng)計(jì)因果推斷的原因。此悖論表明,存在如下的可能性:X和Y在邊緣上正相關(guān);但是給定另外一個變量Z后,在Z的每一個水平上,X和Y都負(fù)相關(guān)。Table 1 是一個數(shù)值的例子,取自Pearl(2000)。


          Table 1 中,第一個表是整個人群的數(shù)據(jù):接受處理和對照的人都是 40 人,處理有較高的存活率,因此處理對整個人群有 “正作用”。第二個表和第三個表是將整個人群用性別分層得到的,因?yàn)榈谝粋€表的四個格子數(shù),分別是下面兩個表對應(yīng)格子數(shù)的和:



          奇怪的是,處理對男性有 “負(fù)作用”,對女性也有 “負(fù)作用”。一個處理對男性和女性都有 “負(fù)作用”,但是他對整個人群卻有 “正作用”:悖論產(chǎn)生了!

          有人可能會認(rèn)為這種現(xiàn)象是由于隨機(jī)性或者小樣本的誤差導(dǎo)致的。但是這個現(xiàn)象與樣本量無關(guān),與統(tǒng)計(jì)的誤差也無關(guān)。比如,將上面的每個格子數(shù)乘以一個巨大的正數(shù),上面的悖論依然存在。

          純數(shù)學(xué)的角度,上面的悖論可以寫成初等數(shù)學(xué);這并無新奇之處。但是在統(tǒng)計(jì)上,這具有重要的意義——變量之間的相關(guān)關(guān)系可以完全的被第三個變量 “扭曲”。更嚴(yán)重的問題是,我們的收集的數(shù)據(jù)可能存在局限性,忽略潛在的“第三個變量” 可能改變已有的結(jié)論,而我們常常卻一無所知。鑒于 Yule-Simpson 悖論的潛在可能,不少人認(rèn)為,統(tǒng)計(jì)不可能用來研究因果關(guān)系。

          上面的例子是人工構(gòu)造的,在現(xiàn)實(shí)中,也存在不少的實(shí)例正是 Yule-Simpson’s Paradox。比如,UC Berkeley 的著名統(tǒng)計(jì)學(xué)家 Peter Bickel 教授 1975 年在 Science 上發(fā)表文章,報(bào)告了 Berkeley 研究生院男女錄取率的差異。他發(fā)現(xiàn),總體上,男性的錄取率高于女性,然而按照專業(yè)分層后,女性的錄取率卻高于男性 (Bickel 等 1975)。

          在流行病學(xué)的教科書 (如 Rothman 等 2008) 中,都會講到 “混雜偏倚”(confounding bias),其實(shí)就是 Yule-Simpson’s Paradox,書中列舉了很多流行病學(xué)的實(shí)際例子。

          由于有 Yule-Simpson’s Paradox 的存在,觀察性研究中很難得到有關(guān)因果的結(jié)論,除非加上很強(qiáng)的假定,這在后面會談到。比如,一個很經(jīng)典的問題:吸煙是否導(dǎo)致肺癌?由于我們不可能對人群是否吸煙做隨機(jī)化試驗(yàn),我們得到的數(shù)據(jù)都是觀察性的數(shù)據(jù):即吸煙和肺癌之間的相關(guān)性 (正如 Table 1 的合并表)。此時(shí),即使我們得到了吸煙與肺癌正相關(guān),也不能斷言 “吸煙導(dǎo)致肺癌”。這是因?yàn)榭赡艽嬖谝恍┪从^測的因素,他既影響個體是否吸煙,同時(shí)影響個體是否得癌癥。比如,某些基因可能使得人更容易吸煙,同時(shí)容易得肺癌;存在這樣基因的人不吸煙,也同樣得肺癌。此時(shí),吸煙和肺癌之間相關(guān),卻沒有因果作用。

          相反的,我們知道放射性物質(zhì)對人體的健康有很大的傷害,但是鈾礦的工人平均壽命卻不比常人短;這是流行病學(xué)中有名的 “健康工人效應(yīng)”(healthy worker effect)。這樣一來,似乎是說鈾礦工作對健康沒有影響。但是,事實(shí)上,鈾礦的工人通常都是身強(qiáng)力壯的人,不在鈾礦工作壽命會更長。此時(shí),在鈾礦工作與否與壽命不相關(guān),但是放射性物質(zhì)對人的健康是有因果作用的。

          這里舉了一個悖論,但沒有深入的闡釋原因。闡釋清楚這個問題的根本原因,其實(shí)就講清楚了什么是因果推斷。這在后面會講到。作為結(jié)束,留下如下思考的問題:

          1. Table 1 中,處理組和對照組中,男性的比例分別為多少?這對悖論的產(chǎn)生有什么樣的影響?反過來考慮處理的 “分配機(jī)制”(assignment mechanism),計(jì)算P(Treatment∣Male)和 P(Treatment∣Female)
          2. 假如(X,Y,Z)服從三元正態(tài)分布,X和Y正相關(guān),Y和Z正相關(guān),那么X和Z是否正相關(guān)?(北京大學(xué)概率統(tǒng)計(jì)系 09 年《應(yīng)用多元統(tǒng)計(jì)分析》期末第一題)
          3. 流行病學(xué)的教科書常常會講各種悖論,比如混雜偏倚 (confounding bias)和入院率偏倚(Berkson’s bias)等,本質(zhì)上是否與因果推斷有關(guān)?
            計(jì)量經(jīng)濟(jì)學(xué)中的 “內(nèi)生性”
            (endogeneity)怎么定義?它和 Yule-Simpson 悖論有什么聯(lián)系?

          2. 因果推斷簡介之二:
          Rubin Causal Model (RCM) 和隨機(jī)化試驗(yàn)



          因果推斷用的最多的模型是 Rubin Causal Model (RCM; Rubin 1978) 和 Causal Diagram (Pearl 1995)。Pearl (2000) 中介紹了這兩個模型的等價(jià)性,但是就應(yīng)用來看,RCM 更加精確,而 Causal Diagram 更加直觀,后者深受計(jì)算機(jī)專家們的推崇。這部分主要講 RCM。

          設(shè)表示個體 i接受處理與否,處理取1,對照取0 (這部分的處理變量都討論二值的,多值的可以做相應(yīng)的推廣);表示個體 i的結(jié)果變量。另外記  表示個體 i接受處理或者對照的潛在結(jié)果 (potential outcome),那么   表示個體 i 接受治療的個體因果作用。不幸的是,每個個體要么接受處理,要么接受對照, 中必然缺失一半,個體的因果作用是不可識別的。觀測的結(jié)果是 。但是,在Z做隨機(jī)化的前提下,我們可以識別總體的平均因果作用 (Average Causal Effect; ACE)



          這是因?yàn)?/span>


          最后一個等式表明可以由觀測的數(shù)據(jù)估計(jì)出來。其中第一個等式用到了期望算子的線性性(非線性的算子導(dǎo)出的因果度量很難被識別!);第二個式子用到了隨機(jī)化,即


          其中,表示獨(dú)立性。由此可見,隨機(jī)化試驗(yàn)對于平均因果作用的識別起著至關(guān)重要的作用。

          當(dāng)Y是二值的時(shí)候,平均因果作用是流行病學(xué)中常用的“風(fēng)險(xiǎn)差”(risk difference; RD)


          當(dāng)然,流行病學(xué)還常用“風(fēng)險(xiǎn)比”(risk ratio; RR)


          和“優(yōu)勢比”(odds ratio; OR)


          上面的記號都帶著“C”,是為了強(qiáng)調(diào)“causal”。細(xì)心的讀者會發(fā)現(xiàn),定義 CRR 和 COR 的出發(fā)點(diǎn)和 ACE 不太一樣。ACE 是通過對個體因果作用求期望得到的,但是 CRR 和 COR 是直接在總體上定義的。這點(diǎn)微妙的區(qū)別還引起了不少人的研究興趣。比如,經(jīng)濟(jì)學(xué)中的某些問題,受到經(jīng)濟(jì)理論的啟示,處理的作用可能是非常數(shù)的,僅僅研究平均因果作用不能滿足實(shí)際問題的需要。這時(shí)候,計(jì)量經(jīng)濟(jì)學(xué)家提出了“分位數(shù)處理作用”(quantile treatment effect: QTE)


          在隨機(jī)化下,這個量也是可以識別的。但是,其實(shí)這個量并不能回答處理作用異質(zhì)性(heterogenous treatment effects)的問題,因?yàn)樘幚碜饔梅浅?shù),最好用如下的量刻畫:



          這個量刻畫的是處理作用的分布。不幸的是,估計(jì)  需要非常強(qiáng)的假定,通常不具有可行性。

          作為結(jié)束,留下如下的問題:

          1. “可識別性”(identifiability)在統(tǒng)計(jì)中是怎么定義的?
          2. 醫(yī)學(xué)研究者通常認(rèn)為,隨機(jī)對照試驗(yàn)(randomized controlled experiment)是研究處理有效性的黃金標(biāo)準(zhǔn),原因是什么呢?隨機(jī)化試驗(yàn)為什么能夠消除 Yule-Simpson 悖論?
          3.  在隨機(jī)化下是可識別的。另外一個和它“對偶”的量是 Ju and Geng (2010) 提出的分布因果作用(distributional causal effect: DCE) ,在隨機(jī)化下也可以識別。
          4. 即使完全隨機(jī)化, 也不可識別。也就是說,經(jīng)濟(jì)學(xué)家提出的具有“經(jīng)濟(jì)學(xué)意義”的量,很難用觀測數(shù)據(jù)來估計(jì)。這種現(xiàn)象在實(shí)際中常常發(fā)生:關(guān)心實(shí)際問題的人向統(tǒng)計(jì)學(xué)家索取的太多,而他們提供的數(shù)據(jù)又很有限。

          關(guān)于 RCM 的版權(quán),需要做一些說明。目前可以看到的文獻(xiàn),最早的是 Jerzy Neyman 于 1923 年用波蘭語寫的博士論文,第一個在試驗(yàn)設(shè)計(jì)中提出了“潛在結(jié)果”(potential outcome)的概念。后來 Donald Rubin 在觀察性研究中重新(獨(dú)立地)提出了這個概念,并進(jìn)行了廣泛的研究。Donald Rubin 早期的文章并沒有引用 Jerzy Neyman 的文章,Jerzy Neyman 的文章也不為人所知。一直到 1990 年,D. M. Dabrowska 和 T. P. Speed 將 Jerzy Neyman 的文章翻譯成英文發(fā)表在 Statistical Science 上,大家才知道 Jerzy Neyman 早期的重要貢獻(xiàn)。今天的文獻(xiàn)中,有人稱 Neyman-Rubin Model,其實(shí)就是潛在結(jié)果模型。計(jì)量經(jīng)濟(jì)學(xué)家,如 James Heckman 稱,經(jīng)濟(jì)學(xué)中的 Roy Model 是潛在結(jié)果模型的更早提出者。在 Donald Rubin 2004 年的 Fisher Lecture 中,他非常不滿地批評計(jì)量經(jīng)濟(jì)學(xué)家,因?yàn)?Roy 最早的論文中,全文沒有一個數(shù)學(xué)符號,確實(shí)沒有明確的提出這個模型。詳情請見,Donald Rubin 的 Fisher Lecture,發(fā)表在 2005 年的 Journal of the American Statistical Association 上。研究 Causal Diagram 的學(xué)者,大多比較認(rèn)可 Donald Rubin 的貢獻(xiàn)。但是 Donald Rubin 卻是 Causal Diagram 的堅(jiān)定反對者,他認(rèn)為 Causal Diagram 具有誤導(dǎo)性,且沒有他的模型清楚。他與James Heckman (諾貝爾經(jīng)濟(jì)學(xué)獎), Judea Pearl (圖靈獎) 和 James Robins 之間的激烈爭論,成為了廣為流傳的趣聞。

          3. 因果推斷簡介之三:
          R. A. Fisher 和 J. Neyman 的分歧

          R.A.Fisher


          這部分談到的問題非常微妙:完全隨機(jī)化試驗(yàn)下的 Fisher randomization test 和 Neyman repeated sampling procedure。簡單地說,前者是隨機(jī)化檢驗(yàn),或者如很多教科書講的Fisher 精確檢驗(yàn) (Fisher exact test);后者是 Neyman 提出的置信區(qū)間 (confidence interval)理論。

          我初學(xué)因果推斷的時(shí)候,并沒有細(xì)致的追求這些微妙的區(qū)別,覺得了解到簡介之二的層次就夠了。不過在 Guido Imbens 和 Donald Rubin 所寫的因果推斷教科書(還未出版)中,這兩點(diǎn)內(nèi)容放在了全書的開端,作為因果推斷的引子。在其他的教科書中,是看不到這樣的講法的。平日里常常聽到 Donald Rubin 老爺子對 Fisher randomization test 的推崇,我漸漸地也被他洗腦了。

          Fisher 的隨機(jī)化檢驗(yàn),針對的是如下的零假設(shè),又被稱為 sharp null: 坦白地說,這個零假設(shè)是我見過的最奇怪的零假設(shè),沒有之一。現(xiàn)行的統(tǒng)計(jì)教科書中,講到假設(shè)檢驗(yàn),零假設(shè)都是針對某些參數(shù)的,而 Fisher 的 sharp null 看起來卻像是針對隨機(jī)變量的。這里需要講明白的是,當(dāng)我們關(guān)心有限樣本 (finite sample)的因果作用時(shí),每個個體的潛在結(jié)果  都是固定的,觀測變量的隨機(jī)性僅僅由于“隨機(jī)化” 本身導(dǎo)致的。

          理解清楚這點(diǎn),才能理解 Fisher randomization test 和后面的 Neyman repeated sampling procedure。如果讀者對于這種有限樣本的思考方式不習(xí)慣,可以先閱讀一下經(jīng)典的抽樣調(diào)查教科書,那里幾乎全是有限樣本的理論,所有的隨機(jī)性都來自于隨機(jī)采樣的過程。

          如果認(rèn)為潛在結(jié)果是固定的數(shù),那么 Fisher sharp null 就和現(xiàn)行的假設(shè)檢驗(yàn)理論不相悖。這個 null 之所以“sharp”的原因是,在這個零假設(shè)下,所有個體的潛在結(jié)果都固定了,個體的因果作用為零,唯一的隨機(jī)性來自于隨機(jī)化的“物理”特性。定義處理分配機(jī)制的向量為結(jié)果向量為

          此時(shí)有限樣本下的隨機(jī)化分配機(jī)制如下定義:


          其中,  為處理組中的總數(shù)。這里的“條件期望”并不是說   是隨機(jī)變量,而是強(qiáng)調(diào)處理的分配機(jī)制不依賴于潛在結(jié)果。比如,我們選擇統(tǒng)計(jì)量
          來檢驗(yàn)零假設(shè),問題在于這個統(tǒng)計(jì)量的分布不易求出。但是,我們又知道,這個統(tǒng)計(jì)量的分布完全來自隨機(jī)化。因此,我們可以用如下的“隨機(jī)化”方法 (Monte Carlo 方法模擬統(tǒng)計(jì)量的分布):將處理分配機(jī)制的向量  進(jìn)行隨機(jī)置換得到,計(jì)算此時(shí)的檢驗(yàn)統(tǒng)計(jì)量 ;如此重復(fù)多次n不大時(shí),可以窮盡所有的置換,便可以模擬出統(tǒng)計(jì)量在零假設(shè)下的分布,計(jì)算出 p 值。

          有人說,F(xiàn)isher randomization test 已經(jīng)蘊(yùn)含了 bootstrap 的思想,似乎也有一定的道理。不過,這里隨機(jī)化的方法是針對一個特例提出來的。

          J. Neyman


          下面要介紹的 Neyman 的方法,其實(shí)早于 Fisher 的方法。這種方法在 Neyman 1923 年的博士論文中,正式提出了。這種方法假定n個個體中有m個隨機(jī)的接受處理,目的是估計(jì)(有限)總體的平均因果作用:


          一個顯然的無偏估計(jì)量是  


          但是,通常的方差估計(jì)量,


          高估了方差,構(gòu)造出來的置信區(qū)間在 Neyman – Pearson 意義下太“保守”??梢宰C明,在個體處理作用是常數(shù)的假定下,上面的方差估計(jì)是無偏的。

          通常的教科書講假設(shè)檢驗(yàn),都是從正態(tài)均值的檢驗(yàn)開始。Neyman 的方法給出了 的點(diǎn)估計(jì)和區(qū)間估計(jì),也可以用來檢驗(yàn)如下的零假設(shè):

          實(shí)際中,到底是 Fisher 和零假設(shè)合理還是 Neyman 的零假設(shè)合理,取決于具體的問題。比如,我們想研究某項(xiàng)政策對于中國三十多個省的影響,這是一個有限樣本的問題,因?yàn)槲覀兒茈y想象中國的省是來自某個“超總體”。但是社會科學(xué)中的很多問題,我們不光需要回答處理或者政策對于觀測到的有限樣本的作用,我們更關(guān)心這種處理或者政策對于一個更大總體的影響。前者,F(xiàn)isher 的零假設(shè)更合適,后者 Neyman 的零假設(shè)更合適。

          關(guān)于這兩種角度的爭論,可以上述到 Fisher 和 Neyman 兩人。1935 年,Neyman 向英國皇家統(tǒng)計(jì)學(xué)會提交了一篇論文“Statistical problems in agricultural experimentation”,F(xiàn)isher 和 Neyman 在討論文章時(shí)發(fā)生了激烈的爭執(zhí)。不過,從今天的統(tǒng)計(jì)教育來看,Neyman 似乎占了上風(fēng)。

          用下面的問題結(jié)束:

          1. 在 sharp null下,Neyman 方法下構(gòu)造的 T 統(tǒng)計(jì)量,是否和 Fisher randomization test 構(gòu)造的統(tǒng)計(jì)量相同?分布是否相同?

          2. Fisher randomization test 中的統(tǒng)計(jì)量可以有其他選擇,比如 Wilcoxon 秩和統(tǒng)計(jì)量等,推斷的方法類似。

          3. 當(dāng)Y是二值變量時(shí),上面 Fisher 的方法就是教科書中的 Fisher exact test。在沒有學(xué)習(xí) potential outcome 這套語言之前,理解 Fisher exact test 是有些困難的。

          4. 證明。

          5. 假定n個個體是一個超總體(super-population)的隨機(jī)樣本,超總體的平均因果作用定義為那么 Neyman 的方法得到估計(jì)量是超總體平均因果作用的無偏估計(jì),且方差的表達(dá)式是精確的;而 sharp null 在超總體的情形下不太適合。


          4. 因果推斷簡介之四:

          觀察性研究,可忽略性和傾向得分

          這節(jié)采用和前面相同的記號。Z表示處理變量(1是處理,0是對照),Y表示結(jié)果,X表示處理前的協(xié)變量。在完全隨機(jī)化試驗(yàn)中,可忽略性 成立,這保證了平均因果作用 


          可以表示成觀測數(shù)據(jù)的函數(shù),因此可以識別。在某些試驗(yàn)中,我們“先驗(yàn)的”知道某些變量與結(jié)果強(qiáng)相關(guān),因此要在試驗(yàn)中控制他們,以減少試驗(yàn)的方差。在一般的有區(qū)組(blocking)的隨機(jī)化試驗(yàn)中,更一般的可忽略性  成立,因?yàn)橹挥性诮o定協(xié)變量X后,處理的分配機(jī)制才是完全隨機(jī)化的。比如,男性和女性中,接受處理的比例不同,但是這個比例是事先給定的。

          在傳統(tǒng)的農(nóng)業(yè)和工業(yè)試驗(yàn)中,由于隨機(jī)化,可忽略性一般是能夠得到保證的;因此在這些領(lǐng)域談?wù)撘蚬茢嗍菦]有太大問題的。Jerzy Neyman 最早的博士論文,就研究的是農(nóng)業(yè)試驗(yàn)。但是,這篇寫于 1923 年的重要統(tǒng)計(jì)學(xué)文章,遲遲沒有得到統(tǒng)計(jì)學(xué)界的重視,也沒有人將相關(guān)方法用到社會科學(xué)的研究中。1970 年代,Donald Rubin 訪問 UC Berkeley 統(tǒng)計(jì)系,已退休的 Jerzy Neyman 曾問起:為什么沒有人將潛在結(jié)果的記號用到試驗(yàn)設(shè)計(jì)之外?正如 Jerzy Neyman 本人所說 “without randomization an experiment has little value irrespective of the subsequent treatment(沒有隨機(jī)化的試驗(yàn)價(jià)值很小)”,人們對于觀察性研究中的因果推斷總是抱著強(qiáng)烈的懷疑態(tài)度。我們經(jīng)常聽到這樣的聲音:統(tǒng)計(jì)就不是用來研究因果關(guān)系的!


          在第一講 Yule-Simpson 悖論的評論中,有人提到了哲學(xué)(史)上的休謨問題(我的轉(zhuǎn)述):人類是否能從有限的經(jīng)驗(yàn)中得到因果律?這的確是一個問題,這個問題最后促使德國哲學(xué)家康德為調(diào)和英國經(jīng)驗(yàn)派(休謨)和大陸理性派(萊布尼茲-沃爾夫)而寫了巨著《純粹理性批判》。其實(shí),如果一個人是絕對的懷疑論者(如休謨),他可能懷疑一切,甚至包括因果律,所以,康德的理論也不能完全“解決”休謨問題。懷疑論者是無法反駁的,他們的問題也是無法回答的。他們存在的價(jià)值是為現(xiàn)行一切理論起到警示作用。一般來說,統(tǒng)計(jì)學(xué)家不會從過度哲學(xué)的角度談?wù)搯栴}。從前面的說明中可以看出,統(tǒng)計(jì)中所謂的“因果”是“某種”意義的“因果”,即統(tǒng)計(jì)學(xué)只討論“原因的結(jié)果”,而不討論“結(jié)果的原因”。前者是可以用數(shù)據(jù)證明或者證偽的;后者是屬于科學(xué)研究所探索的。用科學(xué)哲學(xué)家卡爾·波普的話來說,科學(xué)知識的積累是“猜想與反駁”的過程:“猜想”結(jié)果的原因,再“證偽”原因的結(jié)果;如此循環(huán)即科學(xué)。

          下面談到的是,在什么樣的條件下,觀察性研究也可以推斷因果。這是一切社會科學(xué)所關(guān)心的問題。答案是:可忽略性,即 。在可忽略性下,ACE可以識別,因?yàn)?/span>


          從上面的公式來看,似乎我們的任務(wù)是估計(jì)兩個條件矩E{Y|X, Z=z}(z=0,1). 這就是一個回歸問題。不錯,這也是為什么通常的回歸模型被賦予“因果”含義的原因。如果我們假定可忽略性和線性模型  成立,那么 就表示平均因果作用。線性模型比較容易實(shí)現(xiàn),實(shí)際中人們比較傾向這種方法。但是他的問題是:(1)假定個體因果作用是常數(shù);(2)對于處理和對照組之間的不平衡(unbalance)沒有很好的檢測,常常在對觀測數(shù)據(jù)外推(extrapolation)。

          上面的第二條,是線性回歸最主要的缺陷。在 Donald Rubin 早期因果推斷的文獻(xiàn)中,推崇的方法是“匹配”(matching)。一般來說,我們有一些個體接受處理,另外更多的個體接受對照;簡單的想法就是從對照組中找到和處理組中比較“接近”的個體進(jìn)行匹配,這樣得出的作用,可以近似平均因果作用?!敖咏钡臉?biāo)準(zhǔn)是基于觀測協(xié)變量的,比如,如果某項(xiàng)研究,性別是唯一重要的混雜因素,我們就將處理組中的男性和對照組中的男性進(jìn)行匹配。但是,如果觀測協(xié)變量的維數(shù)較高,匹配就很難實(shí)現(xiàn)了。現(xiàn)有的漸近理論表明,匹配方法的收斂速度隨著協(xié)變量維數(shù)的增高而線性的衰減。

          后來 Paul Rosenbaum 到 Harvard 統(tǒng)計(jì)系讀 Ph.D.,在 Donald Rubin 的課上問到了這個問題。這就促使兩人合作寫了一篇非常有名的文章,于 1983 年發(fā)表在 Biometrika 上:“The central role of the propensity score in observational studies for causal effects”。傾向得分定義為  容易驗(yàn)證,在可忽略性下,它滿足性質(zhì)  (在數(shù)據(jù)降維的文獻(xiàn)中,稱之為“充分降維”,sufficient dimension reduction) 和 (給定傾向得分下的可忽略性)。根據(jù)前面的推導(dǎo),顯然有 ACE=E[E(Y|e(X), Z=1)]-E[E(Y|e(X),Z=0)] 。此時(shí),傾向得分是一維的,我們可以根據(jù)它分層 (Rosenbaum 和 Rubin 建議分成 5 層),得到平均因果作用的估計(jì)。連續(xù)版本的分層,就是下面的加權(quán)估計(jì):


          不過,不管是分層還是加權(quán),第一步我們都需要對傾向得分進(jìn)行估計(jì),通常的建議是 Logistic 回歸。甚至有文獻(xiàn)證明的下面的“離奇”結(jié)論:使用估計(jì)的傾向得分得到平均因果作用的估計(jì)量的漸近方差比使用真實(shí)的傾向得分得到的小。

          熟悉傳統(tǒng)回歸分析的人會感到奇怪,直接將 Y對 Z和 X做回歸的方法簡單直接,為何要推薦傾向得分的方法呢?確實(shí),讀過 Rosenbaum 和 Rubin 原始論文的人,一般會覺得,這篇文章很有意思,但是又覺得線性回歸(或者 logistic 回歸)足矣,何必這么復(fù)雜?在因果推斷中,我們應(yīng)該更加關(guān)心處理機(jī)制,也就是傾向得分。按照 Don Rubin 的說法,我們應(yīng)該根據(jù)傾向得分來“設(shè)計(jì)”觀察性研究;按照傾向得分將人群進(jìn)行匹配,形成一個近似的“隨機(jī)化試驗(yàn)”。而這個設(shè)計(jì)的過程,不能依賴于結(jié)果變量;甚至在設(shè)計(jì)的階段,我們要假裝沒有觀察到結(jié)果變量。否則,將會出現(xiàn)如下的怪現(xiàn)象:社會科學(xué)的研究者不斷地嘗試加入或者剔除某些回歸變量,直到回歸的結(jié)果符合自己的“故事”為止。這種現(xiàn)象在社會科學(xué)中實(shí)在太普遍了!結(jié)果的回歸模型固然重要,但是如果在 Y模型上做文章,很多具有“欺騙性”的有偏結(jié)果就會出現(xiàn)在文獻(xiàn)中。這導(dǎo)致大多數(shù)的研究中,因果性并不可靠。

          講到這里,我們有必要回到最開始的 Yule-Simpson’s Paradox。用Z表示處理(1表示處理,0表示對照),Y表示存活與否(1是表示存活,0表示死亡),X表示性別(1表示男性,0表示女性)。目前我們有處理“因果作用”的兩個估計(jì)量:一個不用性別進(jìn)行加權(quán)調(diào)整


          另一個用性別進(jìn)行加權(quán)調(diào)整(由于此時(shí)協(xié)變量是一維的,傾向得分和協(xié)變量本身存在一一對應(yīng),用傾向得分調(diào)整結(jié)果相同,見下面問題 1)


          其中,表示相應(yīng)的矩估計(jì)。是否根據(jù)性別進(jìn)行調(diào)整,對結(jié)果有本質(zhì)的影響。當(dāng)  時(shí), 第一個估計(jì)量是因果作用的相合估計(jì);當(dāng) 時(shí),第二個估計(jì)量是因果作用的相合估計(jì)。根據(jù)實(shí)際問題的背景,我們應(yīng)該選擇哪個估計(jì)量呢?到此為止,回答這個問題有些似是而非(選擇調(diào)整的估計(jì)量?),更進(jìn)一步的回答,請聽下回分解:因果圖(causal diagram)。

          作為結(jié)束,留下如下的問題:

          1. 如果X是二值的變量(如性別),那么匹配或者傾向的分都導(dǎo)致如下的估計(jì)量:
            這個公式在流行病學(xué)中非?;?,即根據(jù)混雜變量進(jìn)行分層調(diào)整。在后面的介紹中將講到,這個公式被 Judea Pearl 稱為“后門準(zhǔn)則”(backdoor criterion)。
          2. 傾向得分的加權(quán)形式,
            本質(zhì)上是抽樣調(diào)查中的 Horvitz-Thompson 估計(jì)。在流行病學(xué)的文獻(xiàn)中,這樣的估計(jì)量常被稱為“逆概加權(quán)估計(jì)量”(inverse probability weighting estimator; IPWE)。
          3. 直觀上,為什么估計(jì)的傾向得分會更好?想想偏差和方差的權(quán)衡(bias-variance tradeoff)。

          關(guān)于“可忽略性”(ignorability),需要做一些說明。在中文翻譯的計(jì)量經(jīng)濟(jì)學(xué)教科書中,這個術(shù)語翻譯存在錯誤,比如 Wooldridge 的 Econometric Analysis of Cross Section and Panel Data 的中譯本中,“可忽略性”被翻譯成“不可知”。子曰:“名不正,則言不順;言不順,則事不成。”在 Rubin (1978) 中,“可忽略性”這個概念是在貝葉斯推斷的框架下提出來的:當(dāng)處理的分配機(jī)制滿足這樣的條件時(shí),在后驗(yàn)的推斷中,可將分配機(jī)制“忽略”掉。在傳統(tǒng)的貝葉斯看來,所有的推斷都是條件在觀測數(shù)據(jù)上的,那么為什么處理的分配機(jī)制會影響貝葉斯后驗(yàn)推斷呢?Donald Rubin 說,當(dāng)時(shí)連 Leonard Jimmie Savage 和 Dennis Victor Lindley 都在此困惑不解,他 1978 年的文章,原意就是為了解釋為什么隨機(jī)化會影響貝葉斯推斷。

          “可忽略性” 這個名字最早是在缺失數(shù)據(jù)的文獻(xiàn)中提出來的。當(dāng)缺失機(jī)制是隨機(jī)缺失(missing at random:MAR)且模型的參數(shù)與缺失機(jī)制的參數(shù)不同時(shí),缺失機(jī)制“可忽略”(ignorable)?!翱珊雎浴笔侵?,缺失機(jī)制不進(jìn)入基于觀測數(shù)據(jù)的似然或者貝葉斯后驗(yàn)分布。

          5. 因果推斷簡介之五:
          因果圖 (Causal Diagram)



          這部分介紹 Judea Pearl 于 1995 年發(fā)表在 Biometrika 上的工作 “Causal diagrams for empirical research”,這篇文章是 Biometrika 創(chuàng)刊一百多年來少有的討論文章,Sir David Cox,Guido Imbens, Donald Rubin 和 James Robins 等人都對文章作了討論。由于 Judea Pearl 最近剛獲得了圖靈獎,我想他的工作會引起更多的關(guān)注(事實(shí)上計(jì)算機(jī)界早就已經(jīng)過度的關(guān)注了)。

          一、 有向無環(huán)圖和 do 算子


          為了避免過多圖論的術(shù)語,這里僅僅需要知道有向圖中“父親”和“后代”的概念:有向箭頭上游的變量是“父親”,下游的變量是“后代”。在一個有向無環(huán)圖(Directed Acyclic Graph;DAG)中,記所有的節(jié)點(diǎn)集合為 。這里用 表示連續(xù)變量的密度函數(shù)和離散變量的概率函數(shù)。有兩種觀點(diǎn)看待一個 DAG:一是將其看成表示條件獨(dú)立性的模型;二是將其看成一個數(shù)據(jù)生成機(jī)制。當(dāng)然,本質(zhì)上這兩種觀點(diǎn)是一樣的。在第一種觀點(diǎn)下,給定 DAG 中某個節(jié)點(diǎn)的“父親”節(jié)點(diǎn),它與其所有的非“后代”都獨(dú)立。根據(jù)全概公式和條件獨(dú)立性,DAG 中變量的聯(lián)合分布可以有如下的遞歸分解:

          其中表示的“父親”集合,即所有指向的節(jié)點(diǎn)集合。

          Figure 1: An Example of Causal Diagram


          例子:在 Figure 1 中,聯(lián)合分布可以分解成為

          如果將 DAG 看成一個數(shù)據(jù)生成機(jī)制,那么它和下面的非參數(shù)結(jié)構(gòu)方程模型是等價(jià)的:

          注意,這個聯(lián)立方程組是“三角的”(triangular)或者“遞歸的”(recursive),因?yàn)?DAG 中沒有環(huán),方程組中也就沒有反饋。計(jì)量經(jīng)濟(jì)學(xué)中的聯(lián)立方程組模型 (simultaneous equation model: SEM),并不在這個討論的框架下。DAG 用于描述數(shù)據(jù)的生成機(jī)制,而不常用于描述系統(tǒng)均衡時(shí)的狀態(tài);后者主要是 SEM 的目的。這樣描述變量聯(lián)合分布或者數(shù)據(jù)生成機(jī)制的模型,被稱為“圖模型”或者“貝葉斯網(wǎng)絡(luò)”(Bayesian network)。

          顯然,一個有向無環(huán)圖唯一地決定了一個聯(lián)合分布;反過來,一個聯(lián)合分布不能唯一地決定有向無環(huán)圖。反過來的結(jié)論不成立,對我們的實(shí)踐有很重要的意義,比如 Figure 2 中的兩個有向無環(huán)圖,原因和結(jié)果不同,圖的結(jié)構(gòu)也不同;但是,我們觀測到的聯(lián)合分布可以有兩種分解因此,我們從觀測變量的聯(lián)合分布,很難確定“原因”和“結(jié)果”。在下一節(jié)圖模型結(jié)構(gòu)的學(xué)習(xí)中,我們會看到,只有在一些假定和特殊情形下,我們可以從觀測數(shù)據(jù)確定“原因”和“結(jié)果”。

          用一個 DAG 連表示變量之間的關(guān)系,并不是最近才有的。圖模型也并不是 Judea Pearl 發(fā)明的。但是,早期將圖模型作為因果推斷的工具,成果并不深刻,大家也不太清楚僅僅憑一個圖,怎么能講清楚因果關(guān)系。教育、心理和社會學(xué)中常用的結(jié)構(gòu)方程模型(structural equation model: SEM),就是早期的嘗試;甚至可以說 SEM 是因果圖的先驅(qū)。(注意,這里出現(xiàn)的兩個 SEM 表示不同的模型!)

          DAG 中的箭頭,似乎表示了某種“因果關(guān)系”。但是,要在 DAG 上引入“因果”的概念,則需要引進(jìn) do 算子,do 的意思可以理解成“干預(yù)” (intervention)。沒有“干預(yù)”的概念,很多時(shí)候沒有辦法談因果關(guān)系。在 DAG 中(也可以記做),表示如下的操作:將 中指向 的有向邊全部切斷,且將 的取值固定為常數(shù). 如此操作,得到的新的聯(lián)合分布可以記做 可以證明,干預(yù)后的聯(lián)合分布為

          請注意, 在絕大多數(shù)情況下是不同的。

          例子:考慮如下的兩個 DAG:


          在 Figure 2 (1) 中,有。由于的“原因”,“條件”和“干預(yù),對應(yīng)的分布相同。但是在 Figure 2 (2) 中,有. 由于的“結(jié)果”,“條件”(或者“給定”)“結(jié)果”,“原因”的分布不再等于他的邊緣分布,但是人為的“干預(yù)”“結(jié)果,并不影響“原因的分布。

          根據(jù) do 算子,便可以定義因果作用。比如二值的變量 對于 的平均因果作用定義為

          上面 do 算子下的期望,分別對應(yīng) do 算子下的分布。這樣在 do 算子下定義的因果模型,被已故計(jì)量經(jīng)濟(jì)學(xué)家 Halbert White 稱為 Pearl Causal Model (PCM; White and Chalak 2009)。Pearl 在其書中寫到:
          “I must take the opportunity to acknowledge four colleagues who saw clarity shining through the do(x) operator before it gained popularity: Steffen Lauritzen, David Freedman, James Robins and Philip David. Phil showed special courage in pringting my paper in Biometrika, the journal founded by causality’s worst adversary – Karl Pearson.” (Pearl, 2000)
          在書中 Pearl 論述了 RCM 和 PCM 的等價(jià)性,即


          其中表示潛在結(jié)果。要想說明兩個模型的等價(jià)性,可以將潛在結(jié)果嵌套在 DAG 所對應(yīng)的數(shù)據(jù)生成機(jī)制之中,所有的潛在結(jié)果都由這個非參數(shù)結(jié)構(gòu)方程模型產(chǎn)生:

          其中,除的父親節(jié)點(diǎn)。上面的方程表示:的值強(qiáng)制z時(shí),DAG 系統(tǒng)所產(chǎn)生值。這個意義下,do 算子導(dǎo)出的結(jié)果,就是“潛在結(jié)果”。

          二、 d分離,前門準(zhǔn)則和后門準(zhǔn)則


          在上面的敘述中,如果整個 DAG 的結(jié)構(gòu)已知且所有的變量都可觀測,那么我們可以根據(jù)上面 do 算子的公式算出任意變量之間的因果作用。但是,在絕大多數(shù)的實(shí)際問題中,我們既不知道整個 DAG 的結(jié)構(gòu),也不能將所有的變量觀測到。因此,僅僅有上面的公式是不夠的。

          下面,我將介紹 Judea Pearl 提出的“后門準(zhǔn)則”(backdoor criterion)和“前門準(zhǔn)則”(frontdoor criterion)。這兩個準(zhǔn)則的意義在于:(1)某些研究中,即使 DAG 中的某些變量不可觀測,我們依然可以從觀測數(shù)據(jù)中估計(jì)出某些因果作用;(2)這兩個準(zhǔn)則有助于我們鑒別“混雜變量”和設(shè)計(jì)觀察性研究。

          下面的討論中,“可識別性”這個概念將被頻繁的使用。因果推斷中的識別性,和傳統(tǒng)統(tǒng)計(jì)中的識別性定義是一致的。統(tǒng)計(jì)中,如果兩個不同的模型參數(shù),對應(yīng)不同的觀測數(shù)據(jù)的分布,那么我們稱模型的參數(shù)可以識別。這里,如果因果作用可以用觀測數(shù)據(jù)的分布唯一的表示,那么我們稱因果作用是可以識別的。

          前門準(zhǔn)則和后門準(zhǔn)則,都涉及了 d 分離(d-seperation)的概念。

          定義(d 分離): 設(shè)  是 DAG 中不相交的節(jié)點(diǎn)集合,為一條連接中某節(jié)點(diǎn)到 中某節(jié)點(diǎn)的路徑 (不管方向)。如果路徑上某節(jié)點(diǎn)滿足如下的條件:

          1. 在路徑 上,w點(diǎn)處為v 結(jié)構(gòu) (或稱沖撞點(diǎn),collider),且W及其后代不在Z中;
          2. 在路徑上,w點(diǎn)處不是v 結(jié)構(gòu),且 w在 中,
          那么稱Z阻斷 (block) 了路徑。進(jìn)一步,如果 Z阻斷了X到 Y的所有路徑,那么稱 z d 分離 X和Y,記為

          下面介紹 Pearl (1995) 的主要工作:后門準(zhǔn)則和前門準(zhǔn)則。


          后門準(zhǔn)則:在 DAG 中,如果如下條件滿足:

          1. Z中節(jié)點(diǎn)不能是的后代;
          2. Z阻斷了之間所有指向的路徑(這樣的路徑可以稱為后門路徑);

          則稱變量的集Z相對于變量的有序滿足D對后門準(zhǔn)則。進(jìn)一步,Z相對于變量的有序滿足后門準(zhǔn)則,其中 是中的任意節(jié)點(diǎn);那么稱變量的集Z相對于節(jié)點(diǎn)集合的有序?qū)?/span>滿足后門準(zhǔn)則。

          Pearl (1995) 證明,若存在一個變量集Z相對滿足后門準(zhǔn)則,那X和Y的因果作用是可以識別的,且為了理解因果圖的概念,下面的簡短證明是很有必要的。

          證明:在 Figure 3 (a) 中,

          從上面可以看出,上面的后門準(zhǔn)則和可忽略性假定下 ACE 的識別公式一樣:都是用Z 做調(diào)整 (adjustment),先分層再加權(quán)求和。這條結(jié)論在 Rosenbaum and Rubin (1983) 之后提出,且流行病學(xué)家也都用這樣的調(diào)整方法控制混雜因素,因此對很多統(tǒng)計(jì)學(xué)家和流行病學(xué)家來說并不新奇。比較新穎的結(jié)論是下面的前門準(zhǔn)則。
          前門準(zhǔn)則:在 DAG 中,稱節(jié)點(diǎn)的集合Z 相對于有序?qū)?img class="rich_pages wxw-img" data-galleryid="" data-ratio="0.40816326530612246" data-s="300,640" src="https://filescdn.proginn.com/e10be3f1c36316a8575c2ceeb362fd7f/0bad445d54c2a83f908db07a9d7c1cb6.webp" data-type="png" data-w="49" style="font-size: 15px;white-space: normal;text-align: center;"> 滿足前門準(zhǔn)則,如果

          1. Z切斷了所有 X到Y(jié) 的直接路徑;
          2. X到Z 沒有后門路徑;
          3. 所有 Z到Y(jié) 的后門路徑都被X 阻斷。

          此時(shí),如果 X和Y的因果作用可識別,為

          證明:Figure 3 (b) 中蘊(yùn)含了條件獨(dú)立性,將在推導(dǎo)中用到。


          這個前門路徑看似很難理解,證明似乎很不直觀,恰似變魔術(shù)。但是它其實(shí)是很顯然的,在前門路徑的 DAG 中,我們有:(1)X對Z的因果作用可識別,因?yàn)閅阻斷了它們之間的后門路徑;(2)ZY的因果作用可識別,因?yàn)?/span>X阻斷了他們的后門路徑;(3)X對Y的作用,僅僅通過Z而產(chǎn)生。這三點(diǎn)蘊(yùn)含著X對Y的因果作用可識別——這樣看來,這個結(jié)論就不奇怪了!

          Pearl 在書中講了一個非常有趣的例子,來說明前門準(zhǔn)則的用處。

          例子:我們關(guān)心吸X和肺之間的因果關(guān)系。由于一個潛在的不可觀測的基因 U 的存在,吸煙和肺癌之間有一條“活”的后門路徑,因此不借助其他的條件,我們無法識別吸煙與肺癌的因果關(guān)系。如果我們有這樣的知識“吸煙X 僅僅通過肺部煙焦油的含量 Z來影響肺癌Y ”,那么吸煙對肺癌的因果作用就可以估計(jì)出來了。不過,這里需要兩個條件,也就是在證明中使用的兩個條件獨(dú)立性,他們表明:(1)吸煙 X 和肺部煙焦油的含量 Z 之間沒有“活”的后門路徑(或者沒有混雜因素);(2)吸煙 X對肺癌Y 的作用僅僅來源于吸煙 X對肺部煙焦油 Z的作用,或者說,吸煙 X對肺癌Y 沒有“直接作用”。

          例子:在 Figure 1 的 DAG 中 之間的后門路徑被 或者 阻斷,而前門路徑被 阻斷。上面的兩個準(zhǔn)則表明,要識別從  的因果作用,我們不需要觀測到所有的變量,只需要觀測到切斷后門路徑或者前門路徑的變量即可。


          三、 回到 Yule-Simpson’s Paradox


          在第一節(jié)中,我們看到了經(jīng)典的 Yule-Simpson’s Paradox。記T 為處理(吃藥與否);Y為結(jié)果(存活與否),X 是用于分層的變量(在最開始的例子中,X 是性別;在這里我們先將 X簡單地看成某個用于分層的變量)。悖論存在,是因?yàn)門 和 Y正相關(guān);但是按照X的值分層后, T和Y 負(fù)相關(guān)。分,還是不分?—–這是一個問題!這在實(shí)際應(yīng)用是非常重要的問題。

          不過,僅僅從“相關(guān)”(association)的角度討論這個問題,是沒有答案的。從“因果”(causation)的角度來看,才能有確切的回答。解釋 Yule-Simpson’s Paradox,算是因果圖的第一個重要應(yīng)用。


          下面,我將以上面的 Figure 4 中的四個圖為例說明,三個變量之間的關(guān)系的復(fù)雜性。

          圖(a):根據(jù)后門準(zhǔn)則, X阻斷了 T到Y(jié) 的后門路徑,因此,根據(jù) X做調(diào)整可以得到 T對Y的因果作用。如果實(shí)際問題符合圖(a),那么我們需要用調(diào)整后的估計(jì)量。

          圖(b):X是T的“后代”且是Y 的“父親”。很多地方稱,此時(shí) X處于 T到Y(jié) 的因果路徑上。直觀的看,如果忽略X,那么 T和 Y之間的相關(guān)性就是  T對  Y的因果作用,因?yàn)?T和Y 之間的后門路徑被空集阻斷,我們無須調(diào)整。如果此時(shí)我們用X 進(jìn)行調(diào)整,那么得到的是T 到Y(jié) 的“直接作用”。不過,什么是“直接作用”,我們將會在后面討論;這里只是給一個形象的名字。

          圖(c):和圖(b)相同, T和Y 之間的相關(guān)性就是因果作用。但是,復(fù)雜性在于 X和Y 之間有一個共同的但是不可觀測的原因U。此時(shí),不調(diào)整的相關(guān)性,是一個因果關(guān)系的度量。但是,如果我們用X 進(jìn)行調(diào)整,那么給定 X 后,T和 U相關(guān),T和Y 之間的后門路徑被打通,我們得到的估計(jì)量不再具有因果的含義。這種現(xiàn)象發(fā)生的原因是,之間形成了一個V結(jié)構(gòu):雖然 T和U之間是獨(dú)立的,但是給定 X之后,T和U不再獨(dú)立。

          圖(d):這個圖常常被 Judea Pearl 用來批評 Donald Rubin,因?yàn)樗嬖谝粋€有趣的M 結(jié)構(gòu)。在這個圖中,由于 V結(jié)構(gòu)的存在,T和Y 之間的后門路徑被空集阻斷,因此T 和 Y之間的相關(guān)性就是因果性。但是由于M 結(jié)構(gòu)的存在,當(dāng)我們用 X進(jìn)行調(diào)整的時(shí)候, U和W 之間打開了一條“通路”(它們不再獨(dú)立),因此 T和 Y之間的后門路徑被打通,此時(shí) T和Y 之間的相關(guān)性不再具有因果的含義。

          我個人認(rèn)為,因果圖是揭開 Yule-Simpson’s Paradox 神秘面紗的有力工具。正如 Judea Pearl 在他的書中寫到,不用因果的語言來描述這個問題,我們是講不清楚這個悖論的。當(dāng)然,因果的語言不止因果圖,Judea Pearl 的解釋始終不能得到 Donald Rubin 的認(rèn)可。

          四、 討論


          用一個圖來描述變量之間的因果關(guān)系,是很自然和直觀的事情。但是,這并不意味著 Pearl 的理論是老嫗?zāi)芙獾?。事?shí)上,這套基于 DAG 的因果推斷的語言,比傳統(tǒng)的 Neyman-Rubin 模型要晦澀很多。DAG 在描述因果關(guān)系的時(shí)候,常?;诤芏喟岛募俣ǘ⒉幻髡f,這也是 DAG 并沒有被大家完全接受的原因。傳統(tǒng)的因果推斷的語言,開始于 Jerzy Neyman 的博士論文;Donald Rubin 發(fā)展這套“潛在結(jié)果”的語言,并將它和缺失數(shù)據(jù)的理論聯(lián)系在一起,成為統(tǒng)計(jì)界更多使用的語言。

          在實(shí)際中,人們對于圖模型的批評從未中斷。主要的問題集中在如下的方面:

          1. 現(xiàn)實(shí)的問題,是否能用一個有向無環(huán)圖表示?大多數(shù)生物學(xué)家看到 DAG 的反應(yīng)是“能不能用圖表示反饋?”的確,DAG 作為一種簡化的模型,在復(fù)雜系統(tǒng)中可能不完全適用。要想將 DAG 推廣到動態(tài)的系統(tǒng),或者時(shí)間序列中,還有待研究。
          2. Pearl 引入的 do 算子,是他在因果推斷領(lǐng)域最主要的貢獻(xiàn)。所謂 “do”,就是“干預(yù)”,Pearl 認(rèn)為干預(yù)就是從系統(tǒng)之外人為的控制某些變量。但是,這依賴于一個假定:干預(yù)某些變量并不會引起 DAG 中其他結(jié)構(gòu)的變化。這個假定常常會受到質(zhì)疑,但是質(zhì)疑歸質(zhì)疑,Pearl 的這個假定雖然看似很強(qiáng),但根據(jù)觀測數(shù)據(jù)卻不可檢驗(yàn)。這種質(zhì)疑并不是 Pearl 的理論獨(dú)有的缺陷,這事實(shí)上是一切研究的缺陷。比如,我們用完全隨機(jī)化試驗(yàn)來研究處理的作用,我們要想將實(shí)驗(yàn)推廣到觀察性的數(shù)據(jù)或者更大的人群中去,也必須用到一些不可驗(yàn)證的假定。
          3. 很多人看了 Pearl 的理論后就嘲笑他:難道我們可以在 DAG 中干預(yù)“性別”?確實(shí),離開了實(shí)際的背景,干預(yù)性別似乎是不太合理的。那這個時(shí)候,根據(jù) Pearl 的 do算子得到的因果作用意味著什么呢?可以從幾個方面回答這個問題。
            • 很多問題,我們不能談?wù)摗案深A(yù)性別”,也不能談?wù)摗靶詣e”的“因果作用”?!靶詣e”的特性是“協(xié)變量”(covariate),對于這類變量(如身高、膚色等),談?wù)撘蚬饔貌缓线m,因?yàn)槲覀儾荒芟胂蟪鲆粋€可能的“實(shí)驗(yàn)”,干預(yù)這些變量。
            • 上面的回答基于“實(shí)驗(yàn)學(xué)派”(experimentalists’)的觀點(diǎn),認(rèn)為不可干預(yù),就沒有“因果”。但是,如果認(rèn)為只要有數(shù)據(jù)的生成機(jī)制,就有因果關(guān)系,那么算出性別的因果作用也不奇怪。(計(jì)量經(jīng)就學(xué)一直有爭議,以 Joshua Angrist、Guido Imbens 等為首的“實(shí)驗(yàn)派”,和以 James Heckman 為首的“結(jié)構(gòu)方程模型”派,有過很激烈的討論。)
            • 有些問題中性別的因果作用是良好定義的。比如,我們可以人工的修改應(yīng)聘者簡歷上的名字(隨機(jī)的使用男性和女性名字),便可以研究性別對于求職的影響,是否存在性別歧視等等(已有研究使用過這種實(shí)驗(yàn)設(shè)計(jì))。
          4. 一個更為嚴(yán)重的問題是,實(shí)際工作中,我們很難得到一個完整的 DAG,用于闡述變量之間的因果關(guān)系或者數(shù)據(jù)生成機(jī)制,使得 DAG 的應(yīng)用受到的巨大的阻礙。不過,從觀測數(shù)據(jù)學(xué)習(xí) DAG 的結(jié)構(gòu),確實(shí)是一個很有趣且重要的問題,這留待下回分解。

          在結(jié)束時(shí),留些一些思考的問題:

          • 在何種意義下,后門準(zhǔn)則的條件,等價(jià)于可忽略性,即?

          • 在第一節(jié)的 Yule-Simpson’s Paradox 中,我們最終選擇調(diào)整的估計(jì)量,還是不調(diào)整的估計(jì)量?


          6. 因果推斷簡介之六:

          工具變量(instrumental variable) 


          為了介紹工具變量,我們首先要從線性模型出發(fā)。毫無疑問,線性模型是理論和應(yīng)用統(tǒng)計(jì)(包括計(jì)量經(jīng)濟(jì)學(xué)和流行病學(xué)等)最重要的工具;對線性模型的深刻理解,可以說就是對一大半統(tǒng)計(jì)理論的理解。下面的第一部分先對線性模型,尤其是線性模型背后的假設(shè)做一個回顧。

          一、線性回歸和最小二乘法

          線性模型和最小二乘的理論起源于高斯的天文學(xué)研究,“回歸”(regression)這個名字則是 Francis Galton 在研究優(yōu)生學(xué)的時(shí)候提出來的。為了描述的方便,我們假定回歸的自變量只有一維,比如個體 ii 是否接受某種處理(吸煙與否;參加某個工作;等等),記為 Di。回歸的因變量也是一維,表示我們關(guān)心的結(jié)果(是否有肺癌;是否找到工作培訓(xùn)與否;等等),記為Yi。假定我們的研究中有 n 個個體,下面的線性模型用于描述 D 和 Y 之間的 “關(guān)系”:


          一般情形下,我們假定個體間是獨(dú)立的。模型雖簡單,我們還是有必要做一些解釋。首先,我們這里的討論都假定 Di 是隨機(jī)變量,對應(yīng)統(tǒng)計(jì)學(xué)中的隨機(jī)設(shè)計(jì) (random design)的情形;這和傳統(tǒng)統(tǒng)計(jì)學(xué)中偏好的固定設(shè)計(jì)(fixed design)有點(diǎn)不同—那里假定 Di總是固定的。(統(tǒng)計(jì)學(xué)源于實(shí)驗(yàn)設(shè)計(jì),那里的解釋變量都是可以控制的,因此統(tǒng)計(jì)學(xué)教科書有假定固定設(shè)計(jì)的傳統(tǒng)。)假定 Di是隨機(jī)的,既符合很多社會科學(xué)和流行病學(xué)的背景,又會簡化后面的討論。另外一個問題是 εi,它到底是什么含義?Rubin 曾經(jīng)嘲笑計(jì)量經(jīng)濟(jì)學(xué)家的 εi道:為了使得線性模型的等式成立,計(jì)量經(jīng)濟(jì)學(xué)家必須加的一項(xiàng),就叫 εi。批評的存在并不影響這個線性模型的應(yīng)用;關(guān)鍵的問題在于,我們在這個 εi上加了什么假定呢?最根本的假定是:


          不同的教科書稍有不同,比如 Wooldridge 的書上假定E(εiDi)=0,很顯然,這蘊(yùn)含著上面兩個假定。零均值的假定并不強(qiáng),因?yàn)?nbsp;αα“吸收”了 εiεi的均值;關(guān)鍵在第二個協(xié)方差為零的假定—它通常被稱為 “外生性”(exogeneity)假定。在這個假定下,我們在 (1) 的兩邊關(guān)于 Di 取協(xié)方差,便可以得到:

          cov(Yi,Di)=βvar(Di),


          因此,β=cov(Yi,Di)/var(Di),我們立刻得到了矩估計(jì):


          上面的估計(jì)式也是通常的最小二乘解,這里只是換了一個推導(dǎo)方式。如果將 (1) 看成一個數(shù)據(jù)生成的機(jī)制,在假定 (2) 下我們的確可以估計(jì)出因果作用 β.

          二、內(nèi)生性和工具變量

          問題的關(guān)鍵是假定 (2) 很多時(shí)候并不成立(cov(Di,εi)≠0),比如,吸煙的人群和不吸煙的人群本身很不相同,參加工作培訓(xùn)的人可能比不參加工作培訓(xùn)的人有更強(qiáng)的找工作動機(jī),等等。因此,包含個體 ii其他所有隱藏信息的變量 εiεi不再與 DiDi不相關(guān)了—這被稱為 “內(nèi)生性”(endogeneity)。這個時(shí)候,最小二乘估計(jì)收斂到 β+cov(D,ε)/var(D), 因而在 cov(D,ε)≠0時(shí)不再是β的相合估計(jì)。

          前面幾次因果推斷的介紹中提到,完全的隨機(jī)化實(shí)驗(yàn),可以給我們有效的因果推斷。但是很多問題中,強(qiáng)制性的隨機(jī)化實(shí)驗(yàn)是不現(xiàn)實(shí)或者不符合倫理的。比如,我們不能強(qiáng)制某些人吸煙,或者不吸煙。但是,“鼓勵性實(shí)驗(yàn)”依然可行。我們可以隨機(jī)地給吸煙的人以某種金錢的獎勵,如果他們放棄吸煙,則獲得某種經(jīng)濟(jì)上的優(yōu)惠。將這個 “鼓勵性” 的變量記為 Zi,它定義為是否被鼓勵的示性變量,取值 0-1。由于我們的鼓勵是完全隨機(jī)的,有理由假定 cov(Zi,εi)=0。

          以上的各個假定,可以用下面的一個圖來形象的描述。


          如圖所示,由于DD和YY之間存在一個混雜因素UU,兩者之間的因果作用是不可以用線性回歸相合估計(jì)的。工具變量ZZ的存在,使得DD到Y(jié)Y的因果作用的識別成為了可能。這里的工具變量ZZ滿足如下的條件:  Z⊥U,Z⊥DZU,Z⊥?D,并且 Z⊥Y|(D,U)ZY|(D,U)。第三個條件,可以理解成為 “無 Z到 Y的直接作用”。

          此時(shí),我們在線性模型 (1) 兩邊關(guān)于 Zi 取協(xié)方差,得到

          cov(Zi,Yi)=βcov(Zi,Di)

          因此,


          β=cov(Zi,Yi)cov(Zi,Di),我們立刻得到如下的矩估計(jì):


          根據(jù)大數(shù)定律,這個 “工具變量估計(jì)” 是 β的相合估計(jì)量。上面的式子對一般的 Zi都是成立的;當(dāng) Zi是 0-1 變量時(shí),上面的式子可化簡成:


          其中Yˉ1表示 Zi=1組的平均結(jié)果,Yˉ1表示 Zi=0組的平均結(jié)果,關(guān)于 DD的定義類似。上面的估計(jì)量,很多時(shí)候被稱為 Wald 估計(jì)量(它的直觀含義是什么呢?) 需要注意的是,(3) 要求 cov(Zi,Di)≠0,即 “鼓勵” 對于改變?nèi)说奈鼰熜袨槭怯行У?;否則上面的工具變量估計(jì)量在大樣本下趨于無窮大。

          三、潛在結(jié)果視角下的因果作用

          工具變量估計(jì)量在文獻(xiàn)中存在已有很多年了,一直到了 Angrist, Imbens and Rubin (1996) 年的文章出現(xiàn),才將它和潛在結(jié)果視角下的因果推斷聯(lián)系起來。關(guān)于 Neyman 引進(jìn)的潛在結(jié)果,需要回顧這一系列的第二篇文章。

          一般地, Z 表示一個 0-1 的變量,表示隨機(jī)化的變量(1 表示隨機(jī)化分到非鼓勵組;0 表示隨機(jī)化分到鼓勵組);D 表示最終接受處理與否(1 表示接受處理;0 表示接受對照)Y 是結(jié)果變量。為了定義因果作用,我們引進(jìn)如下的潛在結(jié)果:(Yi(1),Yi(0)) 表示個體 i 接受處理和對照下 Y 的潛在結(jié)果;(Di(1),Di(0)) 表示個體 i 非鼓勵組和鼓勵組下 D 的潛在結(jié)果。由于隨機(jī)化,下面的假定自然的成立:

          (隨機(jī)化)Zi⊥{Di(1),Di(0),Yi(1),Yi(0)}.


          根據(jù)鼓勵性實(shí)驗(yàn)的機(jī)制,個體在受到鼓勵的時(shí)候,更加不可能吸煙,因?yàn)橄旅娴膯握{(diào)性也是很合理的:

          (單調(diào)性)Di(1)≤Di(0).

          由于個體的結(jié)果 YY 直接受到所受的處理 DD 的影響,而不會受到是否受鼓勵 ZZ 的影響,下面的排除約束(exclusion restriction)的假定,很多時(shí)候也是合理的:

          (排除約束)Di(1)=Di(0) 蘊(yùn)含著 Yi(1)=Yi(0).

          上面的假定表明,當(dāng)隨機(jī)化的 “鼓勵”ZZ 不會影響是否接受處理 DD時(shí),隨機(jī)化的 “鼓勵” ZZ 也不會影響結(jié)果變量 YY。也可以理解成,隨機(jī)化的 “鼓勵” ZZ 僅僅通過影響是否接受處理 DD 來影響結(jié)果 YY,或者說,隨機(jī)化 “鼓勵” ZZ 本身對與結(jié)果變量 YY沒有“直接作用”。

          以上三個假定下,我們得到:


          單調(diào)使得 D 的潛在結(jié)果的組合只有三種;排除約束假定使得上面分解的后兩個式子為0。由于對于(Di(1)=0,Di(0)=0) 和(Di(1)=1,Di(0)=1)兩類人,隨機(jī)化的 “鼓勵” 對于 D的作用為 0,(Di(1)=1,Di(0)=0)一類人的比例就是Z對D平均因果作用:ACE(ZD)=P{Di(1)=1,Di(0)=0}. 因此,


          上面的式子被定義為 CACE 是有理由的。它表示的是子總體 (Di(1)=1,Di(0)=0) 中,隨機(jī)化對于結(jié)果的因果作用;由于這類人中隨機(jī)化和接受的處理是相同的,它也表示處理對結(jié)果的因果作用。這類人接受處理與否完全由于是否接受鼓勵而定,他們被成為 “依從者”(complier),因?yàn)檫@類人群中的平均因果作用又被成為 “依從者平均因果作用”(CACE:complier average causal effect); 計(jì)量經(jīng)濟(jì)學(xué)家稱它為 “局部處理作用”(LATE:local average treatment effect)

          由于ZZ是隨機(jī)化的,它對于DD和YY的平均因果作用都是顯而易見可以得到的。

          因?yàn)?/span>CACE 的一個矩估計(jì)便是



          由此可見工具變量估計(jì)量的因果含義。上面的討論既顯示了工具變量對于識別因果作用的有效性,也揭示了它的局限性:我們只能識別某個子總體的平均因果作用;而通常情況下,我們并不知道某個個體具體屬于哪個子總體。

          四、實(shí)例

          這部分給出具體的例子來說明上述理論的應(yīng)用,具體計(jì)算用到了第五部分的一個函數(shù)(其中包括用 delta 方法算的抽樣方差)。這里用到的數(shù)據(jù)來自一篇政治學(xué)的文章 Green et al. (2003) “Getting Out the Vote in Local Elections: Results from Six Door-to-Door Canvassing Experiments”,數(shù)據(jù)點(diǎn)擊此處可以在此下載。

          文章目的是研究某個社會實(shí)驗(yàn)是否能夠提高投票率,實(shí)驗(yàn)是隨機(jī)化的,但是并非所有的實(shí)驗(yàn)組的人都依從。因此這里的變量 ZZ 表示隨機(jī)化的實(shí)驗(yàn),DD 表示依從與否,YY 是投票與否的示性變量。具體的數(shù)據(jù)描述,可參加前面提到的文章。

          原始數(shù)據(jù)總結(jié)如下:


          根據(jù)下一個部分的函數(shù),我們得到如下的結(jié)果:
          CACE.IV(Y, D, Z)$CACE[1] 0.07914375
          $se.CACE [,1][1,] 0.02273439
          $p.value [,1][1,] 0.0004991073
          $prob.complier[1] 0.2925123
          $se.complier[1] 0.004871619

          由此可見,這個實(shí)驗(yàn)對于提高投票率,有顯著的作用。

          五、R code


          ## function for complier average causal effectCACE.IV <- function(outcome, treatment, instrument) {  Y <- outcome  D <- treatment  Z <- instrument  N <- length(Y)
          Y1 <- Y[Z == 1] Y0 <- Y[Z == 0] D1 <- D[Z == 1] D0 <- D[Z == 0]
          mean.Y1 <- mean(Y1) mean.Y0 <- mean(Y0) mean.D1 <- mean(D1) mean.D0 <- mean(D0)
          prob.complier <- mean.D1 - mean.D0 var.complier <- var(D1) / length(D1) + var(D0) / length(D0) se.complier <- var.complier^0.5
          CACE <- (mean.Y1 - mean.Y0) / (mean.D1 - mean.D0)
          ## COV pi1 <- mean(Z) pi0 <- 1 - pi1
          Omega <- c( var(Y1) / pi1, cov(Y1, D1) / pi1, 0, 0, cov(Y1, D1) / pi1, var(D1) / pi1, 0, 0, 0, 0, var(Y0) / pi0, cov(Y0, D0) / pi0, 0, 0, cov(Y0, D0) / pi0, var(D0) / pi0 ) Omega <- matrix(Omega, byrow = TRUE, nrow = 4)
          ## Gradient Grad <- c(1, -CACE, -1, CACE) / (mean.D1 - mean.D0)
          COV.CACE <- t(Grad) %*% Omega %*% Grad / N
          se.CACE <- COV.CACE^0.5
          p.value <- 2 * pnorm(abs(CACE / se.CACE), 0, 1, lower.tail = FALSE)
          ## results res <- list( CACE = CACE, se.CACE = se.CACE, p.value = p.value, prob.complier = prob.complier, se.complier = se.complier )
          return(res)}

          7. 因果推斷簡介之七:Lord’s Parado

          在充滿隨機(jī)性的統(tǒng)計(jì)世界中,悖論無處不在。這一節(jié)介紹一個很有名,但是在中文統(tǒng)計(jì)教科書中幾乎從未介紹過的悖論。這個悖論是 Educational Testing Service (ETS) 的統(tǒng)計(jì)學(xué)家 Frederic Lord 于 1967 年提出來的;最終由同在 ETS 工作的另外兩位統(tǒng)計(jì)學(xué)家 Paul Holland 和 Donald Rubin 于 1982 年圓滿地找出了這個悖論的根源。這部分先介紹這個悖論,再介紹 Holland 和 Rubin 的解釋,最后是一些結(jié)論。


          一、Lord's Paradox


          考慮下面一個簡單例子,具體的數(shù)字是偽造的。某個學(xué)校想研究食堂對于學(xué)生體重是否有差異性的影響,尤其關(guān)心食堂對于男女學(xué)生體重影響是否相同。于是統(tǒng)計(jì)學(xué)家們收集了如下的數(shù)據(jù):學(xué)生的性別GG;學(xué)生在 1963 年 6 月入學(xué)時(shí)候的體重XX;學(xué)生在 1964 年 6 月放暑假時(shí)候的體重YY。

          第一個統(tǒng)計(jì)學(xué)家,采取了一種很簡單的方法。如圖所示,橫軸表示 1963 年 6 月入學(xué)前的體重X,縱軸表示 1964 年 6 月前放假的體重Y。個體上來看,男女入學(xué)前和入學(xué)后一年體重都會有些變化,男女學(xué)生體重的散點(diǎn)圖分別用綠色和紅色標(biāo)出。從男女學(xué)生生平均體重來看,男生入學(xué)前后一年平均體重均是 150 磅(圖中右上角的黑點(diǎn)),女生入學(xué)前后一年平均體重均為 130 磅(圖中左下角的黑點(diǎn))。圖中的虛線是對角線Y=X,兩個黑點(diǎn)均位于對角線上。因此,第一個統(tǒng)計(jì)學(xué)家的結(jié)論是食堂對于男女學(xué)生體重都沒有影響,因此對男女學(xué)生體重的作用相同。


          注:橫軸表示 1963 年 6 月入學(xué)前的體重X,縱軸表示 1964 年 6 月前放假的體重Y;虛線是對角線Y=X;男女學(xué)生體重的散點(diǎn)圖分別用綠色和紅色標(biāo)出。圖中數(shù)據(jù)生成機(jī)制如下:男學(xué)生(X,Y)~二元正態(tài)分布,均值(150,150),協(xié)方差矩陣;女學(xué)生(X,Y)~二元正態(tài)分布,均值(130,130),協(xié)方差矩陣。生成這幅圖的 R 代碼可以在這里下載:Rcodehttps://uploads.cosx.org/2013/09/Rcode2.txt。由于樣本量 3000,樣本均值非常接近理論均值,因此落在了對角線上。)(150,150)生成這幅圖的 R 代碼可以在這里下載:Rcode。由于樣本量 3000,樣本均值非常接近理論均值,因此落在了對角線上。)


          第二個統(tǒng)計(jì)學(xué)家,由于受到了高等的統(tǒng)計(jì)訓(xùn)練,知道 R A Fisher 的 Analysis of Covariance (ANCOVA) ,提出了更加復(fù)雜的方法。他認(rèn)為,我們的分析應(yīng)該控制入學(xué)前的體重,做如下的線性回歸:

          他進(jìn)一步認(rèn)為,上面線性回歸的系數(shù) βgβg 反應(yīng)的就是男女的差別。用最小二乘法擬合上面的回歸模型,等價(jià)于在男女學(xué)生中擬合兩條平行的回歸直線。如圖所示,兩條直線斜率 βxβx 相同,但是截距不同,截距之差就是回歸系數(shù)?βg=6.34β^g=6.34。結(jié)論是,食堂對于男女體重有差別性的影響。

          這兩位統(tǒng)計(jì)學(xué)家得到了不同的結(jié)論,究竟誰對誰錯呢?Lord 稱這個現(xiàn)象為悖論,那么悖論的根源是什么呢?

          二、悖論的根源:因果推斷視角下的解釋

          要想解釋這個悖論,使用線性回歸模型益處不大,因?yàn)榫烤鼓芊駥⒒貧w系數(shù)解釋成因果作用,是個根本性的問題。在下面的討論中,我們假定數(shù)據(jù)的樣本量足夠大,因而可以忽略小樣本帶來的隨機(jī)性;也可以認(rèn)為整個討論都在總體上進(jìn)行。和前面一樣,我們用Gi表示個體i的性別,男性取值為 1, 女性取值為 0;Xi是個體 i在 1963 年 9 月的體重。由于這兩個變量都發(fā)生在接受處理(在食堂進(jìn)餐與否)之前,它們都可以看成是協(xié)變量,不受處理的影響。我們采用潛在結(jié)果模型,定義 { Yi(1), Yi(0) } 是個體 $i$ 在食堂進(jìn)餐和不在食堂進(jìn)餐下于 1964 年六月體重的潛在結(jié)果。

          如果用T表示在食堂進(jìn)餐與否的變量,那么每個學(xué)生都是T=1。當(dāng)寫下潛在結(jié)果之后,我們就發(fā)現(xiàn)問題的根源之一,是整個研究根本不存在對照組(全體學(xué)生其實(shí)都在食堂進(jìn)餐),每個個體在 1964 年 6 月都取值Y(1)(也就是前面的記號Y)。


          食堂對于男女學(xué)生體重平均因果作用的差是:
           


          上面的推導(dǎo)雖然簡單,但是將 ΔΔ 分成了兩個顯著不同的部分:第一個方括號內(nèi)的項(xiàng)是我們能夠從觀測數(shù)據(jù)中得到的;第二個方括號中的項(xiàng)是我們不可觀測的,因?yàn)闆]有任何一個學(xué)生接受了食堂之外的處理。

          如果我們假定 Y(0)=XY(0)=X,也就是說如果學(xué)生不來食堂進(jìn)餐,他們的體重將和入學(xué)前一樣,那么




          根據(jù)上面的圖和統(tǒng)計(jì)學(xué)家一的推理邏輯,我們知道Δg=0(g=0,1)Δg=0(g=0,1)

          (男女學(xué)生的體重不受處理影響),那么Δ=0Δ=0(處理對于男女體重沒有差異性的影響)。在這個假定下,第一個統(tǒng)計(jì)學(xué)家的斷言是正確的。

          顯然,假定 Y(0)=XY(0)=X是無法被數(shù)據(jù)證明或者證偽的,它只能依賴于我們的先驗(yàn)知識。那么在什么假定下,第二個統(tǒng)計(jì)學(xué)家又是對的呢?

          根據(jù)第二個統(tǒng)計(jì)學(xué)家做 ANCOVA 的邏輯,他可以假定


          并且把δ=a1–a0δ=a1a0

          當(dāng)成食堂對于男女體重差異作用的度量。δδ 其實(shí)就是上面的線性回歸模型(?)的回歸系數(shù) βg。如果我們假定 Y(0)=α+bXY(0)=α+bX,那么不去食堂進(jìn)餐時(shí)的潛在體重Y(0)是入學(xué)前體重 XX 的線性函數(shù)且截距是 bb;這表明Y(1)Y(1) 和 Y(0) 關(guān)于 XX 的模型,僅僅截距不同,斜率相同。這個假定并非不可能。此時(shí),




          最后一行等于 δδ,因?yàn)楦鶕?jù)條件期望的性質(zhì),方括號中的兩項(xiàng)分別是 a1a1 和 a0a0


          這樣一來,第二個統(tǒng)計(jì)學(xué)家的結(jié)論就是正確的。

          三、結(jié)論

          根據(jù)上面的討論,關(guān)于 Lord’s Paradox,我們有如下的結(jié)論:

          (1)Lord’s Paradox 的根源在于,整個研究沒有對照組;我們甚至不知道什么是對照組,不在食堂進(jìn)餐,是在家里進(jìn)餐,還是外面的參觀進(jìn)餐,還是其他?這其實(shí)導(dǎo)致 $Y(0)$ 并非完好定義。上面的討論則是假定 Y(0)Y(0)是良好定義的。

          (2)回歸或者協(xié)方差分析等統(tǒng)計(jì)工具,并不能清楚的回答因果的問題。這個問題中,ΔΔ是一個我們關(guān)心的因果度量,離開潛在結(jié)果,是很難定義的。根據(jù)上面的討論,兩位統(tǒng)計(jì)學(xué)家不采用潛在結(jié)果模型,甚至沒有意識到,這個研究根本的問題在于缺少對照。

          當(dāng)然,如果我們能夠做一個隨機(jī)化的實(shí)驗(yàn),有處理和對照組,那么回歸分析也可能得到合理的答案。

          (3)統(tǒng)計(jì)學(xué)家一和二,都可以是對的。他們結(jié)論的正確性,依賴于不同的假定;而這些假定本身是不可能被檢驗(yàn)的。


          (5)統(tǒng)計(jì)學(xué)家一和二,都是錯的。他們有結(jié)論,但是卻從未清楚地陳述結(jié)論回答的是什么問題。

          (6)R A Fisher 在實(shí)驗(yàn)設(shè)計(jì)中提出了 ANCOVA,但是這個方法不是萬能的。事實(shí)上,這個方法導(dǎo)致的問題,比它帶來的功用更嚴(yán)重;這點(diǎn)以后再說。

          8. 因果推斷簡介之八:

          吸煙是否導(dǎo)致肺癌?Fisher versus Cornfield

          這一節(jié)介紹一個有趣的歷史性例子:吸煙是否導(dǎo)致肺癌?主要涉及的人物是 R A Fisher 和 J Cornfield。前者估計(jì)上這個網(wǎng)站的人都聽過,后者就顯得比較陌生了。事實(shí)上,Cornfield 在統(tǒng)計(jì)、生物統(tǒng)計(jì)和流行病學(xué)都有著非常重要的貢獻(xiàn)。來自 Wikipedia 的一句介紹:“He was the R. A. Fisher Lecturer in 1973 and President of the American Statistical Association in 1974.” 雖然 Cornfield 和 Fisher 學(xué)術(shù)觀點(diǎn)不同(本節(jié)介紹),但是 Cornfield 還是在 1973 年給了 Fisher Lecture。


          下面我們先介紹 Fisher 和 Cornfield 關(guān)于觀察性研究中因果推斷的兩種觀點(diǎn),再給出技術(shù)性的細(xì)節(jié)。

          一、Cornfield 條件或者 Cornfield 不等式


          (圖注:R A Fisher)

          我先陳述 Fisher 的觀點(diǎn)。由于 Yule-Simpson Paradox 的存在,即使我們觀測到吸煙和肺癌之間的正相關(guān)關(guān)系,也不能斷定它們之間有因果性??赡艽嬖谝粋€未觀測的基因,它既使得某些人更可能吸煙,又使得這些人更可能患肺癌。因此,即使吸煙和肺癌沒有因果關(guān)系,這個未觀測的基因也可能導(dǎo)致吸煙和肺癌是正相關(guān)的。關(guān)于 Yule-Simpson Paradox,這一系列的第一篇有介紹。Fisher 的觀點(diǎn)可以用一個有向無環(huán)圖 (DAG) 來表示:


          圖中,吸煙到肺癌沒有直接的邊,因此吸煙對肺癌的因果作用是 0。但是由于它們之間存在一個共同原因 “hidden gene”,它們是相關(guān)的。我們用 E 表示是否吸煙 (1= 是,0=否);D 表示是否患肺癌 (1=是,0=否);U 表示是否有某種基因 (1= 是,0= 否)。這個符號系統(tǒng)在流行病學(xué)比較常用,因?yàn)?nbsp;E 表示暴露與否 (exposure),D表示疾病 (disease),U表示未觀測的混雜因素 (unobservable confounder)。在 Fisher 的時(shí)代,研究者通過收集的大量數(shù)據(jù),得到吸煙對于肺癌的相對風(fēng)險(xiǎn)(relative risk;或稱風(fēng)險(xiǎn)比,risk ratio;都簡寫成 RR)是


          流行病學(xué)家關(guān)心這個 RRED 是否表明了吸煙和肺癌的因果關(guān)系。Fisher 表示否定。從一個悲觀的角度來講,我們確實(shí)不能從相關(guān)關(guān)系得到因果性;Fisher 如果表示懷疑,假定有一個未觀測的基因,也是無可反駁的。Fisher 的這個說法有時(shí)也被稱為 “共同原因” 假說。Cornfield 則采取了一個不太悲觀的角度。他問:如果 Fisher 的 “共同原因” 假說是對的,那么 E 和 U 之間的相關(guān)關(guān)系需要多強(qiáng),才能導(dǎo)致 RRED=9,即 “吸煙患肺癌” 是“不吸煙患肺癌”的風(fēng)險(xiǎn)的 99 倍呢?如果 E和 U之間的相關(guān)關(guān)系強(qiáng)到不具有生物學(xué)意義(E與 U 的相對風(fēng)險(xiǎn)值大得在現(xiàn)實(shí)中不太可能),那么 Fisher 的 “共同原因” 假說就不成立,更大的可能性是吸煙 E 對肺癌 D 有因果作用。

          那么 Cornfield 是如何有力反駁 Fisher 的觀點(diǎn)的呢?


          (圖注:J Cornfield)


          Cornfield 通過簡單的數(shù)學(xué)證明,得到了如下的不等式,文獻(xiàn)中也稱為 Cornfield 不等式:


          也就是說,如果 Fisher 的 “共同原因” 假說成立,那么 E 和 U 之間的 RR 必將大于 E 和 D 之間的 RR。在吸煙和肺癌的例子中,RREU9RREU9,即 P(U=1|E=1)/P(U=1|E=0)9,直觀解釋就是 “吸煙時(shí)有某個基因 U 存在” 的概率是 “不吸煙時(shí)有某個基因 U 存在” 的概率的 9 倍多。根據(jù) Cornfield 進(jìn)一步的邏輯,由于吸煙更多的是一個社會性的行為,很難想象吸煙的行為能夠?qū)τ谀硞€基因的存在與否有著 9 倍的預(yù)測能力。我前段時(shí)間問身邊一個生物的 PhD,你覺得 RREU9 可能嗎?他的回答是不太可能,理由也是說,吸煙更多的決定于社會經(jīng)濟(jì)地位、家庭背景等變量,和基因也許有關(guān)系,但是不會強(qiáng)到 RREU9 的程度。Cornfield et al. (1959) 的原話是:


          … if cigarette smokers have 9 times the risk of nonsmokers for developing lung cancer, and this is not because cigarette smoke is a causal agent, but only because cigarette smokers produce hormone X, then the proportion of hormone-X producers among cigarette smokers must be at least 9 times greater than nonsmokers. If the relative prevalence of hormone-X-producers is considerably less than ninefold, then hormone-X cannot account for the magnitude of the apparent effect.

          如果我們相信 Cornfield 的邏輯, RREU9  在生物學(xué)意義上不太可能,那么 Fisher 的 “共同原因” 假說就不成立,吸煙對肺癌的確存在因果作用;反映到上面的DAG 上,吸煙 EE 到肺癌 DD 有一條直接的邊。

          Cornfield 的這項(xiàng)簡單研究,開始了流行病學(xué)和統(tǒng)計(jì)學(xué)中敏感性分析的研究;比如 Rubin 和 Rosenbaum 很多工作都是在 Cornfield 的啟發(fā)下做出來的。簡單地說,敏感性分析,就是在朝著 Yule-Simpson Paradox 的反方向進(jìn)行的:復(fù)雜雖然總是存在,但是我們相信這個世界并不是瘋狂的復(fù)雜。

          二、技術(shù)細(xì)節(jié)

          這一部分我們給出 Cornfield 不等式的證明。雖然證明不難,但是想想 Cornfield 于 1959 年用這樣一個簡單的不等式來反駁 Fisher,就覺得它的歷史意義還是不小的。當(dāng)然不關(guān)心技術(shù)細(xì)節(jié)的讀者,可以直接忽略本節(jié)。關(guān)心技術(shù)細(xì)節(jié)的讀者,下面的證明雖然冗長,但是只用到非常初等的數(shù)學(xué)(也許它可以作為一道初等概率論的習(xí)題)。

          為了簡化證明,我們引進(jìn)一些記號:


          不妨假設(shè) RRED1 并且 RREU1;若不成立,我們總可以重新對這些二值變量的 0 和 1 類進(jìn)行重新定義。首先,我們在條件獨(dú)立性 ED|U 下得到 RRED的等價(jià)表示:



          條件 RREU≥1等價(jià)于 f1f0,因此,上面 RRED是關(guān)于 RRUD的單調(diào)遞增函數(shù)。進(jìn)一步,


          由此,Cornfield 不等式得證。

          參考文獻(xiàn)


          1. Bickel, P. J. and Hammel, E. A. and O’Connell, J. W. (1975) Sex bias in graduate admissions: Data from Berkeley. Science, 187, 398-404.

          2. Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。

          3. Rosenbaum, P.R. and Rubin, D.B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.

          4. Rothman, K., Greenland, S. and Lash, T. L.  (2008) Modern Epidemiology. Lippincott Williams & Wilkins.

          5. Neyman, J. (1923) On the application of probability theory to agricultural experiments. Essay on principles. Section 9. reprint in Statistical Science. 5, 465-472.

          6. Pearl, J. (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.

          7. Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。

          8. Rubin, D.B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.

          9. Neyman, J. (1923) On the application of probability theory to agricultural experiments. Essay on principles. Section 9. reprint in Statistical Science. 5, 465-472. with discussion by Donald Rubin.

          10. Rosenbaum, P. R. and Rubin, D. B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.

          11. Rubin, D. B. (1976) Inference and missing data (with discussion). Biometrika, 63, 581-592.

          12. Rubin, D. B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.

          13. Wooldridge, J. M. (2002) Econometric analysis of cross section and panel data. The MIT press.

          14. Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull. 1967;68:304–5. doi: 10.1037/h0025105.

          15. Holland, P.W., Rubin, D.B. (1983). On Lord’s paradox. In: Wainer, H., Messick, S. (Eds.), Principals of Modern Psychological Measurement. Lawrence Erlbaum Associates, Hillsdale, NJ, pp. 3–25.

          16. Cornfield 最早的論文發(fā)表于 1959 年;由于它的重要性,這篇文章又在 2009 年重印了一次(50 周年紀(jì)念)。于是參考文獻(xiàn)有兩篇,它們是一樣的;不過后者多了很多名人的討論。

          17. Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. JNCI 1959;22:173-203.

            Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. Int J Epidemiol 2009;38:1175-91.(本文邀請了 David R Cox 和 Joel B Greenhouse 等人討論。)

          18. 最近 Ding and VanderWeele 重新回訪了這個經(jīng)典問題,給出了更加廣泛的結(jié)果。Ding, Peng and Vanderweele, Tyler J. (2014). Generalized Cornfield conditions for the risk difference, Biometrika, 101:4, 971-977. https://doi.org/10.1093/biomet/asu030


          作者簡介

          丁鵬,2004 年至 2011 年在北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院獲得本科和碩士學(xué)位,2015 年獲哈佛大學(xué)統(tǒng)計(jì)學(xué)博士學(xué)位,2016 年起任教于加州大學(xué)伯克利分校統(tǒng)計(jì)系,2021 年晉升為副教授。其主要研究方向是因果推斷。


          編輯:于騰凱

          校對:林亦霖

          瀏覽 129
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  18禁成人网站 | 亚洲精品操逼视频 | 丁香五月婷婷无码 | 性,国产三级在线 | 无码囯无精品毛片大码 |