0
譯者:AI研習社(聽風1996)
雙語原文鏈接:Causal Inference: What, Why, and How
作為一名經濟學博士,我致力于尋找某些變量之間的因果關系,用來完成我的論文。因果關系強大到可以讓人們有足夠的信心去做決策、防止損失、求解最優(yōu)解等。在本文中,我將討論什么是因果關系,為什么需要發(fā)現因果關系,以及進行因果推理的常用技巧。
因果關系描述的是兩個變量之間的關系,即一個變量如何誘發(fā)另一個變量的發(fā)生。它比相關關系要強得多,因為相關關系只是描述兩個變量之間的共同運動模式。通過繪制散點圖,可以很容易地觀察到兩個連續(xù)變量的相關性。對于分類變量,我們可以繪制柱狀圖來觀察其關系。要知道兩個連續(xù)變量之間的確切相關性,我們可以使用皮爾遜相關公式。皮爾遜(Pearson)的相關性介于-1和1之間,絕對值越大表示相關性越強。正相關意味著兩個變量在同一方向共同運動,反之亦然。
但對于因果關系,要把握的關系就要復雜得多。為了知道變量A是否引起了變量B的發(fā)生,即干預A是否引起了結果B,我們需要保持所有其他變量不變,以隔離和量化干預的效果。我們需要控制的其他變量稱為混雜變量,即與干預和結果都相關的變量:
有關混淆變量的例子
在上圖中,我舉了一個混淆變量,其中年齡與戒煙率和致死率都是正相關的。年齡越大,死亡率越高,但吸煙率越低。如果我們在估計吸煙對死亡率的影響時沒有控制年齡,我們可能會觀察到吸煙會減少死亡率這樣荒謬結果。我們不能在這里得出因果關系,因為我們沒有控制所有混雜變量。關于這個例子的更多細節(jié),你可以閱讀我討論 "辛普森悖論 "的文章:
在得出因果效應的結論時,我們需要記住的另一個因素是選擇偏差。為了隔離治療效果,我們需要確保治療組單位是在人群中隨機選擇的。這樣,我們在治療后觀察到的差異不是因為其他因素,而是因為治療。舉個例子,當一家超市想估計提供優(yōu)惠券對提高整體銷售額的影響時。如果超市只把優(yōu)惠券傳遞給在店里購物的顧客(干預組),發(fā)現他們比沒有收到優(yōu)惠券的顧客(對照組)購買了更多的商品,那么市場由于選擇偏差而無法在此處得出因果關系。沒有將顧客隨機選擇到治療組中。他們之所以在這里,是因為他們在超市購物,這表明與對照組相比,即使沒有優(yōu)惠券,他們也更可能從超市購買商品。比較來自治療組和對照組的結果變量在這里將毫無意義。
得到因果關系是如此復雜的,何必還要呢?我們?yōu)槭裁床恢苯邮褂孟嚓P性呢?我們知道相關性在進行預測時是有用的。如果我們知道變量A與變量B有很強的相關性,那么知道變量A的值就可以幫助我們預測變量B的值。在業(yè)務環(huán)境中,我們可以利用相關性來預測給哪些客戶群體做促銷,這樣我們就可以根據客戶過去的行為和其他客戶特征來提高轉化率。但是,即使是最準確的預測模型,也不能得出結論,當你觀察到客戶轉化率提高了,就是因為促銷。我們需要設計實驗或進行準實驗研究,才能得出因果關系并量化干預效果。在這個例子中,因果推理可以告訴你,提供促銷活動是否增加了客戶轉化率,以及增加了多少。因此,與相關性相比,因果關系能給決策者更多的指導和信心。
估計因果效應與估計你的利益結果變量的干預效應是一樣的。根據具體的研究或業(yè)務問題,可以選擇不同的治療效果進行估計。假設Y是結果變量,其中Y?是沒有干預的結果,Y1是有干預的結果。T為虛擬變量,表示單位i是在干預組(T=1)還是對照組(T=0):
平均干預效應(ATE):
平均而言,干預組和對照組之間的結果變量有何不同?
平均干預效應
平均干預效應(ATT):
平均而言,干預組中的單位在接受和不接受干預的情況下,結果變量的差異是什么?
平均干預效果
在這里,E(Y1|T=1)是干預組單位的預期結果,它是可觀察的。然而,E(Y?|T=1)是不可觀察的,因為它是假設的。一個單位只能有Y?和Y1這兩種結果中的一種,這取決于這個單位所在的組別。如果這個單位已經接受了干預,我們可以觀察Y1,并使用不同的技術來估計Y?這個反事實變量。我將在后面討論不同的技術。
條件平均干預效應(CATE):
條件平均干預效果
條件平均干預效果是應用某些條件x來估計ATE。在某些情況下,干預會對不同的子組產生不同的影響,并且ATE可以為零,因為這些效果被抵消了。CATE可以用于估計子組之間的異質效應。
個體干預效應(ITE)
個體干預效果
個體干預效應與CATE相同,應用的條件是單位是單位 i。
如上所述,在聲明因果關系之前,需要采取許多措施。在進行因果推斷時,請記住以下假設:
無選擇偏差:每個單位都有同等可能被分配到干預組。
在估計干預效果時,沒有未控制的混淆變量。
結果變量Y是可觀察的,它可以用來估計干預后的干預效果。
SUTVA:穩(wěn)定單位處理值假設。這個假設有兩個方面。對于實驗中的任何單位:
1、單位i接受干預不會影響其他單位的結果,即無網絡效應。
2、如果單位i在干預組中,其接受的干預與干預組中的所有其他單位一樣,即只有一個種干預類型。
因果推理最大的挑戰(zhàn)是,我們只能觀察到每個單位i的Y1或Y?,我們永遠無法完美測量每個單位i的干預效果,為了應對這個問題,我們需要為干預組找到完美的對照組,使兩組之間唯一的區(qū)別就是干預。這可以通過運行隨機化實驗或在隨機化不切實際的情況下尋找匹配的干預組和對照組(準實驗)來實現。以下是我認為有用的工作流程:
如果總能隨機分出干預組和對照組,生活就會輕松很多! 隨機分配干預后,我們可以分別估計治療組和對照組的結果變量,其差異就是平均治療效果(ATE)。由于單位是隨機選入干預組的,所以干預組和對照組的單位之間唯一的區(qū)別就是是否接受過干預。因此,結果變量的差異就是干預的效果。但是,有時由于網絡效應或技術問題,無法將干預組和對照組隨機化。或者把用戶分成兩組成本太高。例如,在估計促銷活動的效果時,如果將部分用戶排除在促銷活動之外,會對用戶的滿意度產生負面影響。在這種情況下,我們可以進行準實驗,也就是不依賴隨機分配的實驗。
差異(DID):
DID通常是在對照組和干預組之間存在已存在差異時使用的。但是,我們認為干預組和對照組的結果變量增長趨勢沒有顯著差異(平行趨勢假設)。也就是說,按照下表的定義,兩組在結果變量上的差異在治療前后是相同的,d_post=d_pre:
干預組的結果差異為d_t,定義為Y(1,1)-Y(1,0),對照組的結果差異為d_c,定義為Y(0,1)-Y(0,0)。d_t和d_c之間的差值為DID,即干預效果,如下圖所示。
DID = d_t-d_c=(Y(1,1)-Y(1,0))-(Y(0,1)-Y(0,0))
平行趨勢假設是一個很強的假設,當違背這個假設的時候,DID估計就會出現偏差。
盡管不可能進行隨機實驗,但我們可以找到完美匹配的干預組,在不進行干預的情況下量化結果變量。我們可以根據interests特征構建一個人工對照組。例如,我們可以在一個城市給予促銷活動,并與其他沒有促銷活動的城市進行結果變量的比較。這些城市除了促銷活動外,其他因素都是相似的。這就像一個橫向比較。
我們可以使用的另一種方法是時間序列比較,這叫做switch-back檢驗。例如,我們可以選擇一個城市,在一周內給出促銷活動,然后將結果變量與最近一段時間沒有促銷活動的這個城市進行比較。差異將是促銷的效果。
這些技術在面對網絡效應時相當有用。使用橫向比較或時間序列比較,我們不需要把一個市場分成不同的群體。因此,我們不需要擔心同一市場中群體之間的溢出效應。在對整個市場進行比較時,必須確保對照組和干預組市場之間的唯一差異是干預。
當獨立變量X(干預)與回歸中的誤差項相關,從而使估計結果(干預對結果變量Y的影響)產生偏差時,就會產生內生性。引起內生性的方式有三種:
遺漏變量:
當我們沒有將混淆變量作為控制變量納入回歸,或無法量化混淆變量時。例如,如果我們想估計教育(干預)對未來收入(結果變量)的影響,就需要在回歸中加入一個稱為 "能力 "的混淆變量。作為一個混淆變量,"能力 "會增加接受高等教育的機會,增加獲得高收入的機會。但是,由于我們無法輕易地量化 "能力",所以很難將其納入回歸中。簡單地用 "學歷 "對 "收入 "進行回歸,會使處理效果出現偏差。如果我們能夠量化混淆變量,我們就可以將它們全部納入回歸中。如果不能,我們需要使用回歸不連續(xù)或工具變量來進行隨意推斷。我將在后面討論它們。
如果我們可以量化混雜變量,則可以將它們全部包含在回歸中。如果不是,我們需要使用回歸不連續(xù)性或工具變量來進行因果推斷。稍后再討論。
反向因果關系:
當X可以影響Y,Y也可以影響X時,就存在反向因果關系。例如,如果我們在超市給在這家超市購物的顧客發(fā)放優(yōu)惠券。優(yōu)惠券會增加收到優(yōu)惠券的顧客的銷售額,這些顧客會更多的出現在超市,也更有可能收到更多的優(yōu)惠券。循環(huán)下去。在應對這個問題的時候,我們需要在中間引入一些隨機化。比如,我們并不是給所有出現在超市的顧客發(fā)放優(yōu)惠券,而是隨機選擇一些顧客發(fā)放優(yōu)惠券,并估算出差異。引入一定程度的隨機化會減少估計的偏差。
選擇偏差:
如上所述,如果具有某些特征的單位更容易被選入干預組,那么我們就面臨選擇偏差。我們觀察到的結果變量的差異不僅是由干預引起的,也是由于組間其他預先存在的差異。如果我們相信治療組和對照組有平行的趨勢,即它們之間的差異不會因為治療或時間而改變,我們可以使用DID來估計治療效果。否則,我們可以尋求其他解決方案。
處理內生性問題總是很麻煩。除了包括所有混淆變量和引入一些隨機化外,回歸不連續(xù)和工具變量是解決內生性問題的另外兩種方法。
1、回歸不連續(xù)
回歸不連續(xù)是在一個分界點測量干預效果。用一個例子會更容易理解。假設我們想估計發(fā)放獎學金對學生成績的影響。簡單地估計有獎學金和沒有獎學金的學生之間的成績差異,會因為內生性而使估計結果出現偏差。獲得獎學金的學生即使沒有獎學金,也更有可能獲得更好的成績。如果我們有一個給獎學金的臨接點,我們可以利用回歸不連續(xù)來估計獎學金的效應。例如,如果我們給成績高于80分的學生發(fā)放獎學金,那么我們就可以估計成績接近80分的學生的成績差異。這背后的直覺是,在影響成績的其他特征方面,得到79分的學生很可能與得到81分的學生相似。對于成績在79到81之間的學生來說,被分配到干預組(有獎學金)和對照組(沒有獎學金)是大致隨機的。因此,我們只能看這個子人群的成績差異來估計治療效果。更多詳情請查看維基百科頁面。
2、工具變量
工具變量指的是與自變量X高度相關,但與因變量Y不直接相關的變量,它們的關系就像下圖。
工具變量
由于工具變量與結果變量并不直接相關,如果改變工具變量引起結果變量的變化,那一定是干預變量的原因。例如,在估計教育對未來收入的影響時,常用的工具變量是父母的教育水平。父母的教育水平與孩子的教育水平高度相關,而與孩子的收入并不直接相關。為具體的研究問題尋找工具變量是很困難的,它需要對相關文獻和領域知識有充分的了解。在得到工具變量后,我們可以用2SLS回歸來檢驗這個工具變量是否好用,如果好用,處理效果如何。詳情請參考維基百科頁面。
這些就是因果推理的what、why和how。希望本文可以幫助你總結基本概念和技術,感謝您的閱讀。
AI研習社是AI學術青年和AI開發(fā)者技術交流的在線社區(qū)。我們與高校、學術機構和產業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務,為AI學術青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。