0
作者 | 劉禮
編輯 | 維克多
因果學(xué)習(xí)作為人工智能領(lǐng)域研究熱點(diǎn)之一,其研究進(jìn)展與成果也引發(fā)了眾多關(guān)注。4月9日,在AI TIME青年科學(xué)家——AI 2000學(xué)者專場論壇上,重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院教授劉禮做了《因果學(xué)習(xí)與應(yīng)用》的報(bào)告。
在報(bào)告中,他從辛普森悖論入手,分析了當(dāng)前機(jī)器學(xué)習(xí)面臨的困難,然后介紹了幾個(gè)主流因果框架解決“非獨(dú)立同分布”、“結(jié)合知識”的思路,以及框架的優(yōu)缺點(diǎn),例如他提到:
“目前有兩套主要的因果模型:Pearl的結(jié)構(gòu)因果模型,以及Rubin的潛在結(jié)果模型。兩者都可以預(yù)測、干預(yù)以及回答反事實(shí)問題,但對于“發(fā)現(xiàn)定理知識”不確定是否可行。潛在結(jié)果模型的不同之處在于,可以從數(shù)據(jù)中學(xué)習(xí),但結(jié)合現(xiàn)有知識較為困難,結(jié)構(gòu)因果模型則相反,可以結(jié)合現(xiàn)有知識,但從數(shù)據(jù)中學(xué)習(xí)的能力還亟待進(jìn)一步檢驗(yàn)?!?/span>
此外,他還結(jié)合自己的工作成果,提到了因果框架如何應(yīng)用于圖像合成、疾病診斷、行為識別等例子,以下是演講原文,AI科技評論做了不改變原意的整理。
今天報(bào)告的內(nèi)容是因果學(xué)習(xí)及其應(yīng)用。該領(lǐng)域最著名的一個(gè)例子是辛普森悖論:在700例腎病患者中,觀察他們服藥情況,發(fā)現(xiàn)服藥男性的治愈率是93%,女性治愈率73%,不服藥的男性治愈率為87%,女性為69%。分男女組別考察,能夠得出”服藥有助于恢復(fù)”的結(jié)論,但從整體樣本考察,會發(fā)現(xiàn)不服藥的治愈率83%高于服藥的治愈率78%。
另外一個(gè)辛普森悖論的例子關(guān)于房價(jià)。10年前,某城市市中心的房價(jià)是8000元/平米,共銷售了1000萬平;高新區(qū)是4000元/平米,共銷售了100萬平;整體來看,該市7636元/平米;現(xiàn)在,市中心10000元/平米,銷售了200萬平;高新區(qū)是6000元/平米,銷售了2000萬平,整體來看,該市6363元/平米。因此,分區(qū)來看分別都漲了,但從整體上看,會有疑惑:為什么現(xiàn)在的房價(jià)反而跌了?
辛普森悖論雖然不是新提出的,但卻是各領(lǐng)域不可忽視“頑疾”。2019年,新冠爆發(fā)時(shí),有學(xué)者分國家對病死率進(jìn)行了統(tǒng)計(jì),如上圖,在各個(gè)年齡段,中國的病死率都比意大利高;但整體統(tǒng)計(jì)下來,意大利卻反而更高。
這種分組和整體結(jié)論不同的情況,也是機(jī)器學(xué)習(xí)模型的困境。例如訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)不滿足獨(dú)立同分布的假設(shè),那么機(jī)器學(xué)習(xí)在分布偏移情況下很難魯棒地學(xué)習(xí),在新的場景中很難使用現(xiàn)有的模型。
實(shí)際上,目前基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法,訓(xùn)練出的模型都得出的結(jié)論大多是變量和變量之間的相關(guān)關(guān)系,而不是因果關(guān)系。例如之前有項(xiàng)研究發(fā)現(xiàn),在某大國暴力犯罪與腌黃瓜消耗密切相關(guān),但這種相關(guān)性并不代表因果性。
從因果的角度,辨析腌黃瓜和暴力犯罪之間的關(guān)系需要考慮混淆變量。如上圖,混淆變量會同時(shí)影響?yīng)毩⒆兞亢鸵蚬兞?,從而造成兩者之間的偽相關(guān)。如果將傳統(tǒng)統(tǒng)計(jì)和因果推斷進(jìn)行對比,有以下幾個(gè)特點(diǎn):
在90年代,知識驅(qū)動的機(jī)器學(xué)習(xí)方法占據(jù)主流,基于人類知識,編碼成規(guī)則,讓計(jì)算機(jī)自動在規(guī)則之上進(jìn)行推理。深入思考,其實(shí)西方科學(xué)的發(fā)展史就是因果問題,這套真理體系+推理體系我們從小就在學(xué)習(xí):已知1+1=2, 1+2=3,可以推導(dǎo)得出1+1+1=3。
這套體系也有可能出錯(cuò),例如牛頓定律在地球上適用,但在宇宙中就失效,從而愛因斯坦提出了相對論。
東方科學(xué)發(fā)展也有幾千年,也大量地研究過因果關(guān)系。
主流數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)已經(jīng)非常成功,無論是阿法狗,還是GPT都帶來了驚艷的效果。但有兩個(gè)缺點(diǎn):沒有可解釋性、可控性差。
為了解決上述問題,圖靈獎(jiǎng)獲得者朱迪亞·珀?duì)柼岢?strong>因果關(guān)系之梯。如上圖,第一層次是關(guān)聯(lián),通過概率表達(dá)描述出觀察到的一堆數(shù)據(jù)。第二層次是干預(yù),不僅是觀察,而且是進(jìn)行實(shí)驗(yàn)改變,例如如果吃了阿司匹林,我的頭痛會得到治愈嗎?如果我們禁止吸煙將會發(fā)生什么?其中,吃藥和禁止吸煙都是干預(yù)手段。第三層次是反事實(shí),在既定結(jié)果已經(jīng)發(fā)生的情況,假設(shè)當(dāng)初采取另一方案,則會發(fā)生什么。反事實(shí)不會得到觀察數(shù)據(jù),畢竟不存在兩個(gè)平行世界,但確實(shí)經(jīng)常遇到的情況,經(jīng)典的就是人們常說的“如若當(dāng)初........就不會......”。
在概率空間層面,如何解釋?如上圖,觀察到的數(shù)據(jù),形成一個(gè)聯(lián)合分布概率表達(dá);加入干預(yù)之后,每一個(gè)操作對應(yīng)一個(gè)概率分布,因此可能解決“獨(dú)立同分布”假設(shè)帶來的缺陷。
反事實(shí)問題目前非常難解決,也有很多例子。黑人被警察控制事件,反事實(shí)下,就對應(yīng):如若白人被警察控制了,會發(fā)生什么?在影視劇中,也常發(fā)出如若是另外某個(gè)明星參演,票房會有什么變化。這些反事實(shí)問題沒辦法驗(yàn)證,但需要回答。
針對此問題,目前有兩套主要的因果模型:Pearl的結(jié)構(gòu)因果模型;Rubin的潛在結(jié)果模型。兩者都可以預(yù)測、干預(yù)以及回答反事實(shí)問題,對于“發(fā)現(xiàn)定理知識”目前還不確定是否可行。但潛在結(jié)果模型的不同之處在于,可以從數(shù)據(jù)中學(xué)習(xí),但與現(xiàn)有知識相結(jié)合比較困難,而結(jié)構(gòu)因果模型則相反,可以結(jié)合現(xiàn)有知識,但從數(shù)據(jù)中學(xué)習(xí)的能力還亟待進(jìn)一步檢驗(yàn)。
目前,因果范式有幾個(gè)問題正在解決:因果發(fā)現(xiàn)、因果推理。
因果發(fā)現(xiàn)需要基于已有的數(shù)據(jù)找出變量和變量之間的因果關(guān)系。目前有兩套主流的方法:基于約束以及基于評分的。這兩套方法不去詳細(xì)講述。但存在的問題是:隨著變量的增多,需要檢驗(yàn)因果圖就會達(dá)到天文數(shù)字。因此,如何利用機(jī)器學(xué)習(xí)方法反過來提升因果發(fā)現(xiàn),是目前流行的問題。
在機(jī)器學(xué)習(xí)領(lǐng)域中,Pearl的方法本質(zhì)是基于結(jié)構(gòu)方程,主流方向是用它進(jìn)行因果解耦。同時(shí),也有一些非因果的方法,例如在SVM空間中進(jìn)行超平面切分。
在因果推理層面,Pearl提出了do算子,在因果圖上給出了一系列定理和假設(shè),用傳統(tǒng)的概率表達(dá)形式進(jìn)行操作,這就讓“因果”變得可計(jì)算。Pearl同樣給出了反事實(shí)計(jì)算框架,其最重要的是“孿生網(wǎng)絡(luò)”,包含一個(gè)真實(shí)世界,以及一個(gè)反事實(shí)世界。Pearl這套理論其實(shí)也存在缺點(diǎn),即假設(shè)因果圖是存在的,并需要包含一些先驗(yàn)知識,例如方程的結(jié)構(gòu)是線性還是非線性的。
因果效應(yīng)評估,就是在有一堆觀察變量以及未觀察變量的情況下,如何評估出變量X對變量Y的因果效應(yīng)有多大。目前主流方法包括傾向得分、工具變量等等。
目前的圖像自動生成很多都是以條件為主的,例如給定標(biāo)簽的控制、圖像的控制、文字的控制,考慮如何基于已有的觀察數(shù)據(jù)進(jìn)行訓(xùn)練模型、進(jìn)行生成。
與基于條件的生成方法不同,基于潛在變量數(shù)據(jù)的方法目的在于解決“某些變量無法直接被觀察”的困境。
因果干預(yù)圖像合成方法,是對相應(yīng)的變量進(jìn)行解耦,即觀察變量變化如何導(dǎo)致結(jié)果變化,該方法能夠精準(zhǔn)控制圖像的某一部分合成。
此外,因果方法在醫(yī)療領(lǐng)域有很多應(yīng)用?;诮Y(jié)構(gòu)函數(shù)的因果模型,設(shè)計(jì)因果發(fā)現(xiàn)框架,試圖超越分子與分子之間的關(guān)聯(lián)性,找出其因果性。具體操作分成兩步:第一步發(fā)現(xiàn)變量和變量之間,包括潛變量之間的因果圖;第二步基于因果圖,確定明確的結(jié)構(gòu)函數(shù)關(guān)系。
目前,我們開發(fā)出基于貝葉斯圖學(xué)習(xí)因果模型,超越了傳統(tǒng)學(xué)習(xí)函數(shù)步驟,使用因果圖進(jìn)行描述關(guān)系,也是分為兩步:第一步邊定向,需要滿足馬爾科夫等價(jià)條件,使得因果效應(yīng)最大化;第二步是因果效應(yīng)評估。目前,該方法已經(jīng)應(yīng)用在最具代表性腫瘤特征選擇這一課題上。
最后一個(gè)應(yīng)用是人體行為識別。人體識別多是采用傳感器和視頻流的方式進(jìn)行,會有前后的因果關(guān)系。因此,可以用格蘭杰因果方法解決時(shí)序因果中的問題。
最后推薦幾本書,《WHY》、《Causal Inference in Statistics》、《Causality》、《Elements of Causal Inference》、《What If》 都非常棒。其中,《Causality》目前,我們歷經(jīng)3年時(shí)間已經(jīng)翻譯成了中文,即將出版,請大家期待。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。