丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給曉楠
發(fā)送

0

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

本文作者: 曉楠 2023-08-31 19:10
導(dǎo)語:這是一條必經(jīng)之路!

編者按:2023 年 8月14日,第七屆GAIR全球人工智能與機(jī)器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦。

大會共開設(shè)10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。此次大會是在大模型技術(shù)爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。

在第一天的“青年科學(xué)論壇家”專場上,南洋理工大學(xué)副教授張含望帶來了以《視覺識別中的因果關(guān)系》為主題的演講。

張含望認(rèn)為,對于當(dāng)前的大模型來說,如果想要真正突破一些最底層邏輯上的問題,因果關(guān)系(Causality)是一條必經(jīng)之路。

在他看來,在多模態(tài)模型或大語言模型的研究中,偏見(bias)是常見問題。隨著模型規(guī)模的不斷擴(kuò)大,它可能會越來越智能,但偏見問題依舊存在。

這就意味著,如果不把因果關(guān)系加上去,大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián),幸運的話,模型在回答問題時能夠給出正確答案,否則就會“胡說八道”。這是因為它背后的關(guān)聯(lián)是錯誤的,把共生關(guān)系當(dāng)成了因果關(guān)系。

“共生不等于因果,經(jīng)常發(fā)生的事情不一定是因果關(guān)系?!?/p>

對此,他給出的建議是,大家在做多模態(tài)模型的過程中,一方面一定要多關(guān)注“等變性”,因為“可拆解性”可以通過數(shù)據(jù)量堆疊,“等變性”不可以,所以在預(yù)訓(xùn)練時要多加注意。

另一方面,目前多模態(tài)之間互通的瓶頸在于非語言模態(tài)(例如圖像)的spatial tokens和語言分布差得太遠(yuǎn)。

他認(rèn)為,語言的本質(zhì)是可遞歸的符號系統(tǒng),這也是大語言模型可以推理的基礎(chǔ)。

所以,如果想得到真正的多模態(tài)大模型,就必須找到一種“可遞歸,可拆解的”的tokenization的方法,把非語言模態(tài)轉(zhuǎn)成“可遞歸分布”的token。

以下為張含望教授的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))作了不改變原意的編輯及整理:

張含望:前面的嘉賓都在講大語言模型(large language model),那我換一下口味,講一講計算機(jī)視覺中的因果關(guān)系(Causality)。

很不幸的是,從去年年底到今年年初,在大模型風(fēng)靡的時候,因果關(guān)系好像又落入了一種近乎“銷聲匿跡”的狀態(tài)。大家的目光和興奮點幾乎都落在大模型的能力表現(xiàn)上面,而因果關(guān)系,這一稍微被我們推到一定知名度的領(lǐng)域,又迅速暗淡下去。

在我看來,對于當(dāng)前的大模型來說,如果想要真正突破一些最底層邏輯上的問題,因果關(guān)系(Causality)是一條必經(jīng)之路。它可能不是一個完整解法,但最起碼是一塊敲門磚。

01為什么需要因果關(guān)系(Causality)?

三四年前,我們就非常在意計算機(jī)視覺問題中的偏見(bias),而到了做多模態(tài)模型或大語言模型的時候,這些bias依然存在。

也就是說,隨著模型規(guī)模不斷變大,它可能會更加懂事、智能,但在bias上面,還沒有一個底層算法能夠解決該問題。

這個bias是什么呢?如果你讓大模型做一些視覺方面的QA,模型回答的答案是正確的,但是它所看的地方是錯的。用現(xiàn)在流行的話來講,它的中間鏈條可能是不對的。

就像下面這幅圖上面顯示的,問題是:女孩吃熱狗的時候是不是感到很興奮?它看的地方應(yīng)該是這個女孩而非熱狗。

再比如,問題是:這個人滑雪姿勢是不是正確?鏡頭聚焦的是整個人,這當(dāng)然也正確,但如果將目光聚焦在腿部的姿態(tài)上是不是更為準(zhǔn)確?

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

這也就意味著,對于現(xiàn)在的大模型來說,如果不把因果關(guān)系加上去,就只是在進(jìn)行強(qiáng)行關(guān)聯(lián)。幸運的情況下,這些強(qiáng)行關(guān)聯(lián)得出的結(jié)論是正確的,否則大模型就會“胡說八道”,這是因為它背后的關(guān)聯(lián)是錯誤的,把共生關(guān)系當(dāng)成了因果關(guān)系。

共生不等于因果,經(jīng)常發(fā)生的事情不一定是因果關(guān)系。

十年前,在NLP領(lǐng)域取得的一個非常大的進(jìn)步就是詞嵌入(word embedding),它的訓(xùn)練的方式與現(xiàn)在的生成式方式是一樣的,就是一些文本的預(yù)測。

為什么在NLP領(lǐng)域用這種關(guān)聯(lián)就可以學(xué)習(xí)到非常好的語義,也就是因果關(guān)系?

比如在下面這幅圖中,用king減去man可以得到一種新的狀態(tài),將其加到一個性別身上,就變成了queen,這就是常識、比較有道理的因果關(guān)系,為什么會這樣?

我會在后面解釋更加底層的原因,這里先說一個簡單問題,現(xiàn)在NLP整個領(lǐng)域瀕臨“滅門”狀態(tài)就是因為基本上所有記錄在案的symbol已經(jīng)經(jīng)過人類進(jìn)行消化,形成因果關(guān)系了,而并非兩個東西完全關(guān)聯(lián)在一起。

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

那么在計算機(jī)視覺領(lǐng)域,比如在下面這張照片中,為什么耳朵會長在貓的眼睛上面,雖然可以觀測到這樣一種關(guān)聯(lián),但是為什么會產(chǎn)生這樣的關(guān)聯(lián)是沒有記錄在案的。

再比如,人用腿跑步、用腿滑雪,可以觀測到人的腿與滑雪板的狀態(tài),但是人為什么用腿滑雪?背后的道理也是不會記錄在照片中的。

所以說,如果只是通過照片去學(xué)習(xí)視覺特征(visual feature)的話,那么視覺的embedding與NLP的embedding相比較而言差得太多了,就只能去學(xué)習(xí)一些非常粗糙的關(guān)聯(lián)。

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

02共因(confounder)與因果干預(yù)

研究計算機(jī)視覺的人應(yīng)該都聽說過MAE,即根據(jù)mask modeling這種方式來學(xué)習(xí)的視覺特征,本質(zhì)上是一個非常底層的關(guān)聯(lián)特征。

至于原因,這就要提到一個簡單但有力的因果關(guān)系概念——混雜,也是因果干預(yù)。

混雜的模型是這樣的:如果想通過物體a去推斷物體b,就是將物體a放在這里會增加物體b出現(xiàn)概率的多少,想要找到這樣一個確定的促進(jìn)關(guān)系即因果關(guān)系,往往會被confounder干擾到,而這個confounder就是物體a與b之間的共因。

由于這個共因的存在,會導(dǎo)致就算a跟b沒有直接的關(guān)系,也會被這個混雜的共因連接起來。張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

舉一個非常有名的案例,如果要進(jìn)行驗證統(tǒng)計——巧克力的銷量與諾貝爾獎得獎人數(shù)是強(qiáng)烈的正相關(guān),但其實不是這樣,它們背后有一個共因,即國家的GDP。

所以,如果想要用巧克力的銷量去預(yù)測得諾貝爾獎的概率,這個是沒有問題的。但是如果用它當(dāng)成一種政策,讓國家所有的學(xué)齡兒童每天吃一斤巧克力,那就不可行了。

也就是說,用它來做預(yù)測是可以的,但是要用它執(zhí)行關(guān)乎國計民生政策上的問題,僅僅用一個預(yù)測模型是遠(yuǎn)遠(yuǎn)不夠的,而且也非常危險。

再比如,想要用鍵盤去預(yù)測鼠標(biāo)的存在,這也不可行,因為鍵盤與鼠標(biāo)背后的一些背景共同決定了它們是不是經(jīng)常在一起。所以,當(dāng)你看到鍵盤的時候去預(yù)測鼠標(biāo)的存在,可能就會發(fā)現(xiàn)鼠標(biāo)的存在概率并不完全由鍵盤決定。

我們來看一些具體的例子。

下面這個圖是從一個計算機(jī)視覺數(shù)據(jù)集里面統(tǒng)計出來的,不需要做任何模型,只需要把它的標(biāo)注標(biāo)簽?zāi)贸鰜斫y(tǒng)計一下,就會發(fā)現(xiàn)幾個比較有意思的事情。

首先是水盆與吹風(fēng)機(jī)的關(guān)系——看到吹風(fēng)機(jī)去猜旁邊有沒有水盆。如果用簡單的關(guān)聯(lián)去猜測,這個概率是很高的,約為0. 56。但是經(jīng)過因果干預(yù)以后,發(fā)現(xiàn)它的概率其實是降低了。

為什么?背后的原因就在于這個數(shù)據(jù)集中,幾乎所有的照片都是網(wǎng)上公開的酒店洗手間照片,可能是為了節(jié)省空間,酒店洗手間中吹風(fēng)機(jī)與洗臉盆的放置位置一般是吹風(fēng)機(jī)掛在墻上,洗臉盆在其下面。

但是僅僅因為吹風(fēng)機(jī)就會導(dǎo)致洗手盆的出現(xiàn)嗎?如果只根據(jù)該數(shù)據(jù)集分析,這是一件高概率事件,但是用我們的常識想一下,就會發(fā)現(xiàn)這不太靠譜。

第二個例子是在衛(wèi)生間中,抽水馬桶與人共同出現(xiàn)的概率經(jīng)過因果干預(yù)以后反而升高了,這又是為什么?

其實還是我所強(qiáng)調(diào)的那個原因,在這個數(shù)據(jù)集當(dāng)中,基本上馬桶與人在一起共生的次數(shù)非常少,或許是出于個人隱私,不可能經(jīng)常拍到一個人在上廁所,所以照片中在馬桶周圍基本沒有人存在,就算有人,也不是正在使用馬桶的場景。

但是常識告訴我們,馬桶是給人用的,馬桶上面坐著一個人是件合理的事情,這個才是真正“看見馬桶去猜人”的因果關(guān)系,而不是單單從概率上面去判斷。張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

所以在做了一些因果關(guān)系的調(diào)整后,其實是在概率上進(jìn)行重置,也就是把一些周圍的物體借過來,然后看如果周圍多放一個水盆、一個杯子、一個包,把所有這些可能的東西做一個權(quán)重,加起來以后,會發(fā)現(xiàn)“看見馬桶去猜人”的概率會提升兩倍,是原來的三倍,這才是更加合理的事情。

也就是說,我們在這個數(shù)據(jù)集上可以做到一個無偏的估計去逼近真正的自然語言,就是在大量、豐富語料庫的詞與詞之間進(jìn)行word embedding這樣一個更好的預(yù)測。

就是這么一個簡單的因果干預(yù),我們在過去的兩到三年時間里,在這個領(lǐng)域進(jìn)行了連續(xù)的研究,也做出了一些成果。

03因果關(guān)系在大模型中的重要性

當(dāng)大模型出來以后,我們首要面臨的一個問題是,原來因果關(guān)系基本上是用來做預(yù)測任務(wù)中的“去偏見”,做一些訓(xùn)練分布之外的工作,因為測試集與訓(xùn)練集的分布不一樣。

但是,由于現(xiàn)在的模型太大了,基本上所有的測試集都是訓(xùn)練集的排列組合,測試的Benchmark已經(jīng)不存在了,還怎么使用因果關(guān)系?因此,我們就需要進(jìn)行更多深層次的思考,這也是我最近一兩年在做的一些事情。這個深層次的思考可以下面這張圖來說明,其實就兩點:

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

第一,為什么這張圖是一個三角形的樣子?以往如果要做因果關(guān)系,大家肯定會畫出來這樣一個三角形的假設(shè),為什么這個假設(shè)是正確的?現(xiàn)在的這種假設(shè)基本都是一些領(lǐng)域?qū)<易约寒嫷?,那有沒有可能從數(shù)學(xué)上證明它?

第二,這個三角形的頂點,即confounder到底是什么?以往是給一個具體的任務(wù)去定義一個confounder,但其實沒有共性的東西。

如果要回答這個最基礎(chǔ)的問題,就要考慮工具,但前年年底,我們發(fā)現(xiàn)現(xiàn)在的線性代數(shù)已經(jīng)不夠用了,數(shù)學(xué)工具出現(xiàn)了問題。

類似于在微積分發(fā)明之前,基本上很難找到各大行星的運作規(guī)律,只能通過幾何方式去統(tǒng)計它的軌道。雖然這也能做出比較好的預(yù)測結(jié)果,但是背后的原理無法知曉。

也就是說,想要發(fā)現(xiàn)真正的牛頓力學(xué)需要用到一些新的數(shù)學(xué)工具。我們嘗試著用抽象代數(shù)中的群論概念來定義深度學(xué)習(xí)中更為深層次的東西,就是我們首先要定義深度學(xué)習(xí)在學(xué)什么。答案是深度學(xué)習(xí)其實是要去解耦它所觀察到的世界。

解耦有兩個數(shù)學(xué)概念可以去刻畫,第一個是可拆解,或者是模塊化,即一個特征中不同的位置應(yīng)該負(fù)責(zé)不同的功能。

第二個是等變性,我們可以舉一個比較有意思的例子來說明這一點。

十幾年前,女生如果要想拍一張漂亮的照片,她應(yīng)該是先化妝再去拍照,但到了現(xiàn)在,計算機(jī)視覺技術(shù)的特征等變性已經(jīng)非常高,女生完全可以先拍一張照片,然后用Photoshop上妝。

也就是說,物理世界的化妝變化其實在虛擬世界中是可以做到等變性的。

這兩個就是深度學(xué)習(xí)想要追求的一些東西,我們用群論去定義在觀測里面變化的概念。

比如,在下圖中,我畫了一個行星軌道圖來演示最本質(zhì)的深度學(xué)習(xí)動力學(xué),其實就是用群論概念重新定義什么是分類。每個軌道每一張圖的轉(zhuǎn)變是大家共享的一個力,對應(yīng)的是大家共享一些retribute;而跨軌道的變化,就是跨類別的變化。

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

基于這樣的重新定義,我們用這套數(shù)學(xué)語言就可以把三角形證明出來了。它的用途主要體現(xiàn)在兩點:第一,它解釋了confunder是什么,就是大家共享了一些背景;第二,我們可以用它來實實在在做一些最基礎(chǔ)的事情。

第一個就是“去偏”,我們發(fā)現(xiàn)現(xiàn)在最流行的“去偏”方法存在bug,用基于這個圖中的方法才能真正把confounder找到。也就是說,現(xiàn)在的一些“去偏”方法所找到的偏見也有可能是模型的缺陷,但缺陷不代表是偏見,而偏見是缺陷的一部分。我們要找的是那種很純的偏見。

第二個是可以做一些有意思的生成,比如想讓這個人去跳舞,跳舞的動作就是class,而她的身體等都是背景,當(dāng)把背景和偏見等東西找到,就可以組成你想要的生成效果。

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

接下來是比較流行的Prompt tuning,該如何用因果關(guān)系的圖去理解呢?下面是目前多模態(tài)prompt tuning一個最主要的流程,我們可以假設(shè)這個視覺特征經(jīng)過像CLIP這么大的模型近似的拆分。

基于這種假設(shè),那么Prompt tuning就是在找經(jīng)過tune的prompt 應(yīng)該怎樣變化。其中,dog這個class是給定的,所以要去做分類的話就是在找一個合適的背景,目前流行方法存在的一個問題是訓(xùn)練得越多效果越差。

學(xué)過機(jī)器學(xué)習(xí)的人都知道這個是over fitting,不足為奇。但是有一些case是你給的數(shù)據(jù)越多反而效果越差,這個就比較奇怪了,如果要解釋的話,完全可以用class與context不停地對抗,此消彼長的概念來解釋。

接下來講最后一點,現(xiàn)在大模型的特征尤其是視覺這一塊的特征,存在一個問題,就是它雖然做到了可拆解、模塊化,但是沒法做到等變性。

如下圖所示,當(dāng)你用一個比CLIP還強(qiáng)大的大模型去計算語言和圖片間距離的時候,就會發(fā)現(xiàn)其實這個房子從左到右慢慢的漸變過程,在語言上很難準(zhǔn)確地讓相似性變成等變性。

也就是說,語言上的“右”改成“左”,并不能夠反映這個房子從左到右的變化,而不等變就表明有一些信息丟失了,所以說我們還是用群論的理念去理解。

這就像我們上面說到的,不用真正物理上的化妝,只用用PS進(jìn)行化妝就可以了。用這樣一種簡單的方法去做一些loss上面的設(shè)計,我們就可以得到一個非常好的等變的多模態(tài)相似性。

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

下面是我們提的一個Benchmark,如果你在訓(xùn)練多模態(tài)模型的話,那么就可以拿這個Benchmark去測驗?zāi)愕拇竽P褪遣皇堑茸兊煤谩?/p>

張含望:大模型的研究離不開因果關(guān)系(Causality)丨GAIR 2023

最后,我想給做大模型尤其是多模態(tài)大模型的研究者一些學(xué)術(shù)上面的建議。

第一個,我們一定要多加關(guān)注等變性,因為可拆解性是可以通過數(shù)據(jù)量堆疊實現(xiàn)的,但是等變性不可以,所以在預(yù)訓(xùn)練的時候要注意這一點。

第二,現(xiàn)在所有多模態(tài)大模型都會有一個問題,多模態(tài)之間互通的瓶頸在于非語言模態(tài)(例如圖像)的spatial tokens和語言分布差的太遠(yuǎn)。

語言的本質(zhì)是可遞歸的符號系統(tǒng),這也是大語言模型可以推理的基礎(chǔ)。所以,如果想得到真正的多模態(tài)大模型,就必須找到一種“可遞歸,可拆解的”的tokenization的方法,把非語言模態(tài)轉(zhuǎn)成“可遞歸分布”的token。

以上就是我今天分享的內(nèi)容,謝謝大家!


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說