丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

本文作者: 我在思考中 2022-01-04 10:48
導(dǎo)語(yǔ):具身學(xué)習(xí)的本質(zhì)是主動(dòng)。
打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)
兩只新生貓的運(yùn)動(dòng)方式是否為主動(dòng),對(duì)視覺(jué)感知能力的影響非常大。這啟發(fā)了人工智能中的具身學(xué)習(xí)范式,其中最關(guān)鍵的要素便是——主動(dòng)。

作者丨王曄

編輯丨青暮

UC伯克利教授Jitendra Malik前段時(shí)間發(fā)文表示,雖然以大型語(yǔ)言模型(LLMs)為例的“基礎(chǔ)模型”在機(jī)器翻譯和語(yǔ)音識(shí)別等方面非常有用,但將這些模型稱為 "基礎(chǔ)模型",不禁讓人懷疑這些模型是不是真的可以成為人工智能研究的基礎(chǔ)。

并且,這種強(qiáng)烈的主張還有可能會(huì)被理解為:這些LLMs為所有的AI研究提供了一個(gè)模板。

Jitendra Malik教授認(rèn)為,人工智能不一定要一味地模仿人類嬰兒的發(fā)展過(guò)程,但是感知、互動(dòng)、在4D世界中運(yùn)動(dòng)、獲得常識(shí)性物理學(xué)模型、心智理論以及學(xué)習(xí)人類世界的語(yǔ)言顯然已成為人工智能的重要組成部分。

他將這種缺乏感覺(jué)運(yùn)動(dòng)基礎(chǔ)的、并且僅在“狹隘”的 AI 環(huán)境中展示了有效性的大型語(yǔ)言模型稱作“空中城堡”。“它們是非常有用的城堡,但它們?nèi)狈?jiān)實(shí)的基礎(chǔ),仍然漂浮在空中,不太可能會(huì)創(chuàng)造出‘通用’的人工智能。”

類似的對(duì)“空中城堡”的批判不在少數(shù),但很少有人通過(guò)行動(dòng)來(lái)驗(yàn)證自己的觀點(diǎn)。

就在不久前,BMVC最佳論文獎(jiǎng)揭曉,由Rishabh Garg、高若涵和 Kristen Grauman共同發(fā)表的論文“Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video”獲得了Best Paper Award Runner-Up。而該項(xiàng)研究,讓我們?cè)僖淮巫⒁獾搅舜蚱啤翱罩谐潜ぁ钡木唧w行動(dòng)。

該論文一作為 Rishabh Garg,由高若涵博士以及Kristen Grauman教授共同指導(dǎo)。

AI科技評(píng)論有幸聯(lián)系到了高若涵博士,就獲獎(jiǎng)?wù)撐囊约八诖蚱啤翱罩谐潜ぁ鄙系呐驼雇M(jìn)行了交流。



1

邁入多模態(tài)學(xué)習(xí)之路

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

高若涵博士于2021年1月獲得德克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系博士學(xué)位,師從Kristen Grauman 教授。目前,他在由李飛飛教授,吳佳俊教授,Silvio Savarese教授領(lǐng)導(dǎo)的斯坦福大學(xué)視覺(jué)和學(xué)習(xí)實(shí)驗(yàn)室(SVL)擔(dān)任博士后研究員。

進(jìn)入德克薩斯大學(xué)后,高若涵首先接觸了視覺(jué)信息處理的研究,后來(lái)又對(duì)聲音信息處理感興趣。在當(dāng)時(shí),該領(lǐng)域的模型普遍使用標(biāo)記式的監(jiān)督學(xué)習(xí),這一點(diǎn)吸引了他的注意。

“這種人工標(biāo)記方式存在多種局限性。首先,規(guī)?;褂眯枰獦O大的人力物力來(lái)進(jìn)行標(biāo)記;其次,由于是人為標(biāo)記的,因此可能會(huì)帶有主觀性錯(cuò)誤,這樣獲取的信息不夠真實(shí)?!?/span>

所以,高若涵在那個(gè)時(shí)候就開(kāi)始對(duì)自監(jiān)督學(xué)習(xí)很感興趣,一個(gè)想法在他腦海中浮現(xiàn):AI能不能人類一樣,主動(dòng)地利用自己獲取的數(shù)據(jù)的監(jiān)督信息作為監(jiān)督信號(hào)進(jìn)行學(xué)習(xí),而不是通過(guò)人工標(biāo)記來(lái)學(xué)習(xí)?

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

高若涵注意到一個(gè)細(xì)節(jié),“我當(dāng)時(shí)在網(wǎng)上看視頻的時(shí)候,有一個(gè)地方吸引了我的注意。在一個(gè)沒(méi)有標(biāo)記的視頻里面,我們不但能夠看到一幀一幀的圖片,還能夠聽(tīng)聲音。如果我們?cè)诳匆曨l時(shí)聽(tīng)到了狗叫聲,那大概也能夠預(yù)測(cè)出這個(gè)視頻的圖像里面有一只狗,它可能在某一幀叫了一聲,所以我們才能聽(tīng)到它,聲音和畫面是存在對(duì)應(yīng)關(guān)系的。在一個(gè)沒(méi)有任何標(biāo)記的視頻里面,聲音和圖片的對(duì)應(yīng)性相當(dāng)于是一個(gè)免費(fèi)的監(jiān)督信息,AI可以利用這些信息學(xué)習(xí)一些有用的特征。”

此后,高若涵對(duì)聲音信息處理、多模態(tài)學(xué)習(xí)等課題進(jìn)行了深入研究,在博士期間主要研究了聲音的空間信息和語(yǔ)義信息。

提到得獎(jiǎng),高若涵講到:“我是通過(guò)推特才知道我們得獎(jiǎng)了,畢竟在虛擬會(huì)議中,大家沒(méi)有足夠的交流機(jī)會(huì)?!?/span>

得獎(jiǎng)了都沒(méi)注意到,那高博士他們?cè)诿χ芯渴裁茨兀?/span>



2

多模態(tài):聲音空間信息的利用

人類平時(shí)是通過(guò)左右耳一起感知聲音的,如果僅是聽(tīng)單聲道的聲音,就無(wú)法感知一些空間信息。

但在現(xiàn)實(shí)生活中,我們感受到的世界是3D立體的。比如,有一個(gè)人在說(shuō)話,我們可以聽(tīng)出他是在我們的左邊還是右邊;有一輛車疾馳而過(guò),我們也可以通過(guò)聲音變化判斷車的位置變化?!暗?,我們平時(shí)看的很多視頻中的聲音都是單聲道的。在這種情況下,我們感受不到立體空間,也就是丟失了一些空間信息。”

在發(fā)表于CVPR2019的論文“2.5D Visual Sound”中,高若涵及其團(tuán)隊(duì)將原始的單聲道聲音作為輸入,然后分析視頻中圖像上的一些空間信息,將單聲道的聲音轉(zhuǎn)化成雙聲道的聲音。這項(xiàng)研究還獲得了當(dāng)年大會(huì)的最佳論文榮譽(yù)提名。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://arxiv.org/pdf/1812.04204.pdf

然而,在提取圖片和視頻中的空間信息時(shí),他們采取的辦法是把圖片用ResNet-18提取出一個(gè)視覺(jué)特征向量(visual feature vector)來(lái)表示空間信息,然后指導(dǎo)從單聲道到雙聲道的預(yù)測(cè)。“但是這個(gè)特征向量有一定局限性,它相當(dāng)于是一個(gè)black box,我們無(wú)從知曉它是如何提取空間信息的?!?/span>

因此在BMVC2021上發(fā)表的這項(xiàng)獲獎(jiǎng)研究中,他們想更為直接地學(xué)習(xí)幾何等空間上的信息,而不是單純用一個(gè)空間向量從圖片里直接提取。“我們根據(jù)三個(gè)想法設(shè)計(jì)了一個(gè)多任務(wù)框架,能夠更好地學(xué)到一些空間特征,從而更好地做單聲道到雙聲道的轉(zhuǎn)化?!?/span>

三個(gè)任務(wù)
“通過(guò)一個(gè)多任務(wù)學(xué)習(xí)的框架,我們不但要去做從單聲道到雙聲道的轉(zhuǎn)換和預(yù)測(cè),還要能夠利用視覺(jué)特征向量預(yù)測(cè)房間的脈沖響應(yīng)(room pulse response)。”

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://vision.cs.utexas.edu/projects/geometry-aware-binaural/

高若涵解釋道,脈沖響應(yīng)相當(dāng)于是一個(gè)房間的遷移函數(shù),包含了空間中關(guān)于聲源的信息,其中包括聲源位置、3D環(huán)境信息、照相機(jī)和麥克風(fēng)的位置等。如果特征向量能夠很好地提取空間的信息,它就能夠很好的預(yù)測(cè)房間的脈沖響應(yīng)。

脈沖響應(yīng)只涉及一個(gè)損失函數(shù),團(tuán)隊(duì)還提出了另外兩個(gè)。一個(gè)和空間連貫性相關(guān),可以讓網(wǎng)絡(luò)預(yù)測(cè)它最后生成的聲音和視覺(jué)信息是否一致。

此外,在一個(gè)視頻中,每幀畫面是有一定連續(xù)性的,相鄰的每個(gè)視頻幀之間在空間信息上的變化非常小。因此,團(tuán)隊(duì)就利用了這樣的監(jiān)督信息,提出了另一個(gè)和幾何一致性相關(guān)的損失函數(shù),更好地學(xué)習(xí)了空間向量。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

模型框架圖:為了從單聲道音頻生成準(zhǔn)確的雙聲道音頻,視覺(jué)效果提供了可以與音頻預(yù)測(cè)共同學(xué)習(xí)的重要線索。本文提出的方法通過(guò)三個(gè)任務(wù)的設(shè)置,來(lái)學(xué)習(xí)提取空間信息(例如,吉他手在左側(cè))、聲源位置隨時(shí)間的幾何一致性,以及來(lái)自周圍房間推斷的雙耳脈沖響應(yīng)的線索。

數(shù)據(jù)集短缺

在人工智能研究項(xiàng)目中,數(shù)據(jù)短缺是常有的事情,特別是在探索新任務(wù)的時(shí)候。在BMVC2021的項(xiàng)目中,高若涵也遭遇了同樣的難題。當(dāng)然,這并不是第一次。

在“2.5D Visual Sound”項(xiàng)目中,高若涵就發(fā)現(xiàn):缺少雙聲道的視頻,或者聲音數(shù)據(jù)集很小,沒(méi)辦法訓(xùn)練出mono-to-binaural的模型。

最終他們決定自己收集一個(gè)數(shù)據(jù)集,并模仿具身學(xué)習(xí)自主組裝了一個(gè)收集數(shù)據(jù)的儀器。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

“它有一個(gè)假人頭,有像人耳朵形狀的左耳和右耳,左右耳的間距大概也跟人類的間距差不多。它的耳朵里面還有麥克風(fēng),可以錄聲音,我們又在上面放了一個(gè)專業(yè)攝像機(jī) ,模仿人的眼睛。然后,我們就邀請(qǐng)了一些志愿者到音樂(lè)室里面彈各種樂(lè)器,收集了一個(gè)數(shù)據(jù)集。”

團(tuán)隊(duì)利用了這個(gè)數(shù)據(jù)集訓(xùn)練出了模型,但還存在局限性,“收集這種數(shù)據(jù)集其實(shí)很難,我們最后也只收集了5個(gè)多小時(shí)的視頻。”

在BMVC2021的項(xiàng)目中,此前收集的5個(gè)多小時(shí)的數(shù)據(jù)集已不足以支持繼續(xù)研究。

“要解決數(shù)據(jù)集問(wèn)題,要么我們就從現(xiàn)實(shí)生活自己收集,它的優(yōu)點(diǎn)是很真實(shí),但是這樣收集成本很高?;蛘呶覀兛梢栽谝粋€(gè)虛擬模擬器上直接得到這樣的數(shù)據(jù)集,但是可能會(huì)沒(méi)有現(xiàn)實(shí)生活中那么真實(shí)?!?/span>

因此,高若涵和合作者們收集了一個(gè)虛擬數(shù)據(jù)集?!拔覀?cè)谝粋€(gè)虛擬環(huán)境里隨意地放一些聲源,還放了智能體,它在里面到處走動(dòng),然后進(jìn)行搜集。我們錄了一些視頻下來(lái),這樣的數(shù)據(jù)大概能達(dá)到100多個(gè)小時(shí),比之前的數(shù)據(jù)大了20多倍,這樣就能夠更好地幫助我們做算法的測(cè)試或者訓(xùn)練。”



3

多模態(tài):聲音語(yǔ)義信息的利用

“我們?nèi)瞬坏芸催€能聽(tīng),如果看和聽(tīng)同時(shí)進(jìn)行,那會(huì)讓很多任務(wù)變得更加簡(jiǎn)單?!?/span>

上述研究中列舉了高博士對(duì)聲音空間信息的一些研究,而高博士的博士論文中除了研究聲音的空間信息,還重點(diǎn)研究了聲音的語(yǔ)義信息,探討了如何同時(shí)利用聲音和視覺(jué)更好地輔助學(xué)習(xí)視覺(jué)任務(wù)。那么如何理解聲音的語(yǔ)義信息呢?

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

“比如一個(gè)場(chǎng)景中能聽(tīng)到狗在叫,還有小提琴的聲音,這些聲音其實(shí)都能夠與特定的物體或事件對(duì)應(yīng)?!?/span>

關(guān)于聲音的語(yǔ)義信息,高博士研究過(guò)的聲源分離(audio-visual source separation),就是一個(gè)典型例子。

他分享了一個(gè)著名現(xiàn)象——McGurk Effect,大概意思是視覺(jué)能夠影響聲音的感知。視頻中人物發(fā)音是一樣的,但由于人的嘴唇運(yùn)動(dòng)方式不相同,我們?cè)诳匆曨l時(shí)所感知到的聲音竟然不一樣。
這種效應(yīng)有什么意義呢?高若涵解釋到,“比如說(shuō)在一個(gè)很嘈雜的環(huán)境里,我們的聲音與其它聲音有重疊,以至于聽(tīng)不到對(duì)方在說(shuō)什么。那么怎么能把一個(gè)人的聲音單獨(dú)分離出來(lái)呢?或是在一個(gè)樂(lè)隊(duì)演奏中,有人在彈鋼琴,有人在拉小提琴,他們演奏出來(lái)的曲子是很多樂(lè)器聲音的重疊結(jié)合,那么能不能把其中一種樂(lè)器的聲音單獨(dú)分離出來(lái)呢?”

高若涵表示,此前已有一些研究直接基于聲音信息進(jìn)行分離,但難度很大?!叭绻窃谝粋€(gè)視頻里面,我們就可以利用視覺(jué)信息,比如嘴唇的運(yùn)動(dòng),幫助分離出聲源?!?/span>

這種思路可以聯(lián)系到認(rèn)知科學(xué)里面的“雞尾酒會(huì)效應(yīng)”,“我們?cè)趨⒓右粋€(gè)雞尾酒宴會(huì)的時(shí)候,環(huán)境可能會(huì)很嘈雜,但是我們的注意力會(huì)很容易集中在與你進(jìn)行談話的那個(gè)人身上。同樣,如果兩個(gè)人在談話,他們的聲音可能是混在一起的,但如果通過(guò)結(jié)合人臉的視覺(jué)信息,就可以更好地將聲音分離出來(lái)?!?/span>

高若涵的博士論文中也涉及了通過(guò)視覺(jué)信息進(jìn)行聲源分離,包括分離人說(shuō)話的聲音、樂(lè)器的聲音,而這些就是對(duì)聲音的語(yǔ)義信息的利用。

除此之外,在高若涵的“Listen to Look: Action Recognition by Previewing Audio”這篇論文中,他們還研究了“聲音如何幫助動(dòng)作識(shí)別”,這也是對(duì)聲音語(yǔ)義信息的利用。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://vision.cs.utexas.edu/projects/listen_to_look/

“比如給我一個(gè)沒(méi)有處理過(guò)的很長(zhǎng)的視頻,我們要預(yù)測(cè)里面的動(dòng)作,比如滑水、滑雪等等。之前在計(jì)算機(jī)視覺(jué)領(lǐng)域,人們一般通過(guò)分析提取視覺(jué)特征來(lái)進(jìn)行預(yù)測(cè)。但如果視頻非常長(zhǎng),就需要很多的計(jì)算資源?!?/span>

所以高若涵想到:其實(shí)聲音也可以告訴我們語(yǔ)義上的信息。

在一個(gè)很長(zhǎng)的視頻里面,可以通過(guò)動(dòng)作的聲音信息識(shí)別,把注意力集中到某一個(gè)片段里,然后跳到這個(gè)片段去進(jìn)行視覺(jué)識(shí)別。這樣就可以極大提高視頻動(dòng)作識(shí)別的效率。

簡(jiǎn)言之,視覺(jué)和聽(tīng)覺(jué)可以進(jìn)行交互達(dá)到感知增益。而無(wú)論是視覺(jué)感知還是聽(tīng)覺(jué)感知,都根植于身體行動(dòng),經(jīng)驗(yàn)建構(gòu)于具身交互。身體及其與環(huán)境的交互對(duì)學(xué)習(xí)活動(dòng)具有重要的意義和影響,多模態(tài)學(xué)習(xí)離不開(kāi)具身理論支撐。



4

在具身環(huán)境下促進(jìn)多模態(tài)交互

人類在感知世界時(shí),并不是通過(guò)天天看視頻來(lái)進(jìn)行學(xué)習(xí)。嬰兒在成長(zhǎng)過(guò)程中也并不是一直看視頻學(xué)習(xí),而是通過(guò)具身學(xué)習(xí),用自己的雙耳、雙眼和觸摸等來(lái)感知這個(gè)世界,并基于反饋來(lái)學(xué)習(xí)技能。具身學(xué)習(xí)實(shí)際上也出現(xiàn)在高若涵研究的方方面面。

首先,他和合作者們研究過(guò)一個(gè)聽(tīng)覺(jué)-視覺(jué)-導(dǎo)航三者結(jié)合的AI算法?!熬褪亲屢粋€(gè)智能體比如機(jī)器人在一個(gè)空間里通過(guò)聽(tīng)覺(jué)和視覺(jué)信息來(lái)找東西。比如有一個(gè)電話鈴響了,機(jī)器人通過(guò)聲音和視覺(jué)的感知,巡航到聲音發(fā)生的地點(diǎn)。”

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://arxiv.org/pdf/2008.09622.pdf

具體而言,智能體學(xué)習(xí)多模態(tài)輸入的編碼以及模塊化導(dǎo)航策略,以通過(guò)一系列動(dòng)態(tài)生成的視聽(tīng)航點(diǎn)找到探測(cè)目標(biāo)(例如,左上角房間的電話鈴聲)。例如,智能體首先在臥室里,聽(tīng)到電話鈴響后,識(shí)別出它在另一個(gè)房間,并決定先離開(kāi)臥室,然后它可以將電話位置縮小到餐廳,決定進(jìn)入餐廳,然后找到電話。已有的分層導(dǎo)航方法依賴于啟發(fā)式方法來(lái)確定子目標(biāo),而高若涵和合作者們提出的模型學(xué)習(xí)了一種策略來(lái)與導(dǎo)航任務(wù)聯(lián)合設(shè)置航點(diǎn)。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

圖注:視聽(tīng)導(dǎo)航的航點(diǎn):給定以自我為中心的視聽(tīng)傳感器輸入(深度和雙耳聲音),智能體在新環(huán)境中移動(dòng)時(shí)建立幾何和聲學(xué)地圖(右上)。

此外,他研究的回聲響應(yīng)也與具身學(xué)習(xí)有關(guān)。一些動(dòng)物像蝙蝠、海豚和鯨魚,或者是視力受損的人類都具有非凡的回聲定位能力,這是一種用于感知空間布局和定位世界上物體的生物聲納。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://vision.cs.utexas.edu/projects/visualEchoes/gao-eccv2020-visualechoes.pdf

在ECCV 2020年的論文“VisualEchoes: Spatial Image Representation Learning through Echolocation”中,他們?cè)谝粋€(gè)逼真的 3D 室內(nèi)場(chǎng)景里,讓機(jī)器人自己發(fā)出一些聲音,得到此環(huán)境的回聲。然后,他們?cè)O(shè)置了一個(gè)自監(jiān)督學(xué)習(xí)的框架,通過(guò)回聲定位學(xué)習(xí)有用的視覺(jué)特征表示,這些特征對(duì)于單目深度估計(jì)、表面法線估計(jì)和視覺(jué)導(dǎo)航等視覺(jué)任務(wù)很有幫助。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

圖注:真實(shí)世界掃描環(huán)境中的回聲定位模擬。在訓(xùn)練期間,智能體會(huì)前往用黃點(diǎn)標(biāo)記的密集采樣位置。智能體主動(dòng)發(fā)出 3 ms 全向掃描信號(hào)以獲取房間的回聲響應(yīng)。

“除了聽(tīng)和看我們還可以觸碰,觸覺(jué)其實(shí)也是一種模態(tài),同時(shí)也是具身學(xué)習(xí)的重要方面,很多時(shí)候我們都是通過(guò)觸碰東西來(lái)感知世界的?!?/span>

因此,高若涵在最新的一篇文章“ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations”中,除了研究視覺(jué)、聽(tīng)覺(jué),還延展到了另一種感官知覺(jué)——觸覺(jué)。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文鏈接:https://arxiv.org/pdf/2109.07991.pdf

高博士用盤子舉了一個(gè)例子。從視覺(jué)上來(lái)講,如果桌子上放了一個(gè)盤子,我們可以從各個(gè)方向來(lái)看它,受盤子形狀、光源等影響,我們從各個(gè)方向看到的圖像是不一樣的。從聽(tīng)覺(jué)上來(lái)講,如果桌子上有盤子,我們用小棒去敲打它,受材質(zhì)、形狀、大小等影響,我們聽(tīng)到的聲音也是不同的。從觸覺(jué)感知這個(gè)盤子,盤子的不同位置的形狀不一樣,我們用手指觸碰的時(shí)候每個(gè)地方得到的感覺(jué)也是不一樣的。因此,高若涵所在團(tuán)隊(duì)就想要建立一個(gè)基于三種感官知覺(jué)的數(shù)據(jù)集。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

“之前其實(shí)有一些這樣的3D物品數(shù)據(jù)集,但主要是與物體的形狀有關(guān),不涉及觸覺(jué)、聽(tīng)覺(jué)信息,所以不夠真實(shí)。在機(jī)器人領(lǐng)域也有類似數(shù)據(jù)集,只是規(guī)模很小?!?/span>

總而言之,要使用這種數(shù)據(jù)集需要考慮版本、成本等各種因素。因此,高若涵團(tuán)隊(duì)建立了一個(gè)有100個(gè)用神經(jīng)網(wǎng)絡(luò)隱式表示的物體的數(shù)據(jù)集。

“我們把這100個(gè)物體以一種多模態(tài)的方式進(jìn)行表示。對(duì)于每一個(gè)物體,通過(guò)視覺(jué)觀察獲得圖像,通過(guò)敲打等方式獲得聲音信息,通過(guò)觸摸某一個(gè)點(diǎn)獲得觸覺(jué)信息。這個(gè)數(shù)據(jù)集可以幫助進(jìn)行多模態(tài)學(xué)習(xí)的研究,并且應(yīng)用在具身學(xué)習(xí)的研究中。”

在上述討論中,高若涵重點(diǎn)分享了通過(guò)一系列基于多模態(tài)交互來(lái)改進(jìn)感知效果的研究,包括聲音的空間信息和語(yǔ)義信息理解,觸覺(jué)信息的利用,并將具身學(xué)習(xí)融入到研究過(guò)程中,讓智能體通過(guò)交互來(lái)獲取數(shù)據(jù),并同步地進(jìn)行學(xué)習(xí)。這些進(jìn)展都在反反復(fù)復(fù)強(qiáng)調(diào):人并不是被動(dòng)的感知外界的刺激,而是身體的多模態(tài)感知經(jīng)驗(yàn)和外界刺激的交互以促進(jìn)我們對(duì)概念的理解,要訓(xùn)練出更好的模型亦是如此。

以上成果都凝聚在高若涵的博士論文中,該論文后來(lái)還獲得了2021 年 Michael H. Granof 大學(xué)最佳論文獎(jiǎng)。該獎(jiǎng)項(xiàng)由德克薩斯大學(xué)奧斯汀分校設(shè)立于 1979 年,旨在表彰出色的研究以及鼓勵(lì)最高的研究、寫作、學(xué)術(shù)水平。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

論文地址:https://repositories.lib.utexas.edu/handle/2152/86943



5

多模態(tài)互補(bǔ)打破“空中城堡”

回到文章開(kāi)頭的問(wèn)題,對(duì)于Jitendra Malik教授的觀點(diǎn),高若涵表示,“我的理解是,智能體不單是能夠被動(dòng)地感知這個(gè)世界,它需要自主運(yùn)動(dòng),要和環(huán)境進(jìn)行交互,才能更好地學(xué)習(xí),這應(yīng)該是未來(lái)智能體學(xué)習(xí)的一個(gè)發(fā)展方向。”問(wèn)及該思想的科學(xué)依據(jù)或啟發(fā)來(lái)源,高博士分享了一個(gè)實(shí)驗(yàn):

1963年,心理學(xué)家Richard Held(1922-2016)和Alan Hein在“Movement-produced stimulation in the development of visually guided behavior”這項(xiàng)研究中進(jìn)行了一個(gè)小貓“旋轉(zhuǎn)木馬”的實(shí)驗(yàn),了解小貓是如何進(jìn)行視覺(jué)學(xué)習(xí)的。于是,他們就設(shè)計(jì)了一個(gè)類似于旋轉(zhuǎn)木馬的裝置,把兩個(gè)小貓放在該裝置的兩邊。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

在小貓出生后的前八周內(nèi),它們被放在一個(gè)黑暗環(huán)境里面喂養(yǎng)。每一天,心理學(xué)家都把兩只小貓同時(shí)拿出來(lái)放在該裝置上。其中一只小貓可以把四肢展開(kāi)運(yùn)動(dòng),它邁腿的時(shí)候這個(gè)“旋轉(zhuǎn)木馬”就會(huì)旋轉(zhuǎn)。而另一只小貓則無(wú)法和這個(gè)裝置互動(dòng),它被包裹在盒子里,無(wú)法展開(kāi)四肢。

而第一只小貓有了動(dòng)作使該裝置旋轉(zhuǎn)起來(lái)后,另一只小貓也必須跟著被動(dòng)旋轉(zhuǎn)。在這種設(shè)置下,它們得到了同樣的視覺(jué)信息。但主動(dòng)的小貓的動(dòng)作可以使環(huán)境改變,它的動(dòng)作能夠和視覺(jué)信息相關(guān)聯(lián)。而另一只被動(dòng)的小貓雖然接收到同樣的視覺(jué)信息,但它的動(dòng)作與視覺(jué)沒(méi)有關(guān)聯(lián)。

八周后,他們發(fā)現(xiàn)主動(dòng)的小貓的視覺(jué)感知能力與正常情況下長(zhǎng)大的小貓是差不多的,但是被動(dòng)的小貓就有一些根本性的視覺(jué)感知問(wèn)題。

所以他們得到的結(jié)論是,我們需要自主運(yùn)動(dòng),來(lái)養(yǎng)成獲取視覺(jué)信息的能力,這樣才能夠幫助我們更好地學(xué)習(xí)。

“這與具身學(xué)習(xí)非常相關(guān)。我們?cè)诟兄澜鐣r(shí),是與世界進(jìn)行交互。我們可以通過(guò)移動(dòng),看到不同的東西,聽(tīng)到不同的東西,感知到不同的信息。而這與我們主動(dòng)的運(yùn)動(dòng)相關(guān)聯(lián),從而可以使我們更好地學(xué)習(xí)。所以也是為什么說(shuō)自監(jiān)督和強(qiáng)化學(xué)習(xí)的結(jié)合更加接近具身學(xué)習(xí)范式,我們需要的是主動(dòng)與環(huán)境進(jìn)行交互。而互補(bǔ)的多模態(tài)信號(hào)可以作為很好的自監(jiān)督學(xué)習(xí)的信號(hào),幫助我們更有效率地學(xué)習(xí)。

回到我們自己身上或者嬰兒身上,一個(gè)嬰兒從出生起,并不只是通過(guò)看一堆圖片或視頻學(xué)習(xí)的?!拔覀儾皇潜粍?dòng)地學(xué)習(xí)世界,而是通過(guò)主動(dòng)地看、聽(tīng)、觸、嗅等獲取各種模態(tài)信息進(jìn)行學(xué)習(xí)?!?/span>

通過(guò)這樣的觀察,高若涵表示,他的長(zhǎng)期研究目標(biāo)是將來(lái)能夠建立多模態(tài)感知智能體,它不但能夠聽(tīng)、看、觸碰,甚至還可以使用嗅覺(jué)、感知熱量,像人一樣能通過(guò)學(xué)習(xí)多模態(tài)信息,更好地輔助人類。



6

總結(jié)

高若涵表示,“提出一個(gè)問(wèn)題比解決一個(gè)問(wèn)題更重要?!?/span>我們?cè)谟谩盎A(chǔ)模型”解決問(wèn)題的同時(shí),是否應(yīng)該提出這種模型存在的問(wèn)題,并想辦法突破“基礎(chǔ)模型”的限制?

就像Jitendra Malik教授所說(shuō)的那樣,我們過(guò)度投資于當(dāng)前的范式,而對(duì)智力領(lǐng)域中某些被忽視的部分存在的風(fēng)險(xiǎn)沒(méi)有足夠的警惕?!按笮驼Z(yǔ)言模型是有用的,像谷歌、臉書或微軟這樣的大型技術(shù)公司對(duì)其進(jìn)行投資是很有意義的,但學(xué)術(shù)界應(yīng)該奉行‘百花齊放’的策略。”

智能出現(xiàn)在智能體與環(huán)境的相互作用中,并且是感覺(jué)運(yùn)動(dòng)活動(dòng)的結(jié)果。未來(lái)的監(jiān)督學(xué)習(xí)應(yīng)該采用來(lái)自現(xiàn)實(shí)的監(jiān)督信息,自監(jiān)督和強(qiáng)化學(xué)習(xí)的結(jié)合更加接近這種范式, 多模態(tài)學(xué)習(xí)為這種范式提供了一個(gè)新的思路和方向。

誰(shuí)又能知道下一個(gè)AlexNet時(shí)刻會(huì)在何時(shí)何地發(fā)生?

參考資料:https://crfm.stanford.edu/commentary/2021/10/18/malik.html


雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

打破大模型的“空中城堡”,BMVC最佳論文Runner-Up得主談多模態(tài)與具身學(xué)習(xí)

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)