打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

本文作者：我在思考中

2022-01-04 10:48

導語：具身學習的本質(zhì)是主動。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

兩只新生貓的運動方式是否為主動，對視覺感知能力的影響非常大。這啟發(fā)了人工智能中的具身學習范式，其中最關鍵的要素便是——主動。

作者丨王曄

編輯丨青暮

UC伯克利教授Jitendra Malik前段時間發(fā)文表示，雖然以大型語言模型（LLMs）為例的“基礎模型”在機器翻譯和語音識別等方面非常有用，但將這些模型稱為 "基礎模型"，不禁讓人懷疑這些模型是不是真的可以成為人工智能研究的基礎。

并且，這種強烈的主張還有可能會被理解為：這些LLMs為所有的AI研究提供了一個模板。

Jitendra Malik教授認為，人工智能不一定要一味地模仿人類嬰兒的發(fā)展過程，但是感知、互動、在4D世界中運動、獲得常識性物理學模型、心智理論以及學習人類世界的語言顯然已成為人工智能的重要組成部分。

他將這種缺乏感覺運動基礎的、并且僅在“狹隘”的 AI 環(huán)境中展示了有效性的大型語言模型稱作“空中城堡”。“它們是非常有用的城堡，但它們?nèi)狈詫嵉幕A，仍然漂浮在空中，不太可能會創(chuàng)造出‘通用’的人工智能。”

類似的對“空中城堡”的批判不在少數(shù)，但很少有人通過行動來驗證自己的觀點。

就在不久前，BMVC最佳論文獎揭曉，由Rishabh Garg、高若涵和 Kristen Grauman共同發(fā)表的論文“Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video”獲得了Best Paper Award Runner-Up。而該項研究，讓我們再一次注意到了打破“空中城堡”的具體行動。

該論文一作為 Rishabh Garg，由高若涵博士以及Kristen Grauman教授共同指導。

AI科技評論有幸聯(lián)系到了高若涵博士，就獲獎論文以及他在打破“空中城堡”上的努力和展望進行了交流。

邁入多模態(tài)學習之路

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

高若涵博士于2021年1月獲得德克薩斯大學奧斯汀分校計算機科學系博士學位，師從Kristen Grauman 教授。目前，他在由李飛飛教授，吳佳俊教授，Silvio Savarese教授領導的斯坦福大學視覺和學習實驗室（SVL）擔任博士后研究員。

進入德克薩斯大學后，高若涵首先接觸了視覺信息處理的研究，后來又對聲音信息處理感興趣。在當時，該領域的模型普遍使用標記式的監(jiān)督學習，這一點吸引了他的注意。

“這種人工標記方式存在多種局限性。首先，規(guī)?；褂眯枰獦O大的人力物力來進行標記；其次，由于是人為標記的，因此可能會帶有主觀性錯誤，這樣獲取的信息不夠真實。”

所以，高若涵在那個時候就開始對自監(jiān)督學習很感興趣，一個想法在他腦海中浮現(xiàn)：AI能不能人類一樣，主動地利用自己獲取的數(shù)據(jù)的監(jiān)督信息作為監(jiān)督信號進行學習，而不是通過人工標記來學習？

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

高若涵注意到一個細節(jié)，“我當時在網(wǎng)上看視頻的時候，有一個地方吸引了我的注意。在一個沒有標記的視頻里面，我們不但能夠看到一幀一幀的圖片，還能夠聽聲音。如果我們在看視頻時聽到了狗叫聲，那大概也能夠預測出這個視頻的圖像里面有一只狗，它可能在某一幀叫了一聲，所以我們才能聽到它，聲音和畫面是存在對應關系的。在一個沒有任何標記的視頻里面，聲音和圖片的對應性相當于是一個免費的監(jiān)督信息，AI可以利用這些信息學習一些有用的特征?！?/span>

此后，高若涵對聲音信息處理、多模態(tài)學習等課題進行了深入研究，在博士期間主要研究了聲音的空間信息和語義信息。

提到得獎，高若涵講到：“我是通過推特才知道我們得獎了，畢竟在虛擬會議中，大家沒有足夠的交流機會?！?/span>

得獎了都沒注意到，那高博士他們在忙著研究什么呢？

多模態(tài)：聲音空間信息的利用

人類平時是通過左右耳一起感知聲音的，如果僅是聽單聲道的聲音，就無法感知一些空間信息。

但在現(xiàn)實生活中，我們感受到的世界是3D立體的。比如，有一個人在說話，我們可以聽出他是在我們的左邊還是右邊；有一輛車疾馳而過，我們也可以通過聲音變化判斷車的位置變化。“但是，我們平時看的很多視頻中的聲音都是單聲道的。在這種情況下，我們感受不到立體空間，也就是丟失了一些空間信息。”

在發(fā)表于CVPR2019的論文“2.5D Visual Sound”中，高若涵及其團隊將原始的單聲道聲音作為輸入，然后分析視頻中圖像上的一些空間信息，將單聲道的聲音轉(zhuǎn)化成雙聲道的聲音。這項研究還獲得了當年大會的最佳論文榮譽提名。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://arxiv.org/pdf/1812.04204.pdf

然而，在提取圖片和視頻中的空間信息時，他們采取的辦法是把圖片用ResNet-18提取出一個視覺特征向量（visual feature vector）來表示空間信息，然后指導從單聲道到雙聲道的預測?！暗沁@個特征向量有一定局限性，它相當于是一個black box，我們無從知曉它是如何提取空間信息的。”

因此在BMVC2021上發(fā)表的這項獲獎研究中，他們想更為直接地學習幾何等空間上的信息，而不是單純用一個空間向量從圖片里直接提取。“我們根據(jù)三個想法設計了一個多任務框架，能夠更好地學到一些空間特征，從而更好地做單聲道到雙聲道的轉(zhuǎn)化?！?/span>

三個任務

“通過一個多任務學習的框架，我們不但要去做從單聲道到雙聲道的轉(zhuǎn)換和預測，還要能夠利用視覺特征向量預測房間的脈沖響應（room pulse response）?！?/span>

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://vision.cs.utexas.edu/projects/geometry-aware-binaural/

高若涵解釋道，脈沖響應相當于是一個房間的遷移函數(shù)，包含了空間中關于聲源的信息，其中包括聲源位置、3D環(huán)境信息、照相機和麥克風的位置等。如果特征向量能夠很好地提取空間的信息，它就能夠很好的預測房間的脈沖響應。

脈沖響應只涉及一個損失函數(shù)，團隊還提出了另外兩個。一個和空間連貫性相關，可以讓網(wǎng)絡預測它最后生成的聲音和視覺信息是否一致。

此外，在一個視頻中，每幀畫面是有一定連續(xù)性的，相鄰的每個視頻幀之間在空間信息上的變化非常小。因此，團隊就利用了這樣的監(jiān)督信息，提出了另一個和幾何一致性相關的損失函數(shù)，更好地學習了空間向量。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

模型框架圖：為了從單聲道音頻生成準確的雙聲道音頻，視覺效果提供了可以與音頻預測共同學習的重要線索。本文提出的方法通過三個任務的設置，來學習提取空間信息（例如，吉他手在左側(cè)）、聲源位置隨時間的幾何一致性，以及來自周圍房間推斷的雙耳脈沖響應的線索。

數(shù)據(jù)集短缺

在人工智能研究項目中，數(shù)據(jù)短缺是常有的事情，特別是在探索新任務的時候。在BMVC2021的項目中，高若涵也遭遇了同樣的難題。當然，這并不是第一次。

在“2.5D Visual Sound”項目中，高若涵就發(fā)現(xiàn)：缺少雙聲道的視頻，或者聲音數(shù)據(jù)集很小，沒辦法訓練出mono-to-binaural的模型。

最終他們決定自己收集一個數(shù)據(jù)集，并模仿具身學習自主組裝了一個收集數(shù)據(jù)的儀器。

“它有一個假人頭，有像人耳朵形狀的左耳和右耳，左右耳的間距大概也跟人類的間距差不多。它的耳朵里面還有麥克風，可以錄聲音，我們又在上面放了一個專業(yè)攝像機，模仿人的眼睛。然后，我們就邀請了一些志愿者到音樂室里面彈各種樂器，收集了一個數(shù)據(jù)集?！?/span>

團隊利用了這個數(shù)據(jù)集訓練出了模型，但還存在局限性，“收集這種數(shù)據(jù)集其實很難，我們最后也只收集了5個多小時的視頻?！?/span>

在BMVC2021的項目中，此前收集的5個多小時的數(shù)據(jù)集已不足以支持繼續(xù)研究。

“要解決數(shù)據(jù)集問題，要么我們就從現(xiàn)實生活自己收集，它的優(yōu)點是很真實，但是這樣收集成本很高。或者我們可以在一個虛擬模擬器上直接得到這樣的數(shù)據(jù)集，但是可能會沒有現(xiàn)實生活中那么真實?！?/span>

因此，高若涵和合作者們收集了一個虛擬數(shù)據(jù)集?！拔覀冊谝粋€虛擬環(huán)境里隨意地放一些聲源，還放了智能體，它在里面到處走動，然后進行搜集。我們錄了一些視頻下來，這樣的數(shù)據(jù)大概能達到100多個小時，比之前的數(shù)據(jù)大了20多倍，這樣就能夠更好地幫助我們做算法的測試或者訓練。”

多模態(tài)：聲音語義信息的利用

“我們?nèi)瞬坏芸催€能聽，如果看和聽同時進行，那會讓很多任務變得更加簡單?！?/span>

上述研究中列舉了高博士對聲音空間信息的一些研究，而高博士的博士論文中除了研究聲音的空間信息，還重點研究了聲音的語義信息，探討了如何同時利用聲音和視覺更好地輔助學習視覺任務。那么如何理解聲音的語義信息呢？

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

“比如一個場景中能聽到狗在叫，還有小提琴的聲音，這些聲音其實都能夠與特定的物體或事件對應?！?/span>

關于聲音的語義信息，高博士研究過的聲源分離（audio-visual source separation），就是一個典型例子。

他分享了一個著名現(xiàn)象——McGurk Effect，大概意思是視覺能夠影響聲音的感知。視頻中人物發(fā)音是一樣的，但由于人的嘴唇運動方式不相同，我們在看視頻時所感知到的聲音竟然不一樣。

這種效應有什么意義呢？高若涵解釋到，“比如說在一個很嘈雜的環(huán)境里，我們的聲音與其它聲音有重疊，以至于聽不到對方在說什么。那么怎么能把一個人的聲音單獨分離出來呢？或是在一個樂隊演奏中，有人在彈鋼琴，有人在拉小提琴，他們演奏出來的曲子是很多樂器聲音的重疊結(jié)合，那么能不能把其中一種樂器的聲音單獨分離出來呢？”

高若涵表示，此前已有一些研究直接基于聲音信息進行分離，但難度很大?！叭绻窃谝粋€視頻里面，我們就可以利用視覺信息，比如嘴唇的運動，幫助分離出聲源?！?/span>

這種思路可以聯(lián)系到認知科學里面的“雞尾酒會效應”，“我們在參加一個雞尾酒宴會的時候，環(huán)境可能會很嘈雜，但是我們的注意力會很容易集中在與你進行談話的那個人身上。同樣，如果兩個人在談話，他們的聲音可能是混在一起的，但如果通過結(jié)合人臉的視覺信息，就可以更好地將聲音分離出來?！?/span>

高若涵的博士論文中也涉及了通過視覺信息進行聲源分離，包括分離人說話的聲音、樂器的聲音，而這些就是對聲音的語義信息的利用。

除此之外，在高若涵的“Listen to Look: Action Recognition by Previewing Audio”這篇論文中，他們還研究了“聲音如何幫助動作識別”，這也是對聲音語義信息的利用。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://vision.cs.utexas.edu/projects/listen_to_look/

“比如給我一個沒有處理過的很長的視頻，我們要預測里面的動作，比如滑水、滑雪等等。之前在計算機視覺領域，人們一般通過分析提取視覺特征來進行預測。但如果視頻非常長，就需要很多的計算資源?！?/span>

所以高若涵想到：其實聲音也可以告訴我們語義上的信息。

在一個很長的視頻里面，可以通過動作的聲音信息識別，把注意力集中到某一個片段里，然后跳到這個片段去進行視覺識別。這樣就可以極大提高視頻動作識別的效率。

簡言之，視覺和聽覺可以進行交互達到感知增益。而無論是視覺感知還是聽覺感知，都根植于身體行動，經(jīng)驗建構(gòu)于具身交互。身體及其與環(huán)境的交互對學習活動具有重要的意義和影響，多模態(tài)學習離不開具身理論支撐。

在具身環(huán)境下促進多模態(tài)交互

人類在感知世界時，并不是通過天天看視頻來進行學習。嬰兒在成長過程中也并不是一直看視頻學習，而是通過具身學習，用自己的雙耳、雙眼和觸摸等來感知這個世界，并基于反饋來學習技能。具身學習實際上也出現(xiàn)在高若涵研究的方方面面。

首先，他和合作者們研究過一個聽覺-視覺-導航三者結(jié)合的AI算法?！熬褪亲屢粋€智能體比如機器人在一個空間里通過聽覺和視覺信息來找東西。比如有一個電話鈴響了，機器人通過聲音和視覺的感知，巡航到聲音發(fā)生的地點。”

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://arxiv.org/pdf/2008.09622.pdf

具體而言，智能體學習多模態(tài)輸入的編碼以及模塊化導航策略，以通過一系列動態(tài)生成的視聽航點找到探測目標（例如，左上角房間的電話鈴聲）。例如，智能體首先在臥室里，聽到電話鈴響后，識別出它在另一個房間，并決定先離開臥室，然后它可以將電話位置縮小到餐廳，決定進入餐廳，然后找到電話。已有的分層導航方法依賴于啟發(fā)式方法來確定子目標，而高若涵和合作者們提出的模型學習了一種策略來與導航任務聯(lián)合設置航點。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

圖注：視聽導航的航點：給定以自我為中心的視聽傳感器輸入（深度和雙耳聲音），智能體在新環(huán)境中移動時建立幾何和聲學地圖（右上）。

此外，他研究的回聲響應也與具身學習有關。一些動物像蝙蝠、海豚和鯨魚，或者是視力受損的人類都具有非凡的回聲定位能力，這是一種用于感知空間布局和定位世界上物體的生物聲納。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://vision.cs.utexas.edu/projects/visualEchoes/gao-eccv2020-visualechoes.pdf

在ECCV 2020年的論文“VisualEchoes: Spatial Image Representation Learning through Echolocation”中，他們在一個逼真的 3D 室內(nèi)場景里，讓機器人自己發(fā)出一些聲音，得到此環(huán)境的回聲。然后，他們設置了一個自監(jiān)督學習的框架，通過回聲定位學習有用的視覺特征表示，這些特征對于單目深度估計、表面法線估計和視覺導航等視覺任務很有幫助。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

圖注：真實世界掃描環(huán)境中的回聲定位模擬。在訓練期間，智能體會前往用黃點標記的密集采樣位置。智能體主動發(fā)出 3 ms 全向掃描信號以獲取房間的回聲響應。

“除了聽和看我們還可以觸碰，觸覺其實也是一種模態(tài)，同時也是具身學習的重要方面，很多時候我們都是通過觸碰東西來感知世界的?！?/span>

因此，高若涵在最新的一篇文章“ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations”中，除了研究視覺、聽覺，還延展到了另一種感官知覺——觸覺。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文鏈接：https://arxiv.org/pdf/2109.07991.pdf

高博士用盤子舉了一個例子。從視覺上來講，如果桌子上放了一個盤子，我們可以從各個方向來看它，受盤子形狀、光源等影響，我們從各個方向看到的圖像是不一樣的。從聽覺上來講，如果桌子上有盤子，我們用小棒去敲打它，受材質(zhì)、形狀、大小等影響，我們聽到的聲音也是不同的。從觸覺感知這個盤子，盤子的不同位置的形狀不一樣，我們用手指觸碰的時候每個地方得到的感覺也是不一樣的。因此，高若涵所在團隊就想要建立一個基于三種感官知覺的數(shù)據(jù)集。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

“之前其實有一些這樣的3D物品數(shù)據(jù)集，但主要是與物體的形狀有關，不涉及觸覺、聽覺信息，所以不夠真實。在機器人領域也有類似數(shù)據(jù)集，只是規(guī)模很小?！?/span>

總而言之，要使用這種數(shù)據(jù)集需要考慮版本、成本等各種因素。因此，高若涵團隊建立了一個有100個用神經(jīng)網(wǎng)絡隱式表示的物體的數(shù)據(jù)集。

“我們把這100個物體以一種多模態(tài)的方式進行表示。對于每一個物體，通過視覺觀察獲得圖像，通過敲打等方式獲得聲音信息，通過觸摸某一個點獲得觸覺信息。這個數(shù)據(jù)集可以幫助進行多模態(tài)學習的研究，并且應用在具身學習的研究中。”

在上述討論中，高若涵重點分享了通過一系列基于多模態(tài)交互來改進感知效果的研究，包括聲音的空間信息和語義信息理解，觸覺信息的利用，并將具身學習融入到研究過程中，讓智能體通過交互來獲取數(shù)據(jù)，并同步地進行學習。這些進展都在反反復復強調(diào)：人并不是被動的感知外界的刺激，而是身體的多模態(tài)感知經(jīng)驗和外界刺激的交互以促進我們對概念的理解，要訓練出更好的模型亦是如此。

以上成果都凝聚在高若涵的博士論文中，該論文后來還獲得了2021 年 Michael H. Granof 大學最佳論文獎。該獎項由德克薩斯大學奧斯汀分校設立于 1979 年，旨在表彰出色的研究以及鼓勵最高的研究、寫作、學術水平。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

論文地址：https://repositories.lib.utexas.edu/handle/2152/86943

多模態(tài)互補打破“空中城堡”

回到文章開頭的問題，對于Jitendra Malik教授的觀點，高若涵表示，“我的理解是，智能體不單是能夠被動地感知這個世界，它需要自主運動，要和環(huán)境進行交互，才能更好地學習，這應該是未來智能體學習的一個發(fā)展方向。”問及該思想的科學依據(jù)或啟發(fā)來源，高博士分享了一個實驗：

1963年，心理學家Richard Held(1922-2016)和Alan Hein在“Movement-produced stimulation in the development of visually guided behavior”這項研究中進行了一個小貓“旋轉(zhuǎn)木馬”的實驗，了解小貓是如何進行視覺學習的。于是，他們就設計了一個類似于旋轉(zhuǎn)木馬的裝置，把兩個小貓放在該裝置的兩邊。

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

在小貓出生后的前八周內(nèi)，它們被放在一個黑暗環(huán)境里面喂養(yǎng)。每一天，心理學家都把兩只小貓同時拿出來放在該裝置上。其中一只小貓可以把四肢展開運動，它邁腿的時候這個“旋轉(zhuǎn)木馬”就會旋轉(zhuǎn)。而另一只小貓則無法和這個裝置互動，它被包裹在盒子里，無法展開四肢。

而第一只小貓有了動作使該裝置旋轉(zhuǎn)起來后，另一只小貓也必須跟著被動旋轉(zhuǎn)。在這種設置下，它們得到了同樣的視覺信息。但主動的小貓的動作可以使環(huán)境改變，它的動作能夠和視覺信息相關聯(lián)。而另一只被動的小貓雖然接收到同樣的視覺信息，但它的動作與視覺沒有關聯(lián)。

八周后，他們發(fā)現(xiàn)主動的小貓的視覺感知能力與正常情況下長大的小貓是差不多的，但是被動的小貓就有一些根本性的視覺感知問題。

所以他們得到的結(jié)論是，我們需要自主運動，來養(yǎng)成獲取視覺信息的能力，這樣才能夠幫助我們更好地學習。

“這與具身學習非常相關。我們在感知世界時，是與世界進行交互。我們可以通過移動，看到不同的東西，聽到不同的東西，感知到不同的信息。而這與我們主動的運動相關聯(lián)，從而可以使我們更好地學習。所以也是為什么說自監(jiān)督和強化學習的結(jié)合更加接近具身學習范式，我們需要的是主動與環(huán)境進行交互。而互補的多模態(tài)信號可以作為很好的自監(jiān)督學習的信號，幫助我們更有效率地學習。”

回到我們自己身上或者嬰兒身上，一個嬰兒從出生起，并不只是通過看一堆圖片或視頻學習的?！拔覀儾皇潜粍拥貙W習世界，而是通過主動地看、聽、觸、嗅等獲取各種模態(tài)信息進行學習。”

通過這樣的觀察，高若涵表示，他的長期研究目標是將來能夠建立多模態(tài)感知智能體，它不但能夠聽、看、觸碰，甚至還可以使用嗅覺、感知熱量，像人一樣能通過學習多模態(tài)信息，更好地輔助人類。

總結(jié)

高若涵表示，“提出一個問題比解決一個問題更重要?！?/span>我們在用“基礎模型”解決問題的同時，是否應該提出這種模型存在的問題，并想辦法突破“基礎模型”的限制？

就像Jitendra Malik教授所說的那樣，我們過度投資于當前的范式，而對智力領域中某些被忽視的部分存在的風險沒有足夠的警惕?！按笮驼Z言模型是有用的，像谷歌、臉書或微軟這樣的大型技術公司對其進行投資是很有意義的，但學術界應該奉行‘百花齊放’的策略。”

智能出現(xiàn)在智能體與環(huán)境的相互作用中，并且是感覺運動活動的結(jié)果。未來的監(jiān)督學習應該采用來自現(xiàn)實的監(jiān)督信息，自監(jiān)督和強化學習的結(jié)合更加接近這種范式，多模態(tài)學習為這種范式提供了一個新的思路和方向。

誰又能知道下一個AlexNet時刻會在何時何地發(fā)生？

參考資料：https://crfm.stanford.edu/commentary/2021/10/18/malik.html

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

我在思考中

運營

發(fā)私信

當月熱門文章

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習

打破大模型的“空中城堡”，BMVC最佳論文Runner-Up得主談多模態(tài)與具身學習