0
本文作者: 汪思穎 | 2019-05-14 18:59 |
雷鋒網(wǎng) AI 科技評論按:本文作者為阿德萊德大學助理教授吳琦,去年,他在為 AI 科技評論投遞的獨家稿件中回顧了他從跨領域圖像識別到 vision-to-language 相關的研究思路,今年,他又一次介紹了 vision-and-language 任務的最新進展。正文如下。
前言:
去年寫過一篇《萬字漫談 vision-language-action》,主要介紹總結了我們組圍繞 vision-language 的一些思路和工作。這次去 VALSE 參會,很多同學和老師都提起那篇文章,說受到很多啟發(fā)。同時這次剛好有幸在 VALSE 上做關于 vision-and-language 2.0 的年度進展報告,于是就有了把報告變成文字的想法,供各位閱讀參考。這篇文章主要介紹了一些 2018 年的這個領域比較受關注的文章,之所以叫 vision-and-language 2.0, 是因為這些文章都是在圍繞一些新的 vision-and-language 的任務展開的。
正文:
首先先做一些背景介紹,什么是 vision-and-language?我們知道 Computer Vision(計算機視覺)和 Natural Language Processing (自然語言處理)一直是兩個獨立的研究方向。計算機視覺是一門研究如何使機器 “看”的科學,而自然語言處理是人工智能和語言學領域的分支學科,主要探索的是如何使機器”讀”和“寫”的科學。他們相通的地方是,都需要用到很多機器學習,模式識別等技術,同時,他們也都受益于近幾年的深度神經(jīng)網(wǎng)絡的進步,可以說這兩個領域目前的 state-of-art,都是基于神經(jīng)網(wǎng)絡的,而且很多任務,比如 CV 里的物體識別檢測,NLP 里的機器翻譯,都已經(jīng)達到了可以實用的程度。于是從 2015 年開始,有一個趨勢就是將視覺與語言進行一定程度的結合,從而產(chǎn)生出一些新的應用與挑戰(zhàn)。比如 image captioning,visual question answering 等比較經(jīng)典的 vision-and-language 任務。
隨著這些工作的提出,vision-and-language 也變成了一個越來越熱門和主流的研究領域。這張圖顯示的是 2019 年 CVPR paper submission 的統(tǒng)計,我們可以看到 vision-language 占了所有 submission 的 4%,甚至比比較傳統(tǒng)的 tracking,action recognition 都要高。說明越來越多的人在關注并且研究這個方向。
圍繞 image captioning 和 VQA,有很多經(jīng)典的方法被提出,比如從 machine translation 借鑒來的 sequence-to-sequence model,也就是 cnn-rnn 模型,再到引入 attention(注意力機制),以及我們提出的以 attributes 作為中間層去生成更準確的 caption 和答案,再到后來的 MCB,modular network 以及 CVPR 18 年的 bottom-up attention,都是非常經(jīng)典并且有效的方法。但是我們也發(fā)現(xiàn),盡管方法越來越多,模型越來越復雜,帶來的 improvement 卻非常有限。比如在 MS COCO image captioning 的 leader board 上,基本上在 bottom-up attention 之后,就沒有什么大的提升。再看 VQA,每年都有 VQA-challenge,我們可以看到對比 17 年和 18 年的結果,排在第一的隊伍相差也幾乎不到兩個點。當然拋開這兩個數(shù)據(jù)本身存在的問題不談(VQA 數(shù)據(jù) bias 比較大,captioning 準確的 evaluation 比較難),很多研究者開始意識到 vision-language 不僅僅是只圍繞 caption 和 VQA 的,由于任務和數(shù)據(jù)的限制,可挖掘的空間已經(jīng)變得越來越小。
從 17 年開始,我們就陸續(xù)看到一些新的 vision-language 的任務被提了出來,比如被研究比較多的 referring expression comprehension,也叫做 visual grounding,雖然 14 年就有類似的概念被提出,但基本上從 17 年開始相關的方法才多了起來。在這個任務當中,給出一副圖像以及一段 expression,也就是自然語言的描述,我們期望得到一個區(qū)域,這個區(qū)域能夠準確地對應到這個描述。
還有 visual dialog,視覺對話,需要機器能夠圍繞一張圖片展開問答形式的對話。還有像 text to image/video generation,是把 image caption 反過來做,通過語言去生成對應的圖像和視頻。雖然這些任務看起來都很‘fancy’,但是其實也都是 image captioning 和 VQA 的變體。比如 referring expression,就是 image region – sentence matching。Visual dialog 就是一個 multi-round VQA。從本質(zhì)上來講變化并不大,所以我們看到,在 image captioning 和 VQA 上能 work 的方法,在這些任務上也都表現(xiàn)很好。
但是從 18 年開始,vision-language 領域出現(xiàn)一些不一樣的任務,使我們在方法上能有進一步的突破。我把這些新的任務稱為 vision-and-language 2.0。這些新的任務大致可以分成三個方面。第一個任務主要是圍繞 image captioning 方面展開的。過去的 image captioning 基本是直來直去的,給一副圖像,生成一個 caption,至于生成的這個 caption 是關注圖像當中哪個物體,是什么風格的 caption,是由訓練數(shù)據(jù)的樣式來決定的,無法自由的控制。現(xiàn)在我們希望能夠生成 diverse 甚至是 controllable 的 caption。所謂 diverse,就是我們希望生成不受訓練數(shù)據(jù)約束的 caption,比如最近受關注的 novel object captioning,就是被描述的物體在訓練集當中從未出現(xiàn)過的情況。而所謂 controllable,就是我們希望我們能夠控制生成的 caption,比如 style (幽默/正式/口語等等)以及被描述的重點物體與區(qū)域,比如我們可以決定生成的 caption 是描述圖像背景還是描述前景中某個物體的,也可以決定其描述的詳細程度。
另外一個方向是 reasoning,也就是視覺推理。我們知道在 VQA 里面,最常見的做法還是通過 feature embedding(比如cnn-rnn),end-to-end 的方式訓練一個神經(jīng)網(wǎng)絡,這就導致中間的過程是一個黑箱,我們并不知道具體的推理過程是什么。即使我們有了 attention (注意力機制),也只是使得部分過程有了一定程度的可解釋性,比如 attention 可以反映出模型在回答問題時聚焦在圖像中哪些物體上。但是對于 VQA 這樣的應用,推理的過程是至關重要的。所以針對這個方向,近期就有了一些新的數(shù)據(jù)和任務,比如 CLEVR 數(shù)據(jù)集,Visual Commonsense Reasoning 數(shù)據(jù),以及最近 Chris Manning 提出的一個新的 GQA 的數(shù)據(jù)集。
第三個方向我把它總結為 ‘embodied‘,也就是將 vision-language 具體化到一些場景當中,不再是基于靜態(tài)的圖片或者無法交互的視頻,而是一些可以交互的真實或者虛擬的場景。比如,在 18 年提出的 embodied QA 和 interactive QA,就是把 VQA 的問題放在了某一個場景下,回答問題需要 agent 在場景中移動甚至是交互。同時,我們組在 18 年提出了一個基于視覺-語言的導航任務 (Vision-and-Language Navigation),以及最近剛剛提出的一個 Remote Embodied Referring Expression 的任務,都是將 vision-language 放在了一個具體的場景當中去。
接下來我們就從這三個方面對一些去年的具有代表性的工作進行介紹,來看看這些任務和方法與過去有什么不同。
1. Novel Object Captioning
這里想給大家介紹的第一個工作來自于 Georgia Tech,他們提出了一個新的數(shù)據(jù)以及任務,叫做 novel object captioning。與傳統(tǒng)的 image captioning 不同的是,他這里做了一個限制,就是限制在測試集當中出現(xiàn)的物體,在訓練集當中從沒有被描述過。這個概念其實類似于 zero-shot learning 的理念。在這個工作中,他們把數(shù)據(jù)分成了三個部分,分別是 in-domain,near-domain 和 out-of-domain,能夠方便的對 image captioning 模型進行比較全面的測試。In domain 就是物體在訓練集當中已經(jīng)出現(xiàn)過,即經(jīng)典的 image captioning 問題。Near-domain 是指圖片中最顯著的物體是 novel object,即沒有在訓練集中出現(xiàn)過,而其他物體則有可能在訓練數(shù)據(jù)中被描述過。Out-of-domain 是最難的,圖片中的所有物體都沒有在訓練集當中出現(xiàn)過。其實之前也有過類似的 setting,但是大部分都是從 coco image captioning 數(shù)據(jù)中分出不同的 split。而這個數(shù)據(jù)提供了新的標注,同時提供了不同的測試 domain,能夠更全面的分析一個 image captioning 模型。
針對這個任務,也有一些新的方法被提出,其中,neural baby talk 就是比較好的一個工作。這個工作同樣來自于 Georgia Tech,是由 Jiasen Lu 提出的,是 CVPR 2018 年的一篇 paper。在這個工作當中,受到之前 Babytalk 當中模板+填空的 captioning 生成方式的啟發(fā),他們把 novel-object image captioning 分成了兩個步驟:第一個步驟是模板生成。但是與早期 Babytalk 中使用提前定義好的模板不同,這里的模板是根據(jù)圖像自動生成的。就是在每生成一個詞的時候,他做了一個判斷,判斷這個詞應該是來自于文本還是來自于圖像。來自于文本的詞就組成了模板,比如下面這張圖中,生成模板就是 A <region?17> is sitting at a <region?123> with a <region?3>. 這里的 region-17 其實就是圖像里面的一個 region proposal。
然后他的第二步叫做 Filling in the slots,也就是填空。他用一個外部訓練的分類器去對上面的那些區(qū)域進行分類識別,然后將識別的結果填到上一步生成的 template 里面。所以這個時候,caption 的生成其實是不依賴于目標物體是否被描述過,而是依賴于一個外部訓練的分類器,也就是只要這個分類器見過足夠多的物體就可以,不需要有對應的 caption 數(shù)據(jù)。比如上面這個 region-17 識別的結果是 puppy,最后生成的 caption 就是 A puppy is sitting at a table with a cake。
另外一個思路是由 ANU 的 Peter Anderson 提出的,叫做 constrained beam search。在 image captioning 里面常用的一個 trick 就是 beam search。就是說我們在選擇下一個生成詞的時候,不是只選擇概率最大的那一個,而是選擇概率最大的 b 個作為候選,b 就是 beam 的大小,然后再沿著這 b 個 candidate,繼續(xù)尋找接下來的 b 個最佳的候選詞。這里這個工作提出了一個 constrained beam search,就是在做 beam search 之前,他會先從圖像當中提取一些 tag 出來。這個 tag 當然是可以外部訓練的,可以是一些在 image captioning 訓練集當中沒有出現(xiàn)過的 tag。然后他利用這些標簽建立了一個有限狀態(tài)機(Finite-state machine),然后按照有限狀態(tài)機的路線進行 beam search,使得生成的 caption,既能符合合適的語法結構,又能夠包含所需的 tag。
2. Visual Reasoning
介紹完關于 novel object captioning 的工作,我們這里再介紹幾個與 visual reasoning 相關的工作。說到 visual reasoning,就不得不提到 17 年的 CLEVR (Compositional Language and Elementary Visual Reasoning),這是第一個專門針對視覺推理任務建立的數(shù)據(jù)集。這個數(shù)據(jù)中的圖片主要由是一些不同大小、顏色、形狀、材質(zhì)的幾何體組成,雖然圖像成分簡單,但是問題本身卻比較復雜,需要做比較復雜的推理。比如這里圖中的第一個問題就是 ‘大物體和金屬球的數(shù)量是一樣的嗎?’,為了能回答這個問題,我們首先需要找出大的物體還有金屬球(通過視覺),然后要分別計算各自的數(shù)量,最后判斷兩者的數(shù)量是不是相等,也就是為了回答這么一個問題,我們需要三步的推理。
CLEVR 數(shù)據(jù)除了提供圖片-問題-答案這樣的標注之外,也提過了邏輯推理過程(叫做 function)的標注,比如上面這個問題需要三步的推理過程,就會有一個標注是將三個 function 連接成一個推理鏈。也就是提供了推理的 ground-truth,我們不僅能夠檢驗模型是否回答對問題,還能夠真正的評價一個模型是否具有足夠強的推理能力。這篇文章也發(fā)現(xiàn)在傳統(tǒng) VQA 數(shù)據(jù)上表現(xiàn)很好的模型(比如 MCB)在 CLEVR 上表現(xiàn)并不好,說明傳統(tǒng)的 VQA 結構并沒有辦法通過 End-to-End 的訓練來具備推理能力,需要有新的模型能夠完成相應的推理。
這個數(shù)據(jù)提出以后,也有很多新的方法被提出來,比如像 Modular Network 在這項任務上表現(xiàn)就很好。我們這里挑選其中比較有名一個叫做 MAC(Memory,Attention and Composition)的方法進行介紹。MAC 是由 NLP 領域里的巨擘 Chris Manning 提出的,是 ICLR18 的一篇文章。
MAC 提供了一種全可微的模塊式的推理結構。一個 MAC 網(wǎng)絡主要分成了三個部分,輸入部分主要負責把圖像和問題進行編碼。MAC recurrent unit 部分主要是通過對 MAC 基本單元的堆疊以及排列進行多次的推理。最后的輸出部分是結合推理后的特征得出答案。這里的關鍵部分就是一個所謂的 MAC 神經(jīng)元。MAC 神經(jīng)元又由三個運算元串聯(lián)運行組成:控制單元更新控制狀態(tài),以便在每次迭代中參與待解答問題的一些部分; 讀取單元在控制狀態(tài)和記憶狀態(tài)的引導下,提取信息; 寫入單元將這些檢索得到的信息整合進記憶狀態(tài),迭代計算答案。這個模型的好處是整個‘推理’過程利用了 soft attention 機制對圖像信息進行多輪的提取,整個過程全可微,壞處就是整個過程還是‘黑箱’,無法提供 explicit reasoning 的過程。
在最近的 CVPR19 上,Chris Manning 組又提出了一個新的數(shù)據(jù)叫做 GQA,可以看作是 CLEVR 的一個真實圖像的版本。因為 CLEVR 當中的物體都是一些簡單的幾何體,形式比較單一。GQA 使用了真實的常見圖像作為輸入,問題的類型和 CLEVR 很類似,都需要很強的視覺推理能力才能夠完成。比如這里這個問題是:‘拿漢堡的那個小女孩兒的左邊的紅色物體上的食物是什么顏色的,黃色還是棕色?’。 回答這個問題,需要很強的空間以及邏輯推理能力。同樣的,類似于 CLEVR,這個數(shù)據(jù)也提供了所需邏輯推理鏈的標注。
另外一個和 reasoning 相關的工作,也是將出現(xiàn)在 CVPR19 上的最新的工作,叫做 VCR,Visual Commonsense Reasoning。
這個工作很有意思,它會給圖片、給區(qū)域、給問題,模型必須在選擇題中選出一項正確答案。但是在選擇正確答案的同時,還需要選擇出給出這個答案的原因。他們把這種能力稱之為 Cognition,就是認知能力。比如這副圖當中,問題是,為什么 person 4 指著 person 1。正確答案是,他正告訴 person 3 是 person 1 點了 pancake。而選擇這個答案的原因是,Person 3 正在給這張桌子上餐,她可能不知道這個是誰點的。我們可以看到,回答這個問題不僅僅需要視覺的感知能力,還需要常識,以及推理等認知能力。是非常有挑戰(zhàn)性的。這篇文章也提供一個簡單的 baseline。整個模型分為三個步驟,(1)grounding,理解問題和答案的意思;(2)contextualizing,結合圖像、問題、答案進行進一步理解,如弄清楚指代對象;(3)reasoning,推理視覺區(qū)域之間的內(nèi)在聯(lián)系。我們組其實一直都在關注如何將 common sense 引入到 vision-language 里面來,比如 17 年提出的 FVQA。這個工作很有前瞻性,但是我個人認為這個任務對于目前的 vision-language 還是太難了,因為我們目前并沒有一個非常完整的 common sense 的知識庫,而這個數(shù)據(jù)的規(guī)模也不足以讓我們學習到所需的 common sense,即使學習到,也是一種 overfitting。我認為目前的推理,應該是最好拋開 common sense 甚至是 domain knowledge,只在 visual 上去做,類似于CLEVR和GQA。
3. Embodied Vision-and-Language
在上一篇《萬字漫談vision-language-action》里我們就提到過,將 vision-language 和 action 結合起來是一個非常熱門并且 promising 的方向,包括我們組在內(nèi),很多大組都在這個方向上有所動作。
首先我們介紹一下 embodied VQA。 這個任務是融合多模態(tài)信息,通過向放置在一個虛擬環(huán)境中的 agent 提出基于文本的問題,需要其在虛擬的空間環(huán)境中進行路徑規(guī)劃(Navigation)和探索,以到達目標位置并回答問題。比如這里的一個問題是,汽車是什么顏色的?但是這個 agent 在當前位置并看不到汽車,他就要先進行路徑規(guī)劃,到達汽車所在的位置,從而進一步的給出答案。這就需要 agent 能夠理解他們所處的環(huán)境,具有一定的路徑規(guī)劃和探索能力,同時又能夠回答問題。然后在 CVPR19 的一篇文章,是 Licheng Yu 他們提出的,是基于 Embodied VQA,把問題又提高了一個難度,叫做 MT-EQA。 在這個任務當中,問題不是關于單一的物體,而是涉及到不同房間的不同物體,比如這里這個問題是臥室里的梳妝臺和衛(wèi)生間的盥洗臺是一個顏色么?
另外一個非常值得關注的方向就是我們在 18 年 CVPR 上提出的 Vision-and-Language Navigation (https://bringmeaspoon.org/)。在這個任務當中,我們提供一個基于真實拍攝室內(nèi)場景的虛擬環(huán)境,這些環(huán)境里面包含不同的房間(比如廚房,臥室,客廳)和物品。將一個 agent 放置在這個環(huán)境當中后,我們會給出一段基于自然語言的詳細的導航指令,比如離開某個房間,去到某個房間,遇到什么物體向哪個方向拐,停在哪里等等。然后我們需要這個 agent 能夠跟隨這個指令,按照指令所描述的路徑,到達對應的目的地。這就需要模型對語言和圖像同時進行理解,把語言當中描述的位置以及關鍵點,定位到真實場景圖像當中,然后執(zhí)行相對應的動作。這個數(shù)據(jù)在發(fā)布之后也受到很大的關注,我們也舉辦了相應的 challenge。
我們知道人工智能的一個長期目標就是建立一個能夠觀察理解周圍環(huán)境,并且與人類交流,執(zhí)行相關命令的智能機器人。Computer vision 主要是教會機器人去感知,去看周圍的環(huán)境,而 NLP 賦予了機器人理解以及產(chǎn)生語言的能力。Referring expression 可以當作是一種最簡單的 vision-language-action 模式,vision 是靜態(tài)的圖片,language 就是輸入的 query,action 就是一個簡單的 pointing 或者 detecting 的操作。而 vision-language navigation 會稍微復雜一些,視覺的輸入變成了動態(tài)的環(huán)境,language 變成了一個很長的導航指令,動作也變成了一系列的前后左右移動的動作。但是這個任務其實仔細想的話并不是特別符合實際,就是我們?yōu)槭裁匆o機器人一個這么復雜的指令幫助他去規(guī)劃路徑呢。而 referring expression 也并不是很切合實際,就是為什么我們明明可以看到圖片中的這個物體,還需要機器人幫我們指出來呢?在現(xiàn)實當中,我們其實想要的是一個簡單的帶有目的性的指令,比如讓機器人去某個目的地去找某個他現(xiàn)在還觀察不到的物體,也就是 remote objects。比如,Bring me a cushion from the living room 就非常能夠切入到實際場景當中去。
于是今年,基于上面提出的關于 navigation 的任務, 我們又提出了一個將 navigation 和 referring expression 相結合的一個任務,叫做 RERERE: Remote Embodied Referring Expressions in Real indoor Environments。在這個任務當中,同樣我們會將 agent 放置于場景中的一個起始點,與上一篇中給一個很長的 navigation guidance 不同的是,我們這里指令更加精煉,并且同時包含了兩個任務,一個是導航到目的地,一個找到所描述的對應的物品。比如,圖中這個例子 ‘Go to the stairs on level one and bring me the bottom picture that is next to the top of stairs.’, 我們只給出了物品所在的目的地,而沒有給出具體的路徑,這個更加符合我們?nèi)祟惖牧晳T。而對于目的地的物體,我們也會以自然語言的形式,給出描述,從而能夠使其區(qū)別于其他物體。
同時,在這個工作當中,我們也提出了一個將 navigation 與 referring expression 結合的 navigator-pointer 模型。當然,與人的 performance 相比,還有一定的差距。
總結:
最后總結一下,首先我們看到在經(jīng)典的 vision-language 任務上,比如 image captioning 和 VQA,能夠增長的空間已經(jīng)很小,已經(jīng)過了暴力的通過數(shù)據(jù)去學習的階段。真正的挑戰(zhàn)其實是一些細分的領域,比如多樣性、可控性、推理以及如何將 vision-language 應用在真實的場景當中。18 年我們提出了很多有趣的、有挑戰(zhàn)性的新的任務,相信接下來幾年會有很多新的方法被提出,來解決這些新的挑戰(zhàn)。也歡迎大家能夠關注我們的 embodied visual-navigation + referring expression 任務,在這些新數(shù)據(jù)和任務上提出并研究新的算法。
最后,打個廣告,我們組有兩個 vision-and-language 方向的全獎 PhD 名額,如果對這個方向感興趣,可以與我聯(lián)系(Dr. Qi Wu, qi.wu01@adelaide.edu.au)。
作者簡介:
吳琦博士現(xiàn)任澳大利亞阿德萊德大學(University of Adelaide)高級講師(助理教授),澳大利亞機器視覺研究中心(Australia Centre for Robotic Vision)Associate Investigator(副課題組長),澳大利亞國家杰出青年基金項目獲得者 (Australian Research Council DECRA Fellow),澳大利亞科學院羅素獎(JG Russell Award)獲得者, 2018 NVIDIA Pioneering Research Award 獲得者。吳琦博士于 2015 年在英國巴斯大學獲得博士學位,致力于計算機視覺領域研究,尤其關注于 Vision-Language 相關領域的研究,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,AAAI,TPAMI 等會議與刊物上發(fā)表論文三十余篇。擔任 CVPR,ICCV,ECCV,NIPS,TPAMI,IJCV,TIP,TNN 等會議與期刊審稿人。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。