丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給汪思穎
發(fā)送

0

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

本文作者: 汪思穎 2019-05-14 18:59
導(dǎo)語:在經(jīng)典的 vision-language 任務(wù)上,能夠增長的空間已經(jīng)很小,已經(jīng)過了暴力的通過數(shù)據(jù)去學(xué)習(xí)的階段。真正的挑戰(zhàn)其實(shí)是一些細(xì)分的領(lǐng)域。

雷鋒網(wǎng) AI 科技評(píng)論按:本文作者為阿德萊德大學(xué)助理教授吳琦,去年,他在為 AI 科技評(píng)論投遞的獨(dú)家稿件中回顧了他從跨領(lǐng)域圖像識(shí)別到 vision-to-language 相關(guān)的研究思路,今年,他又一次介紹了  vision-and-language 任務(wù)的最新進(jìn)展。正文如下。

前言:

去年寫過一篇《萬字漫談 vision-language-action》,主要介紹總結(jié)了我們組圍繞 vision-language 的一些思路和工作。這次去 VALSE 參會(huì),很多同學(xué)和老師都提起那篇文章,說受到很多啟發(fā)。同時(shí)這次剛好有幸在 VALSE 上做關(guān)于 vision-and-language 2.0 的年度進(jìn)展報(bào)告,于是就有了把報(bào)告變成文字的想法,供各位閱讀參考。這篇文章主要介紹了一些 2018 年的這個(gè)領(lǐng)域比較受關(guān)注的文章,之所以叫 vision-and-language 2.0, 是因?yàn)檫@些文章都是在圍繞一些新的 vision-and-language 的任務(wù)展開的。

正文:

首先先做一些背景介紹,什么是 vision-and-language?我們知道 Computer Vision(計(jì)算機(jī)視覺)和 Natural Language Processing (自然語言處理)一直是兩個(gè)獨(dú)立的研究方向。計(jì)算機(jī)視覺是一門研究如何使機(jī)器 “看”的科學(xué),而自然語言處理是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科,主要探索的是如何使機(jī)器”讀”和“寫”的科學(xué)。他們相通的地方是,都需要用到很多機(jī)器學(xué)習(xí),模式識(shí)別等技術(shù),同時(shí),他們也都受益于近幾年的深度神經(jīng)網(wǎng)絡(luò)的進(jìn)步,可以說這兩個(gè)領(lǐng)域目前的 state-of-art,都是基于神經(jīng)網(wǎng)絡(luò)的,而且很多任務(wù),比如 CV 里的物體識(shí)別檢測(cè),NLP 里的機(jī)器翻譯,都已經(jīng)達(dá)到了可以實(shí)用的程度。于是從 2015 年開始,有一個(gè)趨勢(shì)就是將視覺與語言進(jìn)行一定程度的結(jié)合,從而產(chǎn)生出一些新的應(yīng)用與挑戰(zhàn)。比如 image captioning,visual question answering 等比較經(jīng)典的 vision-and-language 任務(wù)。

隨著這些工作的提出,vision-and-language 也變成了一個(gè)越來越熱門和主流的研究領(lǐng)域。這張圖顯示的是 2019 年 CVPR paper submission 的統(tǒng)計(jì),我們可以看到 vision-language 占了所有 submission 的 4%,甚至比比較傳統(tǒng)的 tracking,action recognition 都要高。說明越來越多的人在關(guān)注并且研究這個(gè)方向。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

圍繞 image captioning 和 VQA,有很多經(jīng)典的方法被提出,比如從 machine translation 借鑒來的 sequence-to-sequence model,也就是 cnn-rnn 模型,再到引入 attention(注意力機(jī)制),以及我們提出的以 attributes 作為中間層去生成更準(zhǔn)確的 caption 和答案,再到后來的 MCB,modular network 以及 CVPR 18 年的 bottom-up attention,都是非常經(jīng)典并且有效的方法。但是我們也發(fā)現(xiàn),盡管方法越來越多,模型越來越復(fù)雜,帶來的 improvement 卻非常有限。比如在 MS COCO image captioning 的 leader board 上,基本上在 bottom-up attention 之后,就沒有什么大的提升。再看 VQA,每年都有 VQA-challenge,我們可以看到對(duì)比 17 年和 18 年的結(jié)果,排在第一的隊(duì)伍相差也幾乎不到兩個(gè)點(diǎn)。當(dāng)然拋開這兩個(gè)數(shù)據(jù)本身存在的問題不談(VQA 數(shù)據(jù) bias 比較大,captioning 準(zhǔn)確的 evaluation 比較難),很多研究者開始意識(shí)到 vision-language 不僅僅是只圍繞 caption 和 VQA 的,由于任務(wù)和數(shù)據(jù)的限制,可挖掘的空間已經(jīng)變得越來越小。

從 17 年開始,我們就陸續(xù)看到一些新的 vision-language 的任務(wù)被提了出來,比如被研究比較多的 referring expression comprehension,也叫做 visual grounding,雖然 14 年就有類似的概念被提出,但基本上從 17 年開始相關(guān)的方法才多了起來。在這個(gè)任務(wù)當(dāng)中,給出一副圖像以及一段 expression,也就是自然語言的描述,我們期望得到一個(gè)區(qū)域,這個(gè)區(qū)域能夠準(zhǔn)確地對(duì)應(yīng)到這個(gè)描述。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

還有 visual dialog,視覺對(duì)話,需要機(jī)器能夠圍繞一張圖片展開問答形式的對(duì)話。還有像 text to image/video generation,是把 image caption 反過來做,通過語言去生成對(duì)應(yīng)的圖像和視頻。雖然這些任務(wù)看起來都很‘fancy’,但是其實(shí)也都是 image captioning 和 VQA 的變體。比如 referring expression,就是 image region – sentence matching。Visual dialog 就是一個(gè) multi-round VQA。從本質(zhì)上來講變化并不大,所以我們看到,在 image captioning 和 VQA 上能 work 的方法,在這些任務(wù)上也都表現(xiàn)很好。

但是從 18 年開始,vision-language 領(lǐng)域出現(xiàn)一些不一樣的任務(wù),使我們?cè)诜椒ㄉ夏苡羞M(jìn)一步的突破。我把這些新的任務(wù)稱為 vision-and-language 2.0。這些新的任務(wù)大致可以分成三個(gè)方面。第一個(gè)任務(wù)主要是圍繞 image captioning 方面展開的。過去的 image captioning 基本是直來直去的,給一副圖像,生成一個(gè) caption,至于生成的這個(gè) caption 是關(guān)注圖像當(dāng)中哪個(gè)物體,是什么風(fēng)格的 caption,是由訓(xùn)練數(shù)據(jù)的樣式來決定的,無法自由的控制?,F(xiàn)在我們希望能夠生成 diverse 甚至是 controllable 的 caption。所謂 diverse,就是我們希望生成不受訓(xùn)練數(shù)據(jù)約束的 caption,比如最近受關(guān)注的 novel object captioning,就是被描述的物體在訓(xùn)練集當(dāng)中從未出現(xiàn)過的情況。而所謂 controllable,就是我們希望我們能夠控制生成的 caption,比如 style (幽默/正式/口語等等)以及被描述的重點(diǎn)物體與區(qū)域,比如我們可以決定生成的 caption 是描述圖像背景還是描述前景中某個(gè)物體的,也可以決定其描述的詳細(xì)程度。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

另外一個(gè)方向是 reasoning,也就是視覺推理。我們知道在 VQA 里面,最常見的做法還是通過 feature embedding(比如cnn-rnn),end-to-end 的方式訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),這就導(dǎo)致中間的過程是一個(gè)黑箱,我們并不知道具體的推理過程是什么。即使我們有了 attention (注意力機(jī)制),也只是使得部分過程有了一定程度的可解釋性,比如 attention 可以反映出模型在回答問題時(shí)聚焦在圖像中哪些物體上。但是對(duì)于 VQA 這樣的應(yīng)用,推理的過程是至關(guān)重要的。所以針對(duì)這個(gè)方向,近期就有了一些新的數(shù)據(jù)和任務(wù),比如 CLEVR 數(shù)據(jù)集,Visual Commonsense Reasoning 數(shù)據(jù),以及最近 Chris Manning 提出的一個(gè)新的 GQA 的數(shù)據(jù)集。

第三個(gè)方向我把它總結(jié)為 ‘embodied‘,也就是將 vision-language 具體化到一些場(chǎng)景當(dāng)中,不再是基于靜態(tài)的圖片或者無法交互的視頻,而是一些可以交互的真實(shí)或者虛擬的場(chǎng)景。比如,在 18 年提出的 embodied QA 和 interactive QA,就是把 VQA 的問題放在了某一個(gè)場(chǎng)景下,回答問題需要 agent 在場(chǎng)景中移動(dòng)甚至是交互。同時(shí),我們組在 18 年提出了一個(gè)基于視覺-語言的導(dǎo)航任務(wù) (Vision-and-Language Navigation),以及最近剛剛提出的一個(gè) Remote Embodied Referring Expression 的任務(wù),都是將 vision-language 放在了一個(gè)具體的場(chǎng)景當(dāng)中去。

接下來我們就從這三個(gè)方面對(duì)一些去年的具有代表性的工作進(jìn)行介紹,來看看這些任務(wù)和方法與過去有什么不同。

1. Novel Object Captioning

這里想給大家介紹的第一個(gè)工作來自于 Georgia Tech,他們提出了一個(gè)新的數(shù)據(jù)以及任務(wù),叫做 novel object captioning。與傳統(tǒng)的 image captioning 不同的是,他這里做了一個(gè)限制,就是限制在測(cè)試集當(dāng)中出現(xiàn)的物體,在訓(xùn)練集當(dāng)中從沒有被描述過。這個(gè)概念其實(shí)類似于 zero-shot learning 的理念。在這個(gè)工作中,他們把數(shù)據(jù)分成了三個(gè)部分,分別是 in-domain,near-domain 和 out-of-domain,能夠方便的對(duì) image captioning 模型進(jìn)行比較全面的測(cè)試。In domain 就是物體在訓(xùn)練集當(dāng)中已經(jīng)出現(xiàn)過,即經(jīng)典的 image captioning 問題。Near-domain 是指圖片中最顯著的物體是 novel object,即沒有在訓(xùn)練集中出現(xiàn)過,而其他物體則有可能在訓(xùn)練數(shù)據(jù)中被描述過。Out-of-domain 是最難的,圖片中的所有物體都沒有在訓(xùn)練集當(dāng)中出現(xiàn)過。其實(shí)之前也有過類似的 setting,但是大部分都是從 coco image captioning 數(shù)據(jù)中分出不同的 split。而這個(gè)數(shù)據(jù)提供了新的標(biāo)注,同時(shí)提供了不同的測(cè)試 domain,能夠更全面的分析一個(gè) image captioning 模型。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

針對(duì)這個(gè)任務(wù),也有一些新的方法被提出,其中,neural baby talk 就是比較好的一個(gè)工作。這個(gè)工作同樣來自于 Georgia Tech,是由 Jiasen Lu 提出的,是 CVPR 2018 年的一篇 paper。在這個(gè)工作當(dāng)中,受到之前 Babytalk 當(dāng)中模板+填空的 captioning 生成方式的啟發(fā),他們把 novel-object image captioning 分成了兩個(gè)步驟:第一個(gè)步驟是模板生成。但是與早期 Babytalk 中使用提前定義好的模板不同,這里的模板是根據(jù)圖像自動(dòng)生成的。就是在每生成一個(gè)詞的時(shí)候,他做了一個(gè)判斷,判斷這個(gè)詞應(yīng)該是來自于文本還是來自于圖像。來自于文本的詞就組成了模板,比如下面這張圖中,生成模板就是 A <region?17> is sitting at a <region?123> with a <region?3>. 這里的 region-17 其實(shí)就是圖像里面的一個(gè) region proposal。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

然后他的第二步叫做 Filling in the slots,也就是填空。他用一個(gè)外部訓(xùn)練的分類器去對(duì)上面的那些區(qū)域進(jìn)行分類識(shí)別,然后將識(shí)別的結(jié)果填到上一步生成的 template 里面。所以這個(gè)時(shí)候,caption 的生成其實(shí)是不依賴于目標(biāo)物體是否被描述過,而是依賴于一個(gè)外部訓(xùn)練的分類器,也就是只要這個(gè)分類器見過足夠多的物體就可以,不需要有對(duì)應(yīng)的 caption 數(shù)據(jù)。比如上面這個(gè) region-17 識(shí)別的結(jié)果是 puppy,最后生成的 caption 就是 A puppy is sitting at a table with a cake。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

另外一個(gè)思路是由 ANU 的 Peter Anderson 提出的,叫做 constrained beam search。在 image captioning 里面常用的一個(gè) trick 就是 beam search。就是說我們在選擇下一個(gè)生成詞的時(shí)候,不是只選擇概率最大的那一個(gè),而是選擇概率最大的 b 個(gè)作為候選,b 就是 beam 的大小,然后再沿著這 b 個(gè) candidate,繼續(xù)尋找接下來的 b 個(gè)最佳的候選詞。這里這個(gè)工作提出了一個(gè) constrained beam search,就是在做 beam search 之前,他會(huì)先從圖像當(dāng)中提取一些 tag 出來。這個(gè) tag 當(dāng)然是可以外部訓(xùn)練的,可以是一些在 image captioning 訓(xùn)練集當(dāng)中沒有出現(xiàn)過的 tag。然后他利用這些標(biāo)簽建立了一個(gè)有限狀態(tài)機(jī)(Finite-state machine),然后按照有限狀態(tài)機(jī)的路線進(jìn)行 beam search,使得生成的 caption,既能符合合適的語法結(jié)構(gòu),又能夠包含所需的 tag。

2. Visual Reasoning

介紹完關(guān)于 novel object captioning 的工作,我們這里再介紹幾個(gè)與 visual reasoning 相關(guān)的工作。說到 visual reasoning,就不得不提到 17 年的 CLEVR (Compositional Language and Elementary Visual Reasoning),這是第一個(gè)專門針對(duì)視覺推理任務(wù)建立的數(shù)據(jù)集。這個(gè)數(shù)據(jù)中的圖片主要由是一些不同大小、顏色、形狀、材質(zhì)的幾何體組成,雖然圖像成分簡單,但是問題本身卻比較復(fù)雜,需要做比較復(fù)雜的推理。比如這里圖中的第一個(gè)問題就是 ‘大物體和金屬球的數(shù)量是一樣的嗎?’,為了能回答這個(gè)問題,我們首先需要找出大的物體還有金屬球(通過視覺),然后要分別計(jì)算各自的數(shù)量,最后判斷兩者的數(shù)量是不是相等,也就是為了回答這么一個(gè)問題,我們需要三步的推理。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

CLEVR 數(shù)據(jù)除了提供圖片-問題-答案這樣的標(biāo)注之外,也提過了邏輯推理過程(叫做 function)的標(biāo)注,比如上面這個(gè)問題需要三步的推理過程,就會(huì)有一個(gè)標(biāo)注是將三個(gè) function 連接成一個(gè)推理鏈。也就是提供了推理的 ground-truth,我們不僅能夠檢驗(yàn)?zāi)P褪欠窕卮饘?duì)問題,還能夠真正的評(píng)價(jià)一個(gè)模型是否具有足夠強(qiáng)的推理能力。這篇文章也發(fā)現(xiàn)在傳統(tǒng) VQA 數(shù)據(jù)上表現(xiàn)很好的模型(比如 MCB)在 CLEVR 上表現(xiàn)并不好,說明傳統(tǒng)的 VQA 結(jié)構(gòu)并沒有辦法通過 End-to-End 的訓(xùn)練來具備推理能力,需要有新的模型能夠完成相應(yīng)的推理。

這個(gè)數(shù)據(jù)提出以后,也有很多新的方法被提出來,比如像 Modular Network 在這項(xiàng)任務(wù)上表現(xiàn)就很好。我們這里挑選其中比較有名一個(gè)叫做 MAC(Memory,Attention and Composition)的方法進(jìn)行介紹。MAC 是由 NLP 領(lǐng)域里的巨擘 Chris Manning 提出的,是 ICLR18 的一篇文章。 

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

MAC 提供了一種全可微的模塊式的推理結(jié)構(gòu)。一個(gè) MAC 網(wǎng)絡(luò)主要分成了三個(gè)部分,輸入部分主要負(fù)責(zé)把圖像和問題進(jìn)行編碼。MAC recurrent unit 部分主要是通過對(duì) MAC 基本單元的堆疊以及排列進(jìn)行多次的推理。最后的輸出部分是結(jié)合推理后的特征得出答案。這里的關(guān)鍵部分就是一個(gè)所謂的 MAC 神經(jīng)元。MAC 神經(jīng)元又由三個(gè)運(yùn)算元串聯(lián)運(yùn)行組成:控制單元更新控制狀態(tài),以便在每次迭代中參與待解答問題的一些部分; 讀取單元在控制狀態(tài)和記憶狀態(tài)的引導(dǎo)下,提取信息;  寫入單元將這些檢索得到的信息整合進(jìn)記憶狀態(tài),迭代計(jì)算答案。這個(gè)模型的好處是整個(gè)‘推理’過程利用了 soft attention 機(jī)制對(duì)圖像信息進(jìn)行多輪的提取,整個(gè)過程全可微,壞處就是整個(gè)過程還是‘黑箱’,無法提供 explicit reasoning 的過程。

在最近的 CVPR19 上,Chris Manning 組又提出了一個(gè)新的數(shù)據(jù)叫做 GQA,可以看作是 CLEVR 的一個(gè)真實(shí)圖像的版本。因?yàn)?CLEVR 當(dāng)中的物體都是一些簡單的幾何體,形式比較單一。GQA 使用了真實(shí)的常見圖像作為輸入,問題的類型和 CLEVR 很類似,都需要很強(qiáng)的視覺推理能力才能夠完成。比如這里這個(gè)問題是:‘拿漢堡的那個(gè)小女孩兒的左邊的紅色物體上的食物是什么顏色的,黃色還是棕色?’。 回答這個(gè)問題,需要很強(qiáng)的空間以及邏輯推理能力。同樣的,類似于 CLEVR,這個(gè)數(shù)據(jù)也提供了所需邏輯推理鏈的標(biāo)注。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

另外一個(gè)和 reasoning 相關(guān)的工作,也是將出現(xiàn)在 CVPR19 上的最新的工作,叫做 VCR,Visual Commonsense Reasoning。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

這個(gè)工作很有意思,它會(huì)給圖片、給區(qū)域、給問題,模型必須在選擇題中選出一項(xiàng)正確答案。但是在選擇正確答案的同時(shí),還需要選擇出給出這個(gè)答案的原因。他們把這種能力稱之為 Cognition,就是認(rèn)知能力。比如這副圖當(dāng)中,問題是,為什么 person 4 指著 person 1。正確答案是,他正告訴 person 3 是 person 1 點(diǎn)了 pancake。而選擇這個(gè)答案的原因是,Person 3 正在給這張桌子上餐,她可能不知道這個(gè)是誰點(diǎn)的。我們可以看到,回答這個(gè)問題不僅僅需要視覺的感知能力,還需要常識(shí),以及推理等認(rèn)知能力。是非常有挑戰(zhàn)性的。這篇文章也提供一個(gè)簡單的 baseline。整個(gè)模型分為三個(gè)步驟,(1)grounding,理解問題和答案的意思;(2)contextualizing,結(jié)合圖像、問題、答案進(jìn)行進(jìn)一步理解,如弄清楚指代對(duì)象;(3)reasoning,推理視覺區(qū)域之間的內(nèi)在聯(lián)系。我們組其實(shí)一直都在關(guān)注如何將 common sense 引入到 vision-language 里面來,比如 17 年提出的 FVQA。這個(gè)工作很有前瞻性,但是我個(gè)人認(rèn)為這個(gè)任務(wù)對(duì)于目前的 vision-language 還是太難了,因?yàn)槲覀兡壳安]有一個(gè)非常完整的 common sense 的知識(shí)庫,而這個(gè)數(shù)據(jù)的規(guī)模也不足以讓我們學(xué)習(xí)到所需的 common sense,即使學(xué)習(xí)到,也是一種 overfitting。我認(rèn)為目前的推理,應(yīng)該是最好拋開 common sense 甚至是 domain knowledge,只在 visual 上去做,類似于CLEVR和GQA。

3. Embodied Vision-and-Language

在上一篇《萬字漫談vision-language-action》里我們就提到過,將 vision-language 和 action 結(jié)合起來是一個(gè)非常熱門并且 promising 的方向,包括我們組在內(nèi),很多大組都在這個(gè)方向上有所動(dòng)作。

首先我們介紹一下 embodied VQA。 這個(gè)任務(wù)是融合多模態(tài)信息,通過向放置在一個(gè)虛擬環(huán)境中的 agent 提出基于文本的問題,需要其在虛擬的空間環(huán)境中進(jìn)行路徑規(guī)劃(Navigation)和探索,以到達(dá)目標(biāo)位置并回答問題。比如這里的一個(gè)問題是,汽車是什么顏色的?但是這個(gè) agent 在當(dāng)前位置并看不到汽車,他就要先進(jìn)行路徑規(guī)劃,到達(dá)汽車所在的位置,從而進(jìn)一步的給出答案。這就需要 agent 能夠理解他們所處的環(huán)境,具有一定的路徑規(guī)劃和探索能力,同時(shí)又能夠回答問題。然后在 CVPR19 的一篇文章,是 Licheng Yu 他們提出的,是基于 Embodied VQA,把問題又提高了一個(gè)難度,叫做 MT-EQA。 在這個(gè)任務(wù)當(dāng)中,問題不是關(guān)于單一的物體,而是涉及到不同房間的不同物體,比如這里這個(gè)問題是臥室里的梳妝臺(tái)和衛(wèi)生間的盥洗臺(tái)是一個(gè)顏色么?

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

另外一個(gè)非常值得關(guān)注的方向就是我們?cè)?18 年 CVPR 上提出的 Vision-and-Language Navigation (https://bringmeaspoon.org/)。在這個(gè)任務(wù)當(dāng)中,我們提供一個(gè)基于真實(shí)拍攝室內(nèi)場(chǎng)景的虛擬環(huán)境,這些環(huán)境里面包含不同的房間(比如廚房,臥室,客廳)和物品。將一個(gè) agent 放置在這個(gè)環(huán)境當(dāng)中后,我們會(huì)給出一段基于自然語言的詳細(xì)的導(dǎo)航指令,比如離開某個(gè)房間,去到某個(gè)房間,遇到什么物體向哪個(gè)方向拐,停在哪里等等。然后我們需要這個(gè) agent 能夠跟隨這個(gè)指令,按照指令所描述的路徑,到達(dá)對(duì)應(yīng)的目的地。這就需要模型對(duì)語言和圖像同時(shí)進(jìn)行理解,把語言當(dāng)中描述的位置以及關(guān)鍵點(diǎn),定位到真實(shí)場(chǎng)景圖像當(dāng)中,然后執(zhí)行相對(duì)應(yīng)的動(dòng)作。這個(gè)數(shù)據(jù)在發(fā)布之后也受到很大的關(guān)注,我們也舉辦了相應(yīng)的 challenge。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

我們知道人工智能的一個(gè)長期目標(biāo)就是建立一個(gè)能夠觀察理解周圍環(huán)境,并且與人類交流,執(zhí)行相關(guān)命令的智能機(jī)器人。Computer vision 主要是教會(huì)機(jī)器人去感知,去看周圍的環(huán)境,而 NLP 賦予了機(jī)器人理解以及產(chǎn)生語言的能力。Referring expression 可以當(dāng)作是一種最簡單的 vision-language-action 模式,vision 是靜態(tài)的圖片,language 就是輸入的 query,action 就是一個(gè)簡單的 pointing 或者 detecting 的操作。而 vision-language navigation 會(huì)稍微復(fù)雜一些,視覺的輸入變成了動(dòng)態(tài)的環(huán)境,language 變成了一個(gè)很長的導(dǎo)航指令,動(dòng)作也變成了一系列的前后左右移動(dòng)的動(dòng)作。但是這個(gè)任務(wù)其實(shí)仔細(xì)想的話并不是特別符合實(shí)際,就是我們?yōu)槭裁匆o機(jī)器人一個(gè)這么復(fù)雜的指令幫助他去規(guī)劃路徑呢。而 referring expression 也并不是很切合實(shí)際,就是為什么我們明明可以看到圖片中的這個(gè)物體,還需要機(jī)器人幫我們指出來呢?在現(xiàn)實(shí)當(dāng)中,我們其實(shí)想要的是一個(gè)簡單的帶有目的性的指令,比如讓機(jī)器人去某個(gè)目的地去找某個(gè)他現(xiàn)在還觀察不到的物體,也就是 remote objects。比如,Bring me a cushion from the living room 就非常能夠切入到實(shí)際場(chǎng)景當(dāng)中去。

于是今年,基于上面提出的關(guān)于 navigation 的任務(wù), 我們又提出了一個(gè)將 navigation 和 referring expression 相結(jié)合的一個(gè)任務(wù),叫做 RERERE: Remote Embodied Referring Expressions in Real indoor Environments。在這個(gè)任務(wù)當(dāng)中,同樣我們會(huì)將 agent 放置于場(chǎng)景中的一個(gè)起始點(diǎn),與上一篇中給一個(gè)很長的 navigation guidance 不同的是,我們這里指令更加精煉,并且同時(shí)包含了兩個(gè)任務(wù),一個(gè)是導(dǎo)航到目的地,一個(gè)找到所描述的對(duì)應(yīng)的物品。比如,圖中這個(gè)例子 ‘Go to the stairs on level one and bring me the bottom picture that is next to the top of stairs.’, 我們只給出了物品所在的目的地,而沒有給出具體的路徑,這個(gè)更加符合我們?nèi)祟惖牧?xí)慣。而對(duì)于目的地的物體,我們也會(huì)以自然語言的形式,給出描述,從而能夠使其區(qū)別于其他物體。

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

同時(shí),在這個(gè)工作當(dāng)中,我們也提出了一個(gè)將 navigation 與 referring expression 結(jié)合的 navigator-pointer 模型。當(dāng)然,與人的 performance 相比,還有一定的差距。

總結(jié):

最后總結(jié)一下,首先我們看到在經(jīng)典的 vision-language 任務(wù)上,比如 image captioning 和 VQA,能夠增長的空間已經(jīng)很小,已經(jīng)過了暴力的通過數(shù)據(jù)去學(xué)習(xí)的階段。真正的挑戰(zhàn)其實(shí)是一些細(xì)分的領(lǐng)域,比如多樣性、可控性、推理以及如何將 vision-language 應(yīng)用在真實(shí)的場(chǎng)景當(dāng)中。18 年我們提出了很多有趣的、有挑戰(zhàn)性的新的任務(wù),相信接下來幾年會(huì)有很多新的方法被提出,來解決這些新的挑戰(zhàn)。也歡迎大家能夠關(guān)注我們的 embodied visual-navigation + referring expression 任務(wù),在這些新數(shù)據(jù)和任務(wù)上提出并研究新的算法。

最后,打個(gè)廣告,我們組有兩個(gè) vision-and-language 方向的全獎(jiǎng) PhD 名額,如果對(duì)這個(gè)方向感興趣,可以與我聯(lián)系(Dr. Qi Wu, qi.wu01@adelaide.edu.au)。

作者簡介:

吳琦博士現(xiàn)任澳大利亞阿德萊德大學(xué)(University of Adelaide)高級(jí)講師(助理教授),澳大利亞機(jī)器視覺研究中心(Australia Centre for Robotic Vision)Associate Investigator(副課題組長),澳大利亞國家杰出青年基金項(xiàng)目獲得者 (Australian Research Council DECRA Fellow),澳大利亞科學(xué)院羅素獎(jiǎng)(JG Russell Award)獲得者, 2018 NVIDIA Pioneering Research Award 獲得者。吳琦博士于 2015 年在英國巴斯大學(xué)獲得博士學(xué)位,致力于計(jì)算機(jī)視覺領(lǐng)域研究,尤其關(guān)注于 Vision-Language 相關(guān)領(lǐng)域的研究,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,AAAI,TPAMI 等會(huì)議與刊物上發(fā)表論文三十余篇。擔(dān)任 CVPR,ICCV,ECCV,NIPS,TPAMI,IJCV,TIP,TNN 等會(huì)議與期刊審稿人。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

一文縱覽 Vision-and-Language 領(lǐng)域最新研究與進(jìn)展

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說