丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

本文作者: 奕欣 2018-05-21 13:15
導(dǎo)語:阿德萊德大學(xué)助理教授吳琦回顧了他從跨領(lǐng)域圖像識(shí)別到 Vision-to-Language 相關(guān)的研究思路,如今正將研究領(lǐng)域延伸到與 Action 相關(guān)的工作。

雷鋒網(wǎng) AI 科技評論按:本文作者為阿德萊德大學(xué)助理教授吳琦,他在為雷鋒網(wǎng) AI 科技評論投遞的獨(dú)家稿件中回顧了他從跨領(lǐng)域圖像識(shí)別到 Vision-to-Language 相關(guān)的研究思路,如今正將研究領(lǐng)域延伸到與 Action 相關(guān)的工作。雷鋒網(wǎng) AI 科技評論對文章做了不改動(dòng)原意的編輯。

大家好,我叫吳琦,目前在阿德萊德大學(xué)擔(dān)任講師(助理教授)。2014 年博士畢業(yè)之后,有幸加入澳大利亞阿德萊德大學(xué)(University of Adelaide)開始為期 3 年的博士后工作。由于博士期間主要研究內(nèi)容是跨領(lǐng)域圖像識(shí)別,所以博士后期間,原本希望能夠繼續(xù)開展與跨領(lǐng)域相關(guān)方面的研究。但是,在與博士后期間的導(dǎo)師 Anton van den Hengel、沈春華教授討論之后,決定跳出基于圖像內(nèi)部的跨領(lǐng)域研究,而展開圖像與其他外部領(lǐng)域的跨領(lǐng)域研究。恰逢 2015 年 CVPR 有數(shù)篇 image captioning 的工作,其中最有名的當(dāng)屬 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同時(shí) 2015 年的 MS COCO Image Captioning Challenge 也得到了大量的關(guān)注。所以當(dāng)時(shí)就決定開始研究與 Vision-to-Language 相關(guān)的跨領(lǐng)域問題。后來也在這個(gè)問題上越走越深,近三年在 CVPR,AAAI,IJCAI,TPAMI 等頂級會(huì)議與期刊上,先后發(fā)表了 15 篇與 vision-language 相關(guān)的論文,近期我們又將這個(gè)問題延伸到了與 Action 相關(guān)的領(lǐng)域,開啟了一個(gè)全新的方向。接下來我就介紹一下我的一些研究思路,工作,以及我對這個(gè)領(lǐng)域的一些想法。

1. Image Captioning with Attributes

我們 15 年第一個(gè)研究的問題是圍繞 image captioning 展開的,當(dāng)時(shí)這個(gè)方向的主流模型是基于 CNN-RNN 框架的,即輸入一張圖像,先用一個(gè) pre-trained 的 CNN 去提取圖像特征,然后,將這些 CNN 特征輸入到 RNN,也就是遞歸神經(jīng)網(wǎng)絡(luò)當(dāng)中去生成單詞序列。這種模型表面上看起來非常吸引人,依賴于強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò),能夠用 end-to-end 的方式學(xué)習(xí)到一個(gè)從圖像到語言(vision2language)的直接對應(yīng)關(guān)系,但忽略了一個(gè)重要的事實(shí)是,圖像和語言之間,其實(shí)是存在鴻溝的。雖然我們用神經(jīng)網(wǎng)絡(luò)將圖像空間和語言空間 embed 在同一個(gè)空間當(dāng)中,但直覺上告訴我,這兩個(gè)空間應(yīng)該需要一個(gè)共同的 sub-space 作為橋梁來連接。于是我們想到了 attributes,一種圖像和語言都擁有的特征。于是,基于上面提到的 CNN-RNN 結(jié)構(gòu),我們多加了一個(gè) attributes prediction layer。當(dāng)給定一張圖像,我們先去預(yù)測圖像當(dāng)中的各種 attributes(我們的 attributes 定義是廣義的,包括物體名稱,屬性,動(dòng)作,形容詞,副詞,情緒等等),然后再將這些 attributes 代替之前的 CNN 圖像特征(如圖 1),輸入到 RNN 當(dāng)中,生成語句。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 1:從圖像到詞語再到語句的 image captioning 模型

我們發(fā)現(xiàn)這個(gè)簡單的操作使我們的 image captioning 模型得到了大幅度的提升(見圖 2),并使得我們在 15 年 12 月的 MS COCO Image Captioning Challenge Leader Board 上在多項(xiàng)測評中排名第一(見圖 3)。論文后來也被 CVPR 2016 接收,見論文 [1]。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 2:Image captioning with predicted attributes

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 3: Our results (Q.Wu) on MS COCO Image Captioning Challenge Leader Board, Dec/2015

2. Visual Question Answering with Knowledge Base

看到 attributes 在 image captioning 上的作用之后,我們開始考慮,相同的思路是否可以擴(kuò)展到更多的 vision-and-language 的問題上?畢竟, vision 和 language 之間的 gap 是客觀存在的,而 attributes 能夠有效地縮小這種 gap。于是我們嘗試將相同的框架運(yùn)用在了 visual question answering(VQA)上(見圖 4),也取得了非常好的效果。相關(guān)結(jié)果已發(fā)表于 TPAMI,見論文 [2].

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 4:Adding intermediate attributes layer in VQA

然而,VQA 與其他 vision-to-language 不同的是,當(dāng)它需要一個(gè)機(jī)器去回答一個(gè)關(guān)于圖片內(nèi)容的問題的時(shí)候,機(jī)器不僅需要能夠理解圖像以及語言信息,還要能夠具有一定的常識(shí),比如,如圖 5 左邊所示,問題是圖中有幾只哺乳動(dòng)物。那么回答這個(gè)問題,我們不僅需要機(jī)器能夠「看」到圖中有狗,貓,鳥,還需要機(jī)器能夠「知道」狗和貓是哺乳動(dòng)物,而鳥不是,從而「告訴」我們正確答案是 2.

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 5:Common-sense required questions

于是,我們就自然想到了將知識(shí)圖譜(knowledge-base)引入到 VQA 當(dāng)中,幫助我們回答類似的問題。那么該如何連接起圖像內(nèi)容和 knowledge base 呢?我們的 attributes 這時(shí)候就又發(fā)揮了作用。我們先將圖像當(dāng)中的 attributes 提取出來,然后用這些 attributes 去 query knowledge base(DBpedia),去找到相關(guān)的知識(shí),然后再使用 Doc2Vec 將這些知識(shí)信息向量化,再與其他信息一起,輸入到 lstm 當(dāng)中,去回答問題。我們的這個(gè)框架(見圖 6)在 VQA 數(shù)據(jù)集上取得非常好的表現(xiàn),相關(guān)論文結(jié)果已發(fā)表于 CVPR 2016,見論文 [3].

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 6:VQA model with knowledge base

3. Visual Question Answering with Reasoning

雖然我們上面提出的框架解決了回答關(guān)于「common sense」的問題的挑戰(zhàn),但是我們發(fā)現(xiàn)在 VQA 當(dāng)中還有兩個(gè)重要的局限:

  • CV doesn't help a lot

    -Only CNN features are used

    -CNN is simply trained on object classification

    -VQA requires multiple CV tasks

  • No reasons are given

    -Image + Question -> Answer mapping

    -Providing reasons is important, e.g. Medical service, Defense.

第一個(gè)局限指的是, computer vision 其實(shí)在 VQA 當(dāng)中的作用太小了,我們僅僅是使用 CNN 去對圖片當(dāng)中的物體等內(nèi)容進(jìn)行理解。而一個(gè)基于圖片的問題,可能會(huì)問物體之間的關(guān)系,物體中的文字等等,而這其實(shí)是需要多種的計(jì)算機(jī)視覺算法來解決的。

第二個(gè)局限指的是,在回答問題的過程當(dāng)中,我們沒有辦法給出一個(gè)合理的解釋。而「可解釋性」恰恰是近幾年來大家都很關(guān)注的一個(gè)問題。如果我們在回答問題的過程當(dāng)中,還能夠提供一個(gè)可理解的原因,將是非常有幫助的。

那么基于上面這兩點(diǎn),我們就提出了一種新的 VQA 結(jié)構(gòu),我們稱之為 VQA Machine。這個(gè)模型可以接收多個(gè) computer vision 算法輸出的結(jié)果,包括 object detection,attributes prediction,relationship detection 等等,然后將這些信息進(jìn)行融合,得出答案。同時(shí),我們的 VQA Machine 除了輸出答案之外,還可以輸出原因。在這個(gè)模型中,我們首先將問題從三個(gè) level 來 encode。在每個(gè) level,問題的特征與圖像還有 facts 再一起 jointly embed 在一個(gè)空間當(dāng)中,通過一個(gè) co-attention model。這里的 facts 是一系列的,利用現(xiàn)有計(jì)算機(jī)視覺模型所提取出的圖像信息。最后,我們用一個(gè) MLP 去預(yù)測答案,基于每一層的 co-attention model 的輸出。那么回答問題的原因是通過對加權(quán)后的 facts 進(jìn)行排序和 re-formulating 得到的(見圖 7)。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 7:VQA Machine Framework

我們的這個(gè)模型在 VQA 數(shù)據(jù)集上取得了 state-of-art 的表現(xiàn)(見表 1),更重要的是,它在回答問題的同時(shí),能夠給出對應(yīng)的解釋,這是其他的 VQA 模型所做不到的。圖 8 給出了一些我們模型產(chǎn)生的結(jié)果。論文已經(jīng)發(fā)表在 CVPR 2017,見論文 [4].

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

表 1:Single model performance on the VQA-real test set

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 8:VQA Machine 結(jié)果,問題中帶顏色的詞表示 top-3 的權(quán)重。代表了這個(gè)詞在回答這個(gè)問題時(shí)的重要程度。圖像當(dāng)中高亮的區(qū)域表示圖像當(dāng)中 attention weights。顏色越深的區(qū)域說明這個(gè)區(qū)域?qū)卮饐栴}更重要。最后是我們模型生成的回答問題的原因。

4. Visual Question Answering with Explicit Reasoning on Knowledge Base

既然我們知道了 knowledge 和 reasoning 對 VQA 都很重要,那么怎么將它們兩個(gè)結(jié)合在一起,同時(shí)能夠進(jìn)行 explicit reasoning(顯示推理)呢?所謂 explicit reasoning,就是在回答問題的過程當(dāng)中,能夠給出一條可追溯的邏輯鏈。于是我們又提出了 Ahab,一種全新的能夠進(jìn)行顯式推理的 VQA 模型。在這個(gè)模型當(dāng)中,與以往直接把圖像加問題直接映射到答案不同,Ahab 首先會(huì)將問題和圖像映射到一個(gè) KB query,也就是知識(shí)圖譜的請求,從而能夠接入到成千上萬的知識(shí)庫當(dāng)中。另外,在我們的模型當(dāng)中,答案是 traceable 的,也就是可以追蹤的,因?yàn)槲覀兛梢酝ㄟ^ query 在知識(shí)圖譜當(dāng)中的搜索路徑得到一個(gè)顯式的邏輯鏈。

圖 9 展示了我們這一方法。我們的方法可以分成兩部分。

  • 首先在第一部分,我們會(huì)檢測到圖像當(dāng)中的相關(guān)概念,然后將他們連接到一個(gè)知識(shí)圖譜當(dāng)中,形成一個(gè)大的 graph,我們把這個(gè)過程稱為 RDF graph construction process。

  • 在第二步,一個(gè)自然語言式的問題會(huì)被首先處理成一個(gè)合適的 query,這個(gè) query 會(huì)去請求上一步當(dāng)中建立好的圖。這個(gè) query 可能會(huì)需要到多步的推理過程,而這個(gè) query 對應(yīng)的 response 則會(huì)形成對應(yīng)問題的答案。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 9:Our Ahab VQA model

最近我們又建立了一個(gè)新的 VQA 數(shù)據(jù)集叫做 fact-based VQA,就是基于事實(shí)的 VQA。我們之前的基于 explicit reasoning 的數(shù)據(jù)集只能接受固定的模板式的問題,而新的 FVQA 數(shù)據(jù)集提供了開放式的問題。除此之外,對每一對問題-答案,我們額外提供了一個(gè) supporting fact。所以在回答問題的時(shí)候,我們不僅需要機(jī)器回答出這個(gè)問題,而且還需要它能夠提供關(guān)于這個(gè)回答的 supporting fact。圖 10 展示了我們 Ahab 和 FVQA 模型和數(shù)據(jù)的一些例子。相關(guān)數(shù)據(jù)與結(jié)果分別發(fā)表于 IJCAI 2017 和 TPAMI,見論文 [5,6]

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 10: Ahab and FVQA datasets and results

5. Visual Dialog with GAN

從 VQA 可以衍生出很多新的問題,Visual Dialog(視覺對話)就是其中一個(gè)。與 VQA 只有一輪問答不同的是,視覺對話需要機(jī)器能夠使用自然的,常用的語言和人類維持一個(gè)關(guān)于圖像的,有意義的對話。與 VQA 另外一個(gè)不同的地方在于,VQA 的回答普遍都很簡短,比如說答案是 yes/no, 數(shù)字或者一個(gè)名詞等等,都偏機(jī)器化。而我們希望 visual dialog 能夠盡量的生成偏人性化的數(shù)據(jù)。比如圖 11 所示,面對同樣的問題,偏人類的回答信息量更豐富,也更自然,同時(shí)能夠關(guān)注到已經(jīng)發(fā)生的對話,并且引出接下來要發(fā)生的對話。而偏機(jī)器的回應(yīng),就非常的古板,基本沒法引出下面的對話。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 11:Human-like vs, Machine-like

于是我們提出了一個(gè)基于 GAN(生成對抗網(wǎng)絡(luò)) 的方法 (圖 12),來幫助模型生成更加符合人類預(yù)期的回答。我們左邊的生成網(wǎng)絡(luò)是使用了一個(gè) co-attention,也就是一個(gè)聯(lián)合注意力模型,來聯(lián)合的使用圖像,對話歷史來生成新的對話,然后我們將生成的對話以及從生成模型中得出的 attention,一起,送入到一個(gè)區(qū)別模型當(dāng)中,去區(qū)別對話為人工產(chǎn)生還是自動(dòng)生成,然后通過 reward 的形式,去鼓勵(lì)模型生成更加符合人類的對話。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 12:Dialog Generation via GAN

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 13: Co-attention model

這項(xiàng)工作中,我們使用了一個(gè) co-attention 的模型,來融合來自各個(gè)模態(tài)的信息,相同的模型也用在我們上面提到的 VQA-machine 當(dāng)中。在一個(gè) co-attention 模型當(dāng)中,我們使用兩種特征去 attend 另外一種特征,從而進(jìn)行有效地特征選擇。這種 attend 模式會(huì)以 sequential 的形式,運(yùn)行多次,直到每個(gè)輸入特征,均被另外兩個(gè)特征 attend 過。該論文 [7] 被 CVPR2018 接受,大會(huì) oral。

 從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 14:Visual Dialog 結(jié)果對比

6. 從 Vision-Language 到 Action

前面簡單介紹了一些我們在 vision-language 方向上的工作,可以看到,兩者的結(jié)合無論在技術(shù)上還是應(yīng)用上,都非常的有意義。然而,對于人工智能(AI)而言,這只是一小步。真正的人工智能,除了能夠?qū)W習(xí)理解多種模態(tài)的信息,還應(yīng)該能與真實(shí)環(huán)境進(jìn)行一定程度的交互,可以通過語言,也可以通過動(dòng)作,從而能夠改變環(huán)境,幫助人類解決實(shí)際問題。那么從今年開始,我們開始將 action 也加入進(jìn)來,進(jìn)行相關(guān)的研究。

我為此提出了一個(gè) V3A 的概念,就是 Vision,Ask,Answer and Act(如圖 15),在這個(gè)新的體系當(dāng)中,我們以視覺(Vision)作為中心,希望能夠展開提問(Ask),回答(Answer),行動(dòng)(Act)等操作。這樣,我們不僅能夠得到一個(gè)可訓(xùn)練的閉環(huán),還將很多之前的 vision-language 的任務(wù)也融合了進(jìn)來。比如在 Ask 這一端,我們可以有 Visual Question Generation,image captioning 這樣的任務(wù),因?yàn)樗麄兌际菑膱D像到語言的生成。在 Answer 這一端,我們可以有 VQA,Visual Dialog 這樣需要機(jī)器能夠產(chǎn)生答案的模型。在 Act 端,我們也有會(huì)有一些很有意思的任務(wù),比如 referring expression 和 visual navigation。那么我們在今年的 CVPR2018 上,在這兩個(gè)方面,都有相關(guān)的工作。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 15:V3A 框架

首先談一下 referring expression,也叫做 visual grounding,它需要機(jī)器在接受一張圖片和一個(gè) query(指令)之后,「指」出圖片當(dāng)中與這個(gè) query 所相關(guān)的物體。為了解決這個(gè)問題,我們提出了一個(gè)統(tǒng)一的框架,ParalleL AttentioN(PLAN)網(wǎng)絡(luò),用于從可變長度的自然描述中發(fā)現(xiàn)圖像中的對象。自然描述可以從短語到對話。PLAN 網(wǎng)絡(luò)有兩個(gè)注意力機(jī)制,將部分語言表達(dá)與全局可視內(nèi)容以及候選目標(biāo)直接相關(guān)聯(lián)。此外,注意力機(jī)制也是重復(fù)迭代的,這使得推理過程變的可視化和可解釋。來自兩個(gè)注意力的信息被合并在一起以推理被引用的對象。這兩種注意機(jī)制可以并行進(jìn)行訓(xùn)練,我們發(fā)現(xiàn)這種組合系統(tǒng)在不同長度語言輸入的幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的性能優(yōu)于現(xiàn)有技術(shù),比如 RefCOCO,RefCOCO +和 GuessWhat 數(shù)據(jù)集。論文見 [8]。我們還提出了一個(gè)基于 co-attention 的模型,論文見 [9]。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 16:ParalleL AttentioN(PLAN)Network

接下來再給大家介紹一篇我們關(guān)于 Visual Navigation 的文章 [10],該論文也被 CVPR2018 接受,由于 topic 比較新穎,也被大家關(guān)注。這篇文章叫「Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments」。我們這篇文章想要解決的一個(gè)問題就是如何使用一段復(fù)雜的人類語言命令,去指導(dǎo)機(jī)器人在模擬的真實(shí)環(huán)境當(dāng)中,去完成對應(yīng)的動(dòng)作和任務(wù)。

那么在這篇文章當(dāng)中,我們首先提出了一個(gè) Matterport3D Simulator。這個(gè) simulator 是一個(gè)大規(guī)模的可基于強(qiáng)化學(xué)習(xí)的可交互式環(huán)境。在這個(gè) simulator 的環(huán)境當(dāng)中,我們使用了 10800 張 densely-sampled 360 度全景加深度圖片,也就是說可以提供到點(diǎn)云級別。然后我們總共有 90 個(gè)真實(shí)世界的室內(nèi)場景。那么與之前一些虛擬環(huán)境的 simulator 而言,我們和這個(gè)新的 simulator 更具有挑戰(zhàn)性,同時(shí)更接近于實(shí)際。圖 17 展示了我們的一個(gè)真實(shí)場景以及機(jī)器人(agent)可移動(dòng)的路線。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 17:Example navigation graph for a partial floor of one building-scale scene in the Matterport3D Simulator. Navigable paths between panoramic viewpoints are illustrated in blue. Stairs can also be navigated to move between floors.

基于我們的 Matterport3D Simulator,我們又收集了一個(gè) Room-to-Room (R2R) 的數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集當(dāng)中,我們收集了 21567 條 navigation instruction(導(dǎo)航指令),平均長度為 29 個(gè)單詞。每一條指令都描述了一條跨越多個(gè)房間的指令。如圖 18 所示。圖 19 顯示了我們導(dǎo)航指令的用詞分布。

那么除了上述 simulator 和數(shù)據(jù),我們這篇文章還提出了一個(gè) sequence-to-sequence 的模型,改模型與 VQA 模型非常類似,只是將輸出動(dòng)作作為了一種 sequence,用 LSTM 來預(yù)測。我們還加入了諸如 teacher-forcing,student-forcing 等變種,取得了更好的效果。我們接下來會(huì)繼續(xù)擴(kuò)充數(shù)據(jù),并保留測試集,提供公平的測試平臺(tái),每年舉行相關(guān)的比賽。請大家關(guān)注!

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 18:Room-to-Room (R2R) navigation task. We focus on executing natural language navigation instructions in previously unseen real-world buildings. The agent's camera can be rotated freely. Blue discs indicate nearby (discretized) navigation options

 

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 19:Distribution of navigation instructions based on their first four words. Instructions are read from the center outwards. Arc lengths are proportional to the number of instructions containing each word. White areas represent words with individual contributions too small to show.

7. 總結(jié)與未來

人工智能是一個(gè)非常復(fù)雜的整體的系統(tǒng),涉及到視覺,語言,推理,學(xué)習(xí),動(dòng)作等等方面,那么計(jì)算機(jī)視覺作為人工智能領(lǐng)域內(nèi)的一個(gè)方向,除了關(guān)注經(jīng)典的純視覺的問題(比如圖像識(shí)別,物體分類等),也應(yīng)該關(guān)注如何與其他領(lǐng)域相結(jié)合來實(shí)現(xiàn)更高難度的任務(wù)與挑戰(zhàn)。視覺與語言(vision-language)的結(jié)合就是一個(gè)非常好的方向,不僅引出了像 image captioning 和 VQA 這種有意思的問題,還提出了很多技術(shù)方面的挑戰(zhàn),比如如何融合多領(lǐng)域多維度的信息。我們進(jìn)一步將 vision-language 引入到了 action 的領(lǐng)域,希望機(jī)器能夠具有問(Ask),答(Answer)和作(Act)的能力,實(shí)質(zhì)上就是希望機(jī)器能夠理解和處理視覺信息,語言信息,并輸出對應(yīng)的動(dòng)作信息,以完成更高程度的跨域信息融合。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

圖 20:Further plans

接下來我們將繼續(xù)在 vision-language-action 的方向上做更多的探索,目前的 room-to-room navigation 數(shù)據(jù)集只是第一步,我們接下來將基于我們的 Matterport3D Simulator, 進(jìn)一步提出 Visible Object Localization,Hidden Object Localization 和 Ask-to-find 的任務(wù)(如圖 20),希望 agent 能夠通過基于語言的指令,在場景中導(dǎo)航定位到可見(Visible)的物體,隱藏(Hidden)的物體,以及當(dāng)指令存在歧義時(shí),能夠提出問題,消除歧義,從而進(jìn)一步完成任務(wù)。

參考文獻(xiàn)

[1] Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[2] Qi Wu, Chunhua Shen, Peng Wang, Anthony Dick, Anton van den Hengel, Image Captioning and Visual Question Answering Based on Attributes and Their Related External Knowledge. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), Volume:40 Issue:6. 2018.

[3] Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick. Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, Nevada, US, Jun, 2016.

[4] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel. The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), Honolulu, Hawaii, US, Jul, 2017.

[5] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. Explicit Knowledge-based Reasoning for Visual Question Answering. International Joint Conference on Artificial Intelligence (IJCAI'17), Melbourne, Australia, Aug, 2017.

[6] Peng Wang*, Qi Wu*, Chunhua Shen, Anton van den Hengel, Anthony Dick. FVQA: Fact-based Visual Question Answering. IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), In Press, 2018.

[7] Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton van den Hengel. Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018. (Accepted 19/2/18). [Oral]

[8] Bohan Zhuang*, Qi Wu*, Chunhua Shen, Ian Reid, Anton van den Hengel. Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[9] Chaorui Deng*, Qi Wu*, Fuyuan Hu, Fan Lv, Mingkui Tan, Qingyao Wu. Visual Grounding via Accumulated Attention. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[10] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Snderhauf, Ian Reid, Stephen Gould, Anton van den Hengel. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[11] Qi Wu, Damien Teney, Peng Wang, Chunhua Shen, Anthony Dick, Anton van den Hengel. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding (CVIU), v. 163, p. 21-40, 2017.

[12] Damien Teney, Qi Wu, Anton van den Hengel. Visual Question Answering: A Tutorial. IEEE Signal Processing Magazine, v. 34, n. 6, p. 63-75, 2017

[13] Yan Huang, Qi Wu, Liang Wang. Learning Semantic Concepts and Order for Image and Sentence Matching. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[14] Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid. Visual Question Answering with Memory-Augmented Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, Utah, US, Jun, 2018.

[15] Bohan Zhuang*, Qi Wu*, Ian Reid, Chunhua Shen, Anton van den Hengel. HCVRD: a benchmark for largescale Human-Centered Visual Relationship Detection. AAAI Conference on Artificial Intelligence (AAAI'18), New Orleans, Louisiana, US, Feb, 2018. [Oral]

作者簡介

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

吳琦現(xiàn)任澳大利亞阿德萊德大學(xué)(University of Adelaide)講師(助理教授),澳大利亞機(jī)器視覺研究中心(Australia Centre for Robotic Vision)任 Associate Investigator(課題副組長)。在加入阿德萊德大學(xué)之前,擔(dān)任澳大利亞視覺科技中心(Australia Centre for Visual Technologies)博士后研究員。分別于 2015 年,2011 年于英國巴斯大學(xué)(University of Bath)取得博士學(xué)位和碩士學(xué)位。他的主要研究方向包括計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí)等,目前主要研究基于 vision-language 的相關(guān)課題,包括 image captioning,visual question answering,visual dialog 等。目前已在 CVPR,ICCV,ECCV,IJCAI,AAAI,TPAMI,TMM 等會(huì)議與刊物上發(fā)表論文數(shù)十篇。擔(dān)任 CVPR,ECCV,TPAMI,IJCV,TIP,TNN,TMM 等會(huì)議期刊審稿人。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

從 Vision 到 Language 再到 Action,萬字漫談三年跨域信息融合研究

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說