丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

本文作者: camel 2018-06-10 21:06
導(dǎo)語:微軟、自動(dòng)化所、西北工業(yè)、華南理工

雷鋒網(wǎng) AI 科技評(píng)論按:視覺與語言的結(jié)合,相較于分割、檢測來講是比較新的研究領(lǐng)域,但或許正是因?yàn)槿绱?,在這個(gè)領(lǐng)域還有很多有待探索的地方。本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國論文宣講研討會(huì)中第四個(gè) Session——「Vision and Language」環(huán)節(jié)的四場論文報(bào)告。

在第一個(gè)報(bào)告中,微軟亞洲研究院的段楠博士介紹了他們將 VQA(視覺問答)和 VQG(視覺問題生成)兩項(xiàng)任務(wù)結(jié)合成一個(gè)統(tǒng)一模型 iQAN 的工作。由于 VAQ 與 VQG 在某種程度上具有同構(gòu)的結(jié)構(gòu)和相反的輸入輸出,因此兩者可以相互監(jiān)督,以進(jìn)一步同時(shí)提升兩個(gè)任務(wù)的表現(xiàn)。

第二個(gè)報(bào)告由來自中科院自動(dòng)化所黃巖介紹他們在圖文匹配方面的工作。不同與其他方法直接提取圖像和句子的特征然后進(jìn)行相似性比較,他們認(rèn)為(1)圖片比語句包含更多信息;(2)全局圖像特征并不一定好,于是他們提出了先對(duì)圖片進(jìn)行語義概念提取,再將這些語義概念進(jìn)行排序,之后再進(jìn)行圖文匹配的比較。

來自西北工業(yè)大學(xué)的王鵬教授在第三個(gè)報(bào)告中介紹了他們在 Visual Dialog 生成方面的工作,他們提出了一種基于對(duì)抗學(xué)習(xí)的看圖生成對(duì)話的方法,這種方法可以在保證問答信息的真實(shí)性的情況下,維持對(duì)話的連續(xù)性。

在第四個(gè)報(bào)告中,來自華南理工大學(xué)的譚明奎教授介紹了他們在 Visual Grounding 任務(wù)中的工作,也即給定圖片和描述性語句,從圖中找出最相關(guān)的物體或區(qū)域。他們將這個(gè)問題分解為三個(gè)子 attetion 問題,并在提取其中一中數(shù)據(jù)的特征時(shí),其他兩個(gè)作為輔助信息來提升其提取質(zhì)量。

雷鋒網(wǎng)注:

[1] CVPR 2018 中國論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺專委會(huì)、中國圖象圖形學(xué)會(huì)視覺大數(shù)據(jù)專委會(huì)合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session(共 22 個(gè)報(bào)告),1 個(gè)論壇,以及 20 多個(gè) posters,AI 科技評(píng)論將為您詳細(xì)報(bào)道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國鹽湖城召開。據(jù) CVPR 官網(wǎng)顯示,今年大會(huì)有超過 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長了近 25%。

更多報(bào)道請(qǐng)參看雷鋒網(wǎng):

Session 1:GAN and Synthesis

Session 2: Deep Learning

Session 3: Person Re-Identification and Tracking

Session 4: Vision and Language

Session 5: Segmentation, Detection

Session 6: Human, Face and 3D Shape


一、融合VQA和VQG

論文:Visual Question Generation as Dual Task of Visual Question Answering

報(bào)告人:段楠 - 微軟亞洲研究院

論文下載地址:https://arxiv.org/abs/1709.07192

所謂 visual question answering (VQA),即輸入 images 和 open-ended questions,生成相關(guān)的 answer;而所謂 visual question generation (VQG),即輸入 images 和 answers,能夠生成相關(guān)的 questions。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

近來的 VQA 和 VQG 都是兩個(gè)比較熱門的研究課題,但是基本上都是獨(dú)立的研究。段楠認(rèn)為這兩項(xiàng)研究本質(zhì)上具有同構(gòu)的結(jié)構(gòu),即編碼-融合-解碼通道,不同之處只是 Q 和 A 的位置。因此他們提出將這兩個(gè)任務(wù)融合進(jìn)同一個(gè)端到端的框架 Invertible Question Answering Network (iQAN) 中,利用它們之間的相互關(guān)系來共同促進(jìn)兩者的表現(xiàn)。

針對(duì) VQA 部分,他們選用了目前常用的模型 MUTAN VQA,如下圖所示:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

MUTAN VQA 本質(zhì)上是一個(gè)雙線性融合模型??紤]到 VQG 與 VQA 同構(gòu),因此他們對(duì) MUTAN 稍加改造(如下圖將 Q、A 位置互換)得到對(duì)偶的 MUTAN 形式:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

通過兩個(gè)模塊中 q 與 Q,a 與 A 的相互監(jiān)督來提升 VQA 和 VQG 的表現(xiàn)?;谶@樣的思考,他們構(gòu)建了端到端的 iQAN 框架如下:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

這里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相應(yīng)的 VQA loss 和 VQG loss。其次如剛才提到,由 q 與 Q,a 與 A 的相互監(jiān)督得到 dual regularizer 的 loss。另外,image 即作為 VQA 的輸入,也作為 VQG 的輸入,因此它們在參數(shù)上是共享的,因此他們又做了一個(gè) embedding sharing 的部分。

部分實(shí)驗(yàn)結(jié)果如下:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

段楠提到,在這篇文章中他們使用的主要是 MUTAN 的框架,而事實(shí)上可以很容易替換成別的框架,對(duì)比實(shí)驗(yàn)如下,分別使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

這里是一個(gè)注意力熱圖結(jié)果:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

二、圖文匹配

論文:Learning Semantic Concepts and Order for Image and Sentence Matching

報(bào)告人:黃巖 - 中科院自動(dòng)化所

論文下載地址:https://arxiv.org/abs/1712.02036

一張圖片包含信息豐富多彩,而如果單單用一個(gè)句子來描述就會(huì)漏掉許多信息。這或許也是當(dāng)前圖像與文本匹配任務(wù)當(dāng)中的一個(gè)問題。黃巖等人針對(duì)此問題,提出了學(xué)習(xí)圖像語義概念和順序,然后再進(jìn)行圖像/文本匹配的思路。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

如上圖所示,他們希望能先提取出圖像中所包含的基本概念,例如 cheetah、gazelle、grass、green、chasing 等,包括各種事物、屬性、關(guān)系等;然后學(xué)習(xí)出這些語義概念的順序,如 cheetah chasing gazelle grass,顯然這里不同的語義順序也將導(dǎo)致不同的語義意義?;谶@些語義概念和順序在進(jìn)行圖片與文本的匹配。

整體來說,即用多區(qū)域、多標(biāo)簽的 CNN 來進(jìn)行概念預(yù)測,用全局上下文模塊以及語句生成來進(jìn)行順序?qū)W習(xí)。模型框架如下圖所示:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

a)針對(duì)句子用 LSTM 學(xué)習(xí)其特性;(b)使用多區(qū)域、多標(biāo)簽的 CNN 從圖中進(jìn)行語義概念提?。唬?strong>c)使用 VGGNet 提取上下文信息;(d)利用提取出的語義概念和上下文的信息,例如空間位置等,通過 gated fusion unit 對(duì)語義進(jìn)行排序;(e)此外,他們還發(fā)現(xiàn)事實(shí)上語句本身也包含著「順序」的信息,因此他們利用生成的語句作為監(jiān)督來學(xué)習(xí)語義順序,進(jìn)一步提高語義順序的準(zhǔn)確性。最后通過學(xué)習(xí)出的語義概念和順序進(jìn)行相似性打分,判斷圖像與句子是否匹配。

其實(shí)驗(yàn)結(jié)果與當(dāng)前的一些 state-of-art 方法對(duì)比如下:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

可以看出,在兩個(gè)數(shù)據(jù)集中該方法的表現(xiàn)相比其他方法都有顯著的提升。下面是一個(gè)實(shí)例:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

ctx = context,cnp = concept,gen = generation。其中 groundtruth 匹配語句用紅色標(biāo)注;與 groundtruth 有相同意思的句子以下劃線標(biāo)注。

三、看圖寫對(duì)話

論文:Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

報(bào)告人:王鵬 - 西北工業(yè)大學(xué)

論文下載地址:https://arxiv.org/abs/1711.07613

所謂 Visual Dialog Generation,簡單來講,即以一張圖片和對(duì)話歷史為條件來回答相關(guān)問題。相比于 NLP 領(lǐng)域的對(duì)話,其不同之處在于輸入中除了 dialog history 和 question 外,還有一個(gè)圖片信息;而相比于 Visual Answer 則多了 dialog history。如下圖所示:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

一個(gè)很自然的想法就是仍然使用 Visual Answer 中的方案,將 dialog history 中的每一對(duì)對(duì)話視作圖片中的一個(gè) fact 去提取和生成。這種方法有一個(gè)缺點(diǎn),及 Visual Answer 任務(wù)的重點(diǎn)是針對(duì)問題給出一個(gè)盡可能對(duì)的答案。但是對(duì)于 dialog 任務(wù)來講,除了回答正確外,還需要維持對(duì)話的有序進(jìn)行。在對(duì)話中一個(gè)好的回答是,除了回答問題外,還要提供更多的信息,以便提問者能夠根據(jù)這信息繼續(xù)問下去。

基于這樣的想法,王鵬等人提出了基于對(duì)抗學(xué)習(xí)的方式來生成 Visual Dialog。具體來講,他們使用了較為傳統(tǒng)的 dialog generator,即針對(duì) image、question 和 dialog history 分別使用 CNN 和 LSTM 對(duì)其進(jìn)行編碼,隨后經(jīng)過 co-attention 模型對(duì)每個(gè) local representation 給出一個(gè)權(quán)重,然后將 local feature 做一個(gè)帶權(quán)求和從而得到 attented feature,將該 feature 經(jīng)過 LSTM 解碼即可得到一個(gè)相應(yīng)的 Answer。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

在這個(gè)模型中關(guān)鍵的一點(diǎn)是他們在模型的后面加入一個(gè)鑒別器,通過它來區(qū)分輸入的答案是人產(chǎn)生的還是機(jī)器產(chǎn)生的。這里輸入的不僅有相應(yīng)的 question 和 Answer,還有 attention 的 output,以便讓鑒別器在一定的環(huán)境下分析 Q、A 是否合理。鑒別器產(chǎn)生的概率將作為生成器的 reward,以對(duì)生成器的參數(shù)進(jìn)行更新。

這里需要重點(diǎn)提一下生成器中的 Co-attention 模型,這是一個(gè)序列 Co-attention 模型,他們也曾將這個(gè)模型用在 CVPR 2017 中的一篇文章中。如下圖所示:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

首先對(duì) Question 做一個(gè) attention,然后將結(jié)果作為 guidance 在 Image 上做 attention,從而得到 image 的feature;時(shí)候再把這兩個(gè)的結(jié)果作為 guidance 在 history dialog 上做 attention,得到 history dialog 的 feature;如此往復(fù),不斷把結(jié)果提高。最終將輸出 feature 作為整個(gè)模型的表示。

其算法如下所示:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

其實(shí)驗(yàn)結(jié)果顯示比其他方法有很大提升:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

一個(gè)實(shí)例如下:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

可以看出其生成對(duì)話的長度,相比其他方法要更長(這某種程度上也意味著包含更多的信息)。


四、如何找到竹筐里的熊貓?

論文:Visual grounding via accumulated attention

報(bào)告人:譚明奎 - 華南理工大學(xué)

論文下載地址:暫無

Visual Grounding 任務(wù)是指:當(dāng)給定一張圖片以及一句描述性句子,從圖片中找出最相關(guān)的對(duì)象或區(qū)域。形象來說,如下圖:

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

Visual Grounding 任務(wù)即從圖中找出「在竹筐中的熊貓」(注意:而不是在地上的熊貓)。

據(jù)譚明奎教授介紹這篇文章的工作是由華南理工大學(xué)的一名本科生完成。在文章中,作者針對(duì)此任務(wù),提出了 Accumulate Attention 方法,將 Visual Grounding 轉(zhuǎn)化為三個(gè)子問題,即 1)定位查詢文本中的關(guān)鍵單詞;2)定位圖片中的相關(guān)區(qū)域;3)尋找目標(biāo)物體。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

作者針對(duì)這三個(gè)子問題分別設(shè)計(jì)了三種 Attention 模塊,分別從文本、圖像以及候選物體三種數(shù)據(jù)中提取特征。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

首先針對(duì)文本、圖像以及物體,他們分別使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 來提取特征,然后使用 attention 機(jī)制計(jì)算出每個(gè)三種數(shù)據(jù)特征向量每個(gè)元素的權(quán)重。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

作者在提取一種特征的過程中,將另外兩種數(shù)據(jù)的特征作為輔助信息來提高特征提取的質(zhì)量。Accumulate Attention 方法按照循環(huán)的方式不斷對(duì)這三種數(shù)據(jù)進(jìn)行特征提取,使得特征的質(zhì)量不斷提高,分配在目標(biāo)相關(guān)的數(shù)據(jù)上的 attention 權(quán)重不斷加大,而分配在無關(guān)的噪聲數(shù)據(jù)上的 attention 權(quán)重則不斷減小。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

其實(shí)驗(yàn)表明 Accumulate Attention 方法在 ReferCOCO、ReferCOCO+、ReferCOCOg 等數(shù)據(jù)集上均取得較好的效果。(其中的 r1、r2、r3、r4 分別代表循環(huán)輪數(shù)。)

相關(guān)文章:

CVPR 2018 中國論文分享會(huì) 之「人類、人臉及3D形狀」

CVPR 2018 中國論文分享會(huì) 之「深度學(xué)習(xí)」

CVPR 2018 | 斯坦福大學(xué)提出自監(jiān)督人臉模型:250Hz 單眼可重建

CVPR 2018 | 英特爾實(shí)驗(yàn)室讓 AI 在夜間也能拍出精彩照片

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2018 中國論文分享會(huì)之「視覺與語言」

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說