丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

本文作者: 叢末 2019-12-30 14:37
導(dǎo)語(yǔ): 作者 | 蔣蕭澤論文標(biāo)題:DualVD: An Adaptive Dual Encoding Model for Deep Visual Under

 DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

作者 | 蔣蕭澤

論文標(biāo)題:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

文章作者:蔣蕭澤、于靜、秦曾昌、張星星、吳琦等,由北京航空航天大學(xué)、中科院信工所、微軟亞研院和阿德萊德大學(xué)合作完成。本論文已被AAAI 2020 接收。

論文鏈接:https://arxiv.org/abs/1911.07251

代碼鏈接:https://github.com/JXZe/DualVD

 論文動(dòng)機(jī) 

近年來(lái),跨模態(tài)研究引發(fā)了廣泛關(guān)注并取得顯著進(jìn)展,綜合分析語(yǔ)言和視覺(jué)等不同模態(tài)的信息對(duì)模擬現(xiàn)實(shí)社會(huì)中人類對(duì)于信息的認(rèn)知過(guò)程具有重要意義。
視覺(jué)對(duì)話問(wèn)題是視覺(jué)問(wèn)答任務(wù)的衍生任務(wù),不同的是,視覺(jué)對(duì)話任務(wù)需要根據(jù)圖像、歷史對(duì)話回答當(dāng)前問(wèn)題,涉及多個(gè)問(wèn)題且涵蓋了可能與任何對(duì)象、關(guān)系或語(yǔ)義相關(guān)的廣泛視覺(jué)內(nèi)容,因此視覺(jué)對(duì)話需要根據(jù)對(duì)話的推進(jìn),不斷調(diào)整關(guān)注區(qū)域使之有效地捕捉問(wèn)題所涉及的視覺(jué)信息,針對(duì)不同問(wèn)題對(duì)圖像進(jìn)行自適應(yīng)的關(guān)注。如下圖 1 所示「Q1: Is the man on the skateboard?」, 需要關(guān)注「man」,「skateboard」等信息,當(dāng)問(wèn)題變換為「Q5: Is the sky in the picture」時(shí),需要將關(guān)注區(qū)域轉(zhuǎn)移至「sky」。問(wèn)題 Q1 和 Q5 主要關(guān)注在表層(appearance-level)信息問(wèn)題,而 Q4「Is he young or older」則需要進(jìn)一步地視覺(jué)推理得到更高層的語(yǔ)義信息。因此,如何根據(jù)問(wèn)題進(jìn)行自適應(yīng)調(diào)整并有效地捕捉視覺(jué)信息是視覺(jué)對(duì)話問(wèn)題中的重要挑戰(zhàn)之一。

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

圖1 DualVD模型基本思想。(左)模型輸入;(右)視覺(jué)和語(yǔ)義信息理解模塊。 

核心思想

根據(jù)認(rèn)知學(xué)中的雙向編碼理論(Dual-Coding Theory), 人類認(rèn)知信息的過(guò)程包含視覺(jué)表象和關(guān)聯(lián)文本,人的大腦在檢索關(guān)于某個(gè)概念的信息時(shí)會(huì)綜合檢索視覺(jué)信息以及語(yǔ)言信息,這種方式能夠加強(qiáng)大腦的理解以及記憶能力。
作者根據(jù)此理論,提出從視覺(jué)和語(yǔ)義兩個(gè)維度刻畫(huà)視覺(jué)對(duì)話任務(wù)中圖象信息的新框架:語(yǔ)義模塊描述圖像的局部以及全局的高層語(yǔ)義信息,視覺(jué)模塊描述圖像中的對(duì)象以及對(duì)象之間的視覺(jué)關(guān)系?;诖丝蚣?,作者提出自適應(yīng)視覺(jué)選擇模型 DualVD(Duel Encoding Visual Dialog),分別進(jìn)行模態(tài)內(nèi)與模態(tài)之前的信息選擇。

模型設(shè)計(jì)

視覺(jué)對(duì)話任務(wù):根據(jù)給定圖像 I,圖像描述 C 和 t-1 輪的對(duì)話歷史 Ht={C,(Q1,A1),...,(Qt-1,At-1)}, 以及當(dāng)前輪問(wèn)題 Q 等信息,從 100 個(gè)候選答案 A=(A1,A2,...,A100) 中選擇針對(duì)當(dāng)前輪問(wèn)題 Q 的最佳答案。

作者為解決視覺(jué)對(duì)話任務(wù)所提出的 DualVD 模型框架如圖 2 所示,主要分為 Visual-Semantic Dual Encoding 和 Adaptive Visual-Semantic Knowledge Selection 兩部分。     

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

圖2 DualVD模型框架圖

1、Visual-Semantic Dual Encoding

從視覺(jué)以及語(yǔ)義兩個(gè)維度刻畫(huà)視覺(jué)對(duì)話任務(wù)中圖象信息的新框架,其中語(yǔ)義信息采用多層次語(yǔ)義描述表示,視覺(jué)信息采用場(chǎng)景圖表示。

Scene Graph Construction:利用場(chǎng)景圖表示每一張圖像,并捕捉圖像之間目標(biāo)對(duì)象以及對(duì)象間的視覺(jué)關(guān)系信息。作者采用 Faster-RCNN 提取出圖像中 N 個(gè)目標(biāo)區(qū)域,并將其表示為場(chǎng)景圖上的結(jié)點(diǎn),結(jié)點(diǎn) i 的特征定義為 hi;采用 Zhang 等提出的視覺(jué)關(guān)系編碼器在 GQA 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,用關(guān)系向量表示圖像中的任意兩個(gè)目標(biāo)區(qū)域之間的視覺(jué)關(guān)系,并將其表示為場(chǎng)景圖上的邊,結(jié)點(diǎn) i 和結(jié)點(diǎn) j 之間的關(guān)系向量定義為 r_ij。目前現(xiàn)有的工作大多采用關(guān)系類別來(lái)表示場(chǎng)景圖的邊,相比而言作者利用關(guān)系向量表示場(chǎng)景圖的邊的方法能考慮到視覺(jué)關(guān)系的多樣性,歧義性,更準(zhǔn)確地表達(dá)目標(biāo)對(duì)象之前的視覺(jué)關(guān)系。

Multi-level Image Captions:將每幅圖像表示為多層級(jí)的語(yǔ)義描述,同時(shí)刻畫(huà)圖像的局部和全局語(yǔ)義信息。相比于視覺(jué)特征,語(yǔ)義描述通過(guò)自然語(yǔ)言的信息表達(dá)出更高的語(yǔ)義層次,能夠更加直接地為問(wèn)題提供線索,避免了不同模態(tài)數(shù)據(jù)之間的「異構(gòu)鴻溝」。作者采用數(shù)據(jù)集的圖像描述作為全局語(yǔ)義信息,有助于回答探索場(chǎng)景的問(wèn)題;采用 Feifei Li 等提出的 DenseCap 提取一組局部層次語(yǔ)義信息,包括對(duì)象屬性,與對(duì)象相關(guān)的先驗(yàn)知識(shí),以及對(duì)象之間的關(guān)系等。對(duì)全局和局部的語(yǔ)義信息采用不同的 LSTM 提取特征。

2、Adaptive Visual-Semantic Knowledge Selection

在視覺(jué)語(yǔ)義圖像表示的基礎(chǔ)上,作者提出了一種新的特征選擇框架,從圖像中自適應(yīng)地選擇與問(wèn)題相關(guān)的信息。在當(dāng)前問(wèn)題的指導(dǎo)下,將特征選擇過(guò)程設(shè)計(jì)為分層模式:模態(tài)內(nèi)選擇首先從視覺(jué)模塊(Visual Module)和語(yǔ)義模塊(Semantic Module)分別提取視覺(jué)信息和語(yǔ)義信息;然后通過(guò)選擇性的視覺(jué)-語(yǔ)義融合(Selective visual-semantic fusion),匯聚視覺(jué)模塊和語(yǔ)義模塊中問(wèn)題相關(guān)的線索。這種層次結(jié)構(gòu)框架的優(yōu)點(diǎn)是可以顯式地揭示漸進(jìn)特征選擇模式。

Visual Module

1)Question-Guided Relation Attention:基于問(wèn)題引導(dǎo),獲取與問(wèn)題最相關(guān)的視覺(jué)關(guān)系。首先,從對(duì)話歷史中選擇與問(wèn)題相關(guān)的信息,通過(guò)門控機(jī)制更新問(wèn)題表示,定義為: 

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020       

基于問(wèn)題新表示Qgt的引導(dǎo),計(jì)算場(chǎng)景圖中每個(gè)關(guān)系的注意力: 

       DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020       

基于注意力aij,更新場(chǎng)景圖中每個(gè)關(guān)系的嵌入表示:

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

2) Question-Guided Graph Convolution:基于問(wèn)題引導(dǎo),通過(guò)基于關(guān)系的圖注意網(wǎng)絡(luò)聚集目標(biāo)對(duì)象的鄰域和對(duì)應(yīng)關(guān)系的信息,進(jìn)一步更新每個(gè)目標(biāo)對(duì)象的表示。首先,根據(jù)場(chǎng)景圖中的結(jié)點(diǎn),計(jì)算該結(jié)點(diǎn)i對(duì)鄰居結(jié)點(diǎn)j之前存在對(duì)應(yīng)關(guān)系rij條件下的注意力:

       DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020       

其次,基于注意力βij更新場(chǎng)景圖中每個(gè)結(jié)點(diǎn)的特征表示:

       DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020       

3) Object-relation Information fusion: 在視覺(jué)對(duì)話中,目標(biāo)對(duì)象的視覺(jué)表層信息和視覺(jué)關(guān)系信息有助于推斷答案。本模塊中自適應(yīng)地將原結(jié)點(diǎn)和感知關(guān)系結(jié)點(diǎn)通過(guò)門控機(jī)制進(jìn)行融合得到問(wèn)題相關(guān)的目標(biāo)對(duì)象特征:

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

為增強(qiáng)原始目標(biāo)區(qū)域的視覺(jué)信息提供的線索以及當(dāng)前問(wèn)題的影響,作者基于原始目標(biāo)區(qū)域的注意力分布,融合目標(biāo)區(qū)域表示得到增強(qiáng)的圖像表示I:

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020              

Semantic Module

該模塊通過(guò)問(wèn)題引導(dǎo)語(yǔ)義注意模塊和全局-局部信息融合模塊,從全局和局部語(yǔ)義描述中選擇和合并與問(wèn)題相關(guān)的語(yǔ)義信息。

1)Question-guided semantic attention:基于問(wèn)題引導(dǎo),對(duì)全局和局部語(yǔ)義描述計(jì)算注意力:       DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020       

基于注意力δiq分別更新全局和局部語(yǔ)義表示:   

    DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020      

 2)Global-local information fusion:采用門控機(jī)制自適應(yīng)地融合全局語(yǔ)義表示和局部語(yǔ)義表示       

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

3)Selective Visual-Semantic Fusion:當(dāng)被提問(wèn)時(shí),模型能夠檢索相關(guān)的視覺(jué)信息、語(yǔ)言信息或綜合考慮上述兩種信息。作者采用門控機(jī)制控制兩種信息源對(duì)于回答問(wèn)題的貢獻(xiàn),并獲得最終的視覺(jué)知識(shí)表示:    

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020          

3. Late Fusion and Discriminative Decoder

整個(gè)模型由 Late Fusion encoder 和 Discriminative decoder 組成。解碼時(shí),模型首先將每個(gè)部分嵌入一個(gè)對(duì)話元組中 D = {I; Ht; Qt},然后將具有視覺(jué)知識(shí)表示的 Ht 和 Qt 連接到一個(gè)聯(lián)合的輸入中進(jìn)行答案預(yù)測(cè)。解碼器對(duì) 100 個(gè)候選答案進(jìn)行排序。該模型還可以應(yīng)用于更復(fù)雜的解碼器和融合策略,如記憶網(wǎng)絡(luò)、協(xié)同注意等。

實(shí)驗(yàn)結(jié)果

在 VisDial v0.9 和 VisDial v1.0 上對(duì)模型的效果進(jìn)行了驗(yàn)證。與現(xiàn)有算法相比,DualVD 的結(jié)果超過(guò)現(xiàn)有大多數(shù)模型,略低于采用了多步推理和復(fù)雜 attention 機(jī)制的模型。

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

消融學(xué)習(xí)

VisDial v1.0 驗(yàn)證集的消融研究利用了 DualVD 主要成分的影響。作者使用相同的 Discriminative decoder 做了充分的消融實(shí)驗(yàn)驗(yàn)證模型各個(gè)關(guān)鍵模塊的作用, 如 ObjRep(目標(biāo)特征)、RelRep(關(guān)系特征)、VisNoRel(視覺(jué)模塊去掉關(guān)系嵌入表示) 、VisMod(完整視覺(jué)模塊)、GlCap(全局語(yǔ)義)、LoCap(局部語(yǔ)義)、SemMod(語(yǔ)義模塊)、w/o ElMo (不用預(yù)訓(xùn)練語(yǔ)言模型)、DualVD(完整模型)。

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

實(shí)驗(yàn)結(jié)果表明,模型中的目標(biāo)特征、關(guān)系特征、局部語(yǔ)義、全局語(yǔ)義對(duì)于提升回答問(wèn)題的效果都起到了不同程度的作用。相比傳統(tǒng)圖注意力模型,采用視覺(jué)關(guān)系的嵌入表示使得模型效果又有了進(jìn)一步提升。

可解釋性

DualVD 的一個(gè)關(guān)鍵優(yōu)勢(shì)在于其可解釋性: DualVD 能夠預(yù)測(cè)視覺(jué)模塊中的注意權(quán)重、語(yǔ)義模塊中的注意權(quán)重以及可視化語(yǔ)義融合中的控制值,顯式地分析模型特征選擇的過(guò)程。作者通過(guò)分析可視化結(jié)果得出以下結(jié)論:視覺(jué)信息和語(yǔ)義信息對(duì)于回答問(wèn)題的貢獻(xiàn)取決于問(wèn)題的復(fù)雜性和信息源的相關(guān)性。涉及到目標(biāo)對(duì)象表層信息的問(wèn)題,模型會(huì)從視覺(jué)信息獲得更多線索,如圖 3 中第一個(gè)例子;當(dāng)問(wèn)題涉及到更加復(fù)雜的關(guān)系推理,或者語(yǔ)義信息包含了直接線索時(shí),模型會(huì)更加依賴語(yǔ)義信息獲取答案線索,如圖 3 中的第二個(gè)例子。視覺(jué)信息將為回答問(wèn)題提供更重要的依據(jù)。作者根據(jù)結(jié)果發(fā)現(xiàn),視覺(jué)模塊的累積 gate value 總是高于來(lái)自語(yǔ)義模塊的累積 gate value, 此現(xiàn)象說(shuō)明在視覺(jué)對(duì)話任務(wù)中圖像信息在回答問(wèn)題時(shí)扮演更加重要的角色,對(duì)圖像信息更準(zhǔn)確、更全面的理解對(duì)于提升模型的對(duì)話能力至關(guān)重要。 

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

圖 3 DualVD的可視化模型能夠根據(jù)問(wèn)題的變化,自適應(yīng)調(diào)整關(guān)注的信息。

如圖 3 中的第三個(gè)例子,隨著對(duì)話的推進(jìn),問(wèn)題涉及前景、背景、語(yǔ)義關(guān)系等廣泛的視覺(jué)內(nèi)容,DualVD 都能夠有效捕捉到關(guān)鍵線索。

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

DualVD:借鑒認(rèn)知雙向編碼理論,提出視覺(jué)對(duì)話新框架 | AAAI 2020

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)