0
本文作者: 叢末 | 2018-09-19 18:02 |
雷鋒網(wǎng) AI 科技評(píng)論消息,9 月 8 日至14 日,兩年一度的歐洲計(jì)算機(jī)視覺(jué)大會(huì)(ECCV 2018)在德國(guó)慕尼黑召開(kāi)。作為與 CVPR、ICCV 共稱(chēng)為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)學(xué)術(shù)會(huì)議,ECCV 今年的火爆程度驚人。據(jù)悉,ECCV 2018 有近 3200 人參加,接收論文 776 篇( 2016 年為 415 篇);另有 43 場(chǎng) Workshops 和 11 場(chǎng) Tutorials。京東 AI 研究院在副院長(zhǎng)、計(jì)算機(jī)視覺(jué)與多媒體實(shí)驗(yàn)室主任梅濤博士的帶領(lǐng)下赴會(huì),在本次 ECCV 2018 大會(huì)上取得了亮眼的成績(jī)。
雷鋒網(wǎng)獲悉,本次京東 AI 研究院不僅有 3 篇論文被 ECCV 2018 收錄,還在 ECCV 大會(huì)舉辦的視覺(jué)領(lǐng)域遷移學(xué)習(xí)挑戰(zhàn)賽奪得兩項(xiàng)冠軍、視覺(jué)領(lǐng)域 Wider face&pedestrian 挑戰(zhàn)賽(行人檢測(cè)任務(wù))中獲得第二名。憑借以上成績(jī),京東 AI 研究院在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評(píng)論數(shù)據(jù)庫(kù)產(chǎn)品「AI 影響因子」中有相應(yīng)加分。
京東 AI 研究院被 ECCV 2018 收錄的 3 篇論文,分別是在圖像描述、視頻動(dòng)作檢測(cè)、視覺(jué)問(wèn)答等課題上取得的重大算法創(chuàng)新。
《探索圖像描述的視覺(jué)關(guān)系》(Exploring Visual Relationship for Image Captioning)
對(duì)于人類(lèi)而言,當(dāng)他看到一幅圖像時(shí)不僅能知道圖像中包含的物體場(chǎng)景等,同時(shí)還能捕捉到物體之間的聯(lián)系,圖像描述的核心任務(wù)是研究便是讓計(jì)算機(jī)像人一樣看圖說(shuō)話,即對(duì)圖像內(nèi)容進(jìn)行深層次的理解并自動(dòng)生成和圖像內(nèi)容相關(guān)的描述語(yǔ)句,然而業(yè)界目前還沒(méi)有相對(duì)應(yīng)的工作來(lái)探索物體間聯(lián)系對(duì)圖像描述的作用。
基于此,京東 AI 研究院設(shè)計(jì)了一個(gè)基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LongShort-Term Memory)的編碼器-解碼器系統(tǒng)來(lái)將物體間的語(yǔ)義關(guān)系和空間關(guān)系融入到圖像描述的生成過(guò)程中,其結(jié)構(gòu)圖如下:
該編碼器-解碼器圖像描述系統(tǒng)可分為三個(gè)步驟:
(1)對(duì)于輸入的圖像,物體檢測(cè)模塊首先檢測(cè)圖像中包含的物體,并獲得每個(gè)物體對(duì)應(yīng)的區(qū)域級(jí)別的特征。然后,針對(duì)檢測(cè)出來(lái)的多個(gè)物體,京東 AI 研究院團(tuán)隊(duì)會(huì)構(gòu)建出物體間的語(yǔ)義關(guān)系圖和空間關(guān)系圖;
(2)接著在基于圖卷積網(wǎng)絡(luò)的圖像編碼器模塊中,圖卷積網(wǎng)絡(luò)會(huì)分別作用于物體間的語(yǔ)義關(guān)系圖和空間關(guān)系圖上,將兩兩物體間的語(yǔ)義關(guān)系和空間關(guān)系融入到對(duì)應(yīng)物體的區(qū)域級(jí)別的特征,實(shí)現(xiàn)對(duì)物體區(qū)域級(jí)別特征的進(jìn)一步編碼;
(3)在獲得了來(lái)自于語(yǔ)義關(guān)系圖或者空間關(guān)系圖上蘊(yùn)含有物體間關(guān)系的區(qū)域級(jí)別特征后,我們將這一組編碼后的物體區(qū)域級(jí)別特征輸入基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的解碼器模塊,主要利用兩層的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)將輸入的圖像區(qū)域級(jí)別特征解碼為對(duì)應(yīng)的文本描述。
該系統(tǒng)在圖像描述基準(zhǔn)數(shù)據(jù)集 COCO 上驗(yàn)證了物體間聯(lián)系對(duì)圖像描述的促進(jìn)作用,并獲得了目前業(yè)界單模型最優(yōu)的效果。
《動(dòng)作檢測(cè)的循環(huán)定位和識(shí)別網(wǎng)絡(luò)》(Recurrent Tubelet Proposal and Recognition Networks for ActionDetection)
視頻動(dòng)作檢測(cè)任務(wù)要求識(shí)別出視頻中人物的動(dòng)作并確定其在視頻中的時(shí)空位置。現(xiàn)有方法大部分都是為每個(gè)單獨(dú)的幀或固定長(zhǎng)度的片段獨(dú)立地生成動(dòng)作定位,往往忽略了幀與幀或片段與片段之間的上下文關(guān)系。然而,一個(gè)動(dòng)作本身就是由一系列連續(xù)的移動(dòng)構(gòu)成的,這種上下文關(guān)系對(duì)視頻動(dòng)作檢測(cè)而言非常重要。
京東 AI 研究院提出了一種基于視頻中的時(shí)間上下文信息來(lái)進(jìn)行動(dòng)作檢測(cè)的深度模型。此深度模型主要分為兩部分:
循環(huán)動(dòng)作定位網(wǎng)絡(luò):它首先用傳統(tǒng)的區(qū)域生成網(wǎng)絡(luò)對(duì)視頻中第一幀的動(dòng)作進(jìn)行定位,然后通過(guò)估計(jì)當(dāng)前幀的動(dòng)作在下一幀的位移來(lái)得到下一幀中動(dòng)作的位置。隨后利用維特比算法將所有幀的動(dòng)作定位連成動(dòng)作序列。
循環(huán)動(dòng)作識(shí)別網(wǎng)絡(luò):該網(wǎng)絡(luò)采用多通道架構(gòu)來(lái)識(shí)別動(dòng)作序列。團(tuán)隊(duì)在每一個(gè)通道中都使用了 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)來(lái)捕捉視頻中的時(shí)間信息,并在四個(gè)公開(kāi)數(shù)據(jù)集上驗(yàn)證了模型的有效性并實(shí)現(xiàn)了目前為止最好的檢測(cè)性能(在 UCF-Sports, J-HMDB, UCF-101 和 AVA 上分別取得了 2.9%,4.3%,0.7% 和 3.9% 的性能提升)。
圖 2. 本文提出的視頻動(dòng)作檢測(cè)模型整體框架圖。此模型主要由循環(huán)動(dòng)作定位網(wǎng)絡(luò)和循環(huán)動(dòng)作識(shí)別網(wǎng)絡(luò)構(gòu)成。循環(huán)動(dòng)作定位網(wǎng)絡(luò)通過(guò)當(dāng)前幀的動(dòng)作在下一幀的位移來(lái)得到下一幀中動(dòng)作的位置。隨后所有幀的動(dòng)作定位被連成動(dòng)作序列。循環(huán)動(dòng)作識(shí)別網(wǎng)絡(luò)采用多通道架構(gòu)來(lái)識(shí)別動(dòng)作序列。
《視覺(jué)問(wèn)答的深度注意力張量神經(jīng)網(wǎng)絡(luò)》(Deep Attention Neural Tensor Network for Visual Question Answering)
視覺(jué)問(wèn)答任務(wù)要求在給定一幅圖像與問(wèn)句之后要求預(yù)測(cè)出與之對(duì)應(yīng)的答案。近年來(lái)關(guān)于該任務(wù)的研究工作主要關(guān)注于視覺(jué)特征與文本特征的多模態(tài)融合學(xué)習(xí)。絕大多數(shù)相關(guān)研究工作是直接將視覺(jué)特征表示與文本特征表示融合之后訓(xùn)練分類(lèi)器的方式來(lái)完成視覺(jué)問(wèn)答的,然而這些方法卻把圖像—問(wèn)句—答案這個(gè)三元組之間隱含的相互關(guān)系忽略了。
本文提出一種基于張量神經(jīng)網(wǎng)絡(luò)對(duì)圖像—問(wèn)句—答案三元組之間的關(guān)系進(jìn)行建模的方法。考慮到在大多數(shù)情況下,三元組之間的相互關(guān)系與問(wèn)句的類(lèi)型息息相關(guān),因此該論文提出了由問(wèn)句類(lèi)型和答案類(lèi)型指導(dǎo)的注意力模型來(lái)幫助三元組選擇合適的相互關(guān)系和自適應(yīng)推理過(guò)程,最后采用一種基于回歸的訓(xùn)練方式解決開(kāi)放性視覺(jué)問(wèn)答任務(wù)。
最后的實(shí)驗(yàn)結(jié)果證明,本文提出的方法不但可以有效的對(duì)圖像—問(wèn)句—答案之間的隱含關(guān)系進(jìn)行建模(在 VQA-1.0 和 VQA-2.0 數(shù)據(jù)上分別基于 MUTAN 和 MLB 視覺(jué)問(wèn)答模型取得了 1.70% 和 1.98% 的相對(duì)性能提升),而且對(duì)于不同的問(wèn)題類(lèi)型,可以自適應(yīng)的選擇與之對(duì)應(yīng)的推理過(guò)程,同時(shí)基于視覺(jué)問(wèn)答任務(wù)的監(jiān)督信息可以學(xué)習(xí)得到具有視覺(jué)區(qū)分能力的答案特征表示。
圖 3. 本文提出的視覺(jué)問(wèn)答系統(tǒng)整體框架圖。紅框的部分是用來(lái)生成問(wèn)句特征以及圖像-問(wèn)句融合特征的基本模型。兩個(gè)藍(lán)框是本文提出的基于注意力模型的張量神經(jīng)網(wǎng)絡(luò)的兩個(gè)組成部分,即面向圖像-問(wèn)句-答案三元組關(guān)系的張量神經(jīng)網(wǎng)絡(luò)以及面向自適應(yīng)推理的注意力模型。
大家可移步社區(qū)(http://www.gair.link/page/resourceDetail/553)下載京東 AI 研究院 ECCV 2018 收錄論文資料包。
ECCV 2018 視覺(jué)領(lǐng)域遷移學(xué)習(xí)挑戰(zhàn)賽摘下雙桂冠
此次 ECCV 2018 大會(huì)舉辦的視覺(jué)領(lǐng)域遷移學(xué)習(xí)挑戰(zhàn)賽,具體任務(wù)場(chǎng)景分為開(kāi)放式圖像分類(lèi)(openset classification)和物體檢測(cè)(detection)兩種, 京東 AI 研究院在此項(xiàng)賽事的兩個(gè)任務(wù)中均以大比分優(yōu)勢(shì)摘下桂冠。
挑戰(zhàn)賽中,京東 AI 研究院計(jì)算機(jī)視覺(jué)與多媒體團(tuán)隊(duì)針對(duì)數(shù)據(jù)分布差異較大的源域和目標(biāo)域,設(shè)計(jì)了一套通用于圖像分類(lèi)和物體檢測(cè)的遷移學(xué)習(xí)系統(tǒng),其主要思想是賦予目標(biāo)域圖像相對(duì)應(yīng)的偽標(biāo)簽,并在基于聯(lián)合聚類(lèi)的篩選之后將帶有偽標(biāo)簽的目標(biāo)域圖像加入到分類(lèi)器或者檢測(cè)器的學(xué)習(xí)中,從而進(jìn)一步地調(diào)整模型。通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),這樣基于偽標(biāo)簽的方法可以有效地將源域中的知識(shí)遷移到目標(biāo)域中。
在 ECCV 2018 大會(huì)舉辦的另一賽事——視覺(jué)領(lǐng)域 Wider face&pedestrian 挑戰(zhàn)賽中,京東 AI 研究院計(jì)算機(jī)視覺(jué)與多媒體團(tuán)隊(duì)則在行人檢測(cè)任務(wù)中獲得了第二名,并受邀在 Wider face&pedestrian Challenge Workshop 上介紹了該團(tuán)隊(duì)在人體檢測(cè)方面的最新研究進(jìn)展。
在該比賽中,京東 AI 研究院使用了基于 Faster R-CNN 的檢測(cè)框架,加入了特征金字塔、組標(biāo)準(zhǔn)化、級(jí)聯(lián) R-CNN 以及多通道特征注意力模型等方法,并在不同級(jí)聯(lián)階段設(shè)計(jì)了可以自適應(yīng)平衡分類(lèi)與回歸誤差的新?lián)p失函數(shù)。實(shí)驗(yàn)證明,該研究團(tuán)隊(duì)所提出的這一方法能夠有效地處理復(fù)雜場(chǎng)景下的小目標(biāo)行人檢測(cè)問(wèn)題。
值得一提的是,在剛剛過(guò)去的中國(guó)多媒體大會(huì) ChinaMM 上,京東 AI 還主辦了 JD AI Fashion Challenge 技術(shù)競(jìng)賽,吸引了 212 支來(lái)自國(guó)內(nèi)外高校、企業(yè)的隊(duì)伍報(bào)名參加。這一賽事同樣讓京東 AI 研究院在「AI 影響因子」獲得加分。據(jù)悉,明年年初京東將啟動(dòng)新一輪的國(guó)際時(shí)尚大賽。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。