丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
國際 正文
發(fā)私信給李尊
發(fā)送

1

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解

本文作者: 李尊 2016-07-06 14:13
導語:深度學習結合神經(jīng)網(wǎng)絡已能正確描述出圖片中人物的具體行為并進行解讀,谷歌CVPR2016論文。

明確對象描述的生成與解讀

聯(lián)合編譯:Blake、陳圳、章敏

摘要

本文提出了一個可以生成針對圖片中特定目標或區(qū)域明確描述(指代表達)的方法,這個方法也能理解或解釋這一指代表達,進而推斷出正確的被描述的目標。以前的方法并沒有將情景中的其他潛在模糊目標考慮在內,本文展示了我們所提出的辦法比以前的生成目標描述方法要優(yōu)秀。我們模型靈感源自近期深度學習在圖像標注問題上的成功,雖然很難對圖片標注進行評估,但是我們的任務能夠做到輕松實現(xiàn)目標評估。我們也提出了基于MSCOCO的一個新的用于指代表達的大規(guī)模數(shù)據(jù)集。這個數(shù)據(jù)集和工具集可以用于可視化和評估,我們將它發(fā)布在github上,詳見:https://github.com/mjhucla/Google_Refexp_toolbox。

引言

近來,許多人對生成圖片文本描述的研究十分感興趣。然而,這種圖片標注問題既主觀也不適定。因為有這么多有效的方法來描述任一給定圖片,所以也很難對自動標注方法進行評估。特別是,我們如何能判定一張圖片的描述優(yōu)于另一個描述?

在這篇論文中,我們集中討論了一個為給定圖片生成本文的特別案例,其目標是生成明確的文本描述。這個描述能被精確地應用到圖片中的某個目標或區(qū)域,這樣一種描述就是所謂的「指代表達」。這一方法明顯優(yōu)于通用圖片標注,因為它有一個定義良好的表現(xiàn)指標:如果獨特描述出文本中相關目標或區(qū)域,聽者能夠理解這個描述并能指出其所描述的那個目標,這就是一個好的指代表達。另外,由于任務性質本身是有區(qū)別的。因此,較之圖片標注,指代表達趨于更加細節(jié)化。最后,與整張圖片比較的話,它更容易搜集訓練數(shù)據(jù)以“覆蓋”針對給定目標的合理指代表達空間。

我們考慮到了兩個問題:(1)描述生成,我們必須生成可以獨特指出圖片中的重要目標和區(qū)域的文本表達。(2)描述理解,根據(jù)一個給定的描述這個目標的文本表達,找出這個目標。文獻中提到的之前的研究工作幾乎完全專注于描述生成,詳細對比見圖1:

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


圖1

在這篇論文中,我們使用了時下最先進的深度學習方法來處理真實圖像和文本問題。特別是我們在最近開發(fā)出的方法上建立了我們的模型,這些方法將卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN)結合起來。我們證實,我們的模型表現(xiàn)高于沒有考慮到聽者必須理解的情況下生成的指代表達的基準模型。我們也證明通過自動生成對圖片區(qū)域的描述,可以使用半監(jiān)督方式訓練我們的模型。

在很多使用自然語言界面的應用中,比如控制一臺機器人(如“Rosie,把那瓶啤酒從冰箱頂層給我拿過來。”),或者與圖像編輯軟件互動(如“Picasa,將柵欄后的第三輛汽車換成一輛摩托車?!保?,能夠生成并了解目標描述很關鍵。另外,對于從事視覺和系統(tǒng)領域的研究工作來說,這也是一個很好的測試臺,因為它有一個有用的客觀表現(xiàn)評價尺度。

為了訓練和評估這個系統(tǒng),我們搜集數(shù)據(jù)并發(fā)布了一個新的基于流行 MS-COCO 數(shù)據(jù)組的大型指代表達數(shù)據(jù)組。

總結起來,我們的主要貢獻如下。首先,我們提出了一個新的用于指代表達的大規(guī)模數(shù)據(jù)組。第二,我們評估了現(xiàn)有圖片標注方法在指代表達任務上的表現(xiàn)情況。第三,我們研究出了一個結合生成和理解的新方法,這個方法比現(xiàn)有方法更好。

2.相關工作

指代表達

指代表達生成是一個典型的神經(jīng)語言問題。重點主要在于理解人們一般使用哪一類詞匯來描述視覺物體(色彩或者大?。⒏唠A關系的使用、過于描述和描述不足現(xiàn)象等。

環(huán)境在很多方面都扮演者一個相當重要的角色。首先,說話者必須將目標對象和一系列的替代者區(qū)分開來,另外必須提供為什么這樣區(qū)分的理由。第二,聽者的預判也是可預估的。

在這個問題上,此前的作者基本上都聚焦在如計算機生成對象(微小對象的圖像)等小型數(shù)據(jù)集上,而且沒有將他們的文本生成系統(tǒng)和真實的視覺系統(tǒng)結合起來。然而最近這種情況開始有改變,已經(jīng)開始有人注意指代表達和復雜的真實世界圖像聯(lián)系的問題。Kazamzadeh等人是第一批收集大規(guī)模復雜現(xiàn)實世界圖像指代表達的人。

我們也同樣收集并評估了一個大規(guī)模數(shù)據(jù)集。然而我們超越了表述生成,學會了生成和理解模型。我們的深度學習模型能夠對原始圖像直接生成表面表述,不用再把原始圖片轉換成正式的對象表達。

于此同時,參考文獻[24]中R.Hu等人提出一個與我們的基準模型接近的基于CNN-RNN方法,它實現(xiàn)了在ReferIt數(shù)據(jù)集上近期以來的最佳結果。但是他們沒有使用我們的完整模型中的判斷訓練技巧。

圖像標識

我們的方法靈感來自于一系列的圖像和文本模型,主要是在視覺和學習領域中的。從模型角度來看的話,我們的方法是最接近將RNNs和CNNs應用到這類問題的。近期的文章主要是利用CNN的隱藏活動性來表達圖像內容,然后這個輸入到RNN中,最后生成一系列的文字。

大多數(shù)有關圖像標識的論文都聚焦在描述圖像全局,而沒有任何的空間定位。然而,我們注意到兩個特例。參考文獻[55]提出一個將圖像中文字和空間位置關聯(lián)起來的注意力模型,不過他們仍然關注于圖像全局的標識任務。參考文獻[26]提出一個使用語句邊界來校準文字和短語的模型。他們的模型和我們的基準模型類似,在第5節(jié)中將會具體描述。然而,這種方法并沒有我們的完整模型好,我們的模型另外還考慮到了圖像中其他的模糊區(qū)域。

視覺問題回答

指代表達和VQA任務相關。特別是,當說話者問一個像“圖像中那輛紅色的車在哪兒?”的問題時,指代表達理解就能夠變成一個VQA任務,系統(tǒng)也要返回一個限定界限。然而,這兩個任務在理論上和實踐上還是有區(qū)別的。指代表達是關于交流的,在這個問題中說話者要發(fā)現(xiàn)與聽眾交流的最佳方式,而VQA主要是集中在回答問題而不是考慮聽眾想法上。另外,因為在VQA中問題通常開放式結尾,所以想要評估它們的答案基本和生成圖片標識一樣困難,但評估限定邊界的準確度是比較容易的。

3.數(shù)據(jù)組構筑

目前已知最大的指代表達數(shù)據(jù)集是ReferIt數(shù)據(jù)集,它包含19894張自然景色圖像中130525種表達以及96654中不同對象。這次的數(shù)據(jù)集是在ImageCLEF IAPR數(shù)據(jù)集上的分割與標記擴展。然而這個數(shù)據(jù)集也存在兩個缺點,一個是其中圖像有時候只包含某特定類別下的對象,這允許說者可以使用不模棱兩可的精準描述,另一個就是ImageCLEF數(shù)據(jù)集主要集中在“整體”而不是“個人”上。

在本文中,我們使用了和參考文獻[27]類似的方法,但是我們是在MSCOCO數(shù)據(jù)集的基礎上進行構筑的。它包含超過30000張圖片,在實時級別擁有80種分割對象。

針對每一個圖像,我們對它是否存在2到4種的對象類型進行選擇,對它們的限定邊界是否占圖像區(qū)域的5%進行測定,結果在26711張圖像中選擇了54822個物體。我們將對象選擇任務發(fā)布到亞馬遜的Mechanical Turk中,然后另外發(fā)布一個任務讓不同的人來選擇這個物體指代的是什么。我們將這些描述生成和驗證任務在Mechanical Turk迭代實驗了三次。通過這種方式,我們選擇了104560種表述。每個物體平均有1.91中表述方式,每個圖像平均有3.91種表述方式,結果如圖2所示。我們將這個可以用于可視化和評估的數(shù)據(jù)集和工具集發(fā)布在github上,詳見:https://github.com/ mjhucla/Google_Refexp_toolbox


圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解

圖2

當我們在收集數(shù)據(jù)時,我們了解到Tamara Berg肚子將她的ReferIt游戲參考文獻[27]應用到MSCOCO數(shù)據(jù)集上,從19994張圖片中生成了針對50000種對象的表述。她將她的數(shù)據(jù)分享給了我們,在本文中兩個數(shù)據(jù)集的結果都展示出來了。我們對兩種數(shù)據(jù)集進行了可視化比較,詳細結果見圖3。


圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解

圖3

4.任務

在這節(jié)中,我們將探討我們是如何在高階范圍解決描述和生成這兩個主要問題的。我們將在下節(jié)詳細描述模型細節(jié)和訓練過程。

4.1生成

進行描述生成任務時,給予了系統(tǒng)一整張圖片和一個目標對象(通過一個邊界盒具體化),并且必須生成一個目標對象相關的描述。正式來說,任務是計算argmaxSp(SR,I),其中S是句子,R是區(qū)域,I是圖像。

由于使用RNNs代表p(S|R,I),我們可以一次性生成一個S詞,直到產(chǎn)生一個結束句子的符號。雖然計算全部最有可能的句子非常困難,但我們可以通過束搜索大概的找到最有可能的句子(使用束的尺寸為3)。除了輸入是一個區(qū)域而不是整張圖像之外,它和標準的圖像搜索任務非常的相似。最大的不同之處是,我們將訓練模型產(chǎn)生,能區(qū)分輸入?yún)^(qū)域和其它候選區(qū)域的描述。

4.2理解

進行描述理解任務時,我們給予了系統(tǒng)一整張圖像和相關的描述,并且要求通過返回邊界盒的方式,定位圖像中提及的對象。有一種方法是給出相關的描述(和圖像)訓練模型,讓它直接預測邊界盒的位置。但是,我們在論文中采用了一個更簡單,更基礎的方法。其特殊之處在于,我們首先生成一組區(qū)域推薦的C,并要求系統(tǒng)按概率將其排名。然后我們使用R*= argmaxRCp(R|S,I)選擇區(qū)域,根據(jù)貝葉斯法則,我們得到

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


假設一個統(tǒng)一的p(R|I)2,我們可以通過R*= argmaxRCp(R|S,I)選擇區(qū)域。這個方法和[29,40]中的圖像檢索方法非常相似,其中區(qū)域扮演了圖像的角色。

測試時,我們使用[10]中的“混合箱”方法產(chǎn)生對象推薦。從而產(chǎn)生了很多類不可分的邊界盒es。隨后我們把每個盒子分類到一個80MS-COCO的類別中,并拋棄那些低分數(shù)的部分。我們使用所得到的分類盒作為建議集C,以便達到最高性能,同時我們也對圖像中的所有對象使用了真實的邊界盒。在兩種情況下,在排名推薦時,我們都沒有對對象使用特別的標簽。

5.基準方法

在該部分我們介紹了計算p(S|R,I)的基準方法。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


圖4.介紹基準模型的結構,<bos>和<eos>分別代表句子開頭和結尾。

5.1模型結構

我們的基準模型類似于其它的圖像捕捉模型,使用CNN表示圖像,然后用LSTM產(chǎn)生文本。其主要區(qū)別在于,我們通過一個興趣區(qū)域的CNN,增加CNN對于整個圖像(除了位置信息以外)的代表性。我們模型的基準結構見圖4。

進一步說,我們使用VGGNet作為CNN,在ImageNet數(shù)據(jù)集進行預訓練。VGGNet最后的1000維層用來代表對象的區(qū)域。此外,我們統(tǒng)計整個圖像的特征,作為背景。實驗中,我們只優(yōu)調CNN最后一層的權重,并且固定了其它的層。為了將區(qū)域輸入CNN,我們保持了固定區(qū)域的縱橫比,并在224x224的分辨率中對其進行測量,然后用平均像素填充邊緣(這類似于[17]中的區(qū)域扭曲方法)。這為我們提供了一個該區(qū)域和圖像2000維的特征向量。

我們使用了如下的五維向量編碼相關的位置和區(qū)域大?。?/p>

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


其中(xtl,ytl)和(xbr,ybr)分別是對象邊界盒左上角和右下角的坐標,H和W分別是圖像的長和寬,Sbbox和simage分別是邊界盒大小和圖像。

結合區(qū)域,圖像和位置/大小特征,我們得到了一個2005維的向量,并將它作為LSTM序列模型的輸入,參數(shù)化式P(SR,I)。我們的LSTM中,使用了一個1024維的字嵌入空間,和一個1024維的隱藏狀態(tài)向量。我們采用了最普通常用的LSTM結構,并且在每個時間點都將視覺代表作為LSTM的輸入。

5.2最大值可能性訓練

我們的訓練數(shù)據(jù)(在第3節(jié)中進行了討論)由觀察到的(I,R,S)三個因素組成,其中I是圖像,R代表I中的一個區(qū)域,S代表R的相關表示。為了訓練基準模型,我們最小化相關表示,對于代表區(qū)域和圖像的消極影響:

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


其中θ是RNN和CNN的參數(shù),并合計了訓練集中的N個例子。我們使用了普通隨機梯度下降,其批量大小為16的,初始學習率為0.01——每50000次迭代次數(shù)減半。梯度規(guī)范被修改到最大值為10的范圍。為了抵抗過度擬合,我們對于字嵌入和LSTM輸出層,都規(guī)范0.5為使用的下降率。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


圖5描繪如何訓練整個模型使用softmax loss功能。R(綠色)就目標區(qū)域,R·是錯誤區(qū)域。LSTM和CNNs的權重由R和R·共享。(色彩最好的視野)

6.完整的方法

基準方法是訓練模型最大化p(S|R,I),因為它是最常見CNN-LSMT圖像捕獲模型的基礎。然而,僅基于目標對象直接產(chǎn)生表示的方法(在[19]中被稱為反射研究者法)存在缺陷,它可能無法產(chǎn)生有判別力的句子。例如,圖4中:為了通過綠色邊界盒產(chǎn)生一個代表女孩特點的描述,生成詞“粉紅”在它將該女孩和右邊女孩區(qū)分時起了作用。最后,在后文章中,我們提出了一個模擬訓練對象。

6.1鑒別(MMI)培訓

5.2節(jié)中提出了一種方法訓練模型使用最大值可能性。所以我們現(xiàn)在給出相應的目標函數(shù):


 圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解

我們接下來稱之為softmax loss,注意到這和最大化S和R的共同信息一樣(假設統(tǒng)一的p(R)),因此

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


所以該方法同樣被稱為最大化相同信息(MMI)訓練。

MMI之后主要的直覺是,我們想知道聽眾是否會明顯的打斷句子。我們實驗模型,看它是否考慮到目標對象的指代表達,也會被在同一張圖像中的對象相似的產(chǎn)生。因此給出了一個訓練樣本(I,R,S),訓練模型輸出高的p(S|R,I),同時無論R·是否等于R,都重點訓練一個低的p(S|R·,I)。注意式2中對比最大值可能性目標函數(shù),在不考慮圖片中其它的對象情況下,直接最大化p(S|R)。

有幾個方法可以選擇C的推薦范圍。我們可以使用所有的正確對象邊界盒,但這會在視覺上很容易區(qū)分的目標對象上浪費時間(我們稱之為“easy ground truth negatives”)。另一個選擇是,選擇和目標對象同一個級別的正確對象邊界盒。這樣都更容易混淆。最后,我們可以使用和在測試中一樣的推薦混合盒,并且選擇一個有同樣預測對象標簽的混合盒作為R。在8.2中,我們會將這幾種不同的方法進行對比。在每一步使用等級5隨機的底片 ,這樣所有給出圖片的數(shù)據(jù)都會適合GPU內存。

為了優(yōu)化式3,我們必須復制每一個R·∈ C(In)區(qū)域的網(wǎng)絡(包括正確范圍Rn),如圖5所示。結果MIMI訓練模型和ML訓練模型有著相同數(shù)量的參數(shù),而且在5.2節(jié)中我們使用了相同的優(yōu)化和調整方法。因此唯一的不同點是目標函數(shù)。

由于計算的原因,對比目標區(qū)域R和單一的隨機負面區(qū)域R·,使用如下的最大利潤損失更加快捷:

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


我們稱之為max-margin MMI(或者MMI-MM)直觀的捕捉到了和softmax counterpart (MMI-SoftMax)相似的結果,如8.2節(jié)所示,在實踐中也產(chǎn)生類似的結果。然而,由于最大目標僅僅對比了兩個區(qū)域,所以網(wǎng)絡必須復制兩次。因此,每一個句子使用更少的內存,每個最小批允許更多的句子加載,反而有助于穩(wěn)定梯度。

7.半監(jiān)督訓練

收集相關的表達數(shù)據(jù)是非常的昂貴。在該部分我們討論了使用無描述邊界盒的方法,半監(jiān)督訓練整個模型,因此這更是無處不在的。我們認為,在甚至沒有附加描述的情況下,一個邊界盒(區(qū)域)R如此有用的原因是,在MMI訓練中,如果它產(chǎn)生了一個它無法自解碼成正確的原始R(MMI激勵p(S|R,I)變的更高于p(S|R,I))的句子時,它允許我們自己設定模型。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


圖6,描述了半監(jiān)督訓練過程,細節(jié)見論文。

在這種半監(jiān)督設置下,我們考慮了一個小的,有著邊界盒以及描述的圖像數(shù)據(jù)集Dbb+txt,

和一個有著更大的圖像和邊界盒,但沒有描述的數(shù)據(jù)集Dbb。使用Dbb+txt訓練模型(我們稱之為模型G)計算p(S|R,I)。然后利用模型G,產(chǎn)生一系列關于Dbb中邊界盒的

描述(我們稱這個新的數(shù)據(jù)集之為Dbb+auto)。然后本著引導學習的精神,在Dbb+txt和Dbb+auto的并集上重新訓練G,

上述的方法缺陷在于,并不是所有產(chǎn)生的句子都是可信賴的,這可能會“污染”訓練集。為了解決這個問題,我們在Dbb+txt上訓練了一個整體不同的模型(我們稱之為模型C),并且用它決定,在Dbb+auto數(shù)據(jù)集產(chǎn)生的句子中,哪些是值得信賴的。特別之處在于,我們應用整體中的每一個模型,去解碼Dbb+auto中的每一個句子,并且只有當每個模型找到了同樣正確的對象時,該句子才會被保留。我們稱結果為驗證數(shù)據(jù)集Dfiltered。這確保了產(chǎn)生的相關表示能夠被大量不同類型的模型理解,從而最大限度地減少過擬合。說明見圖6.在本實中,我們展示了我們的模型從半監(jiān)督訓練中大大受益。

8.實驗

我們在第3節(jié)提到的兩種COCO相關表示數(shù)據(jù)集中進行了實驗:G-Ref數(shù)據(jù)集和UNC-Ref數(shù)據(jù)集。我們隨機選擇了5000個對象作為驗證集,5000個對象作為測試集,而剩下的對象則作為訓練集(44,822GRef和4000UNC-Ref)。

8.1評估指標

在該部分,我們詳述了如何評估理解和生成任務性能。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


表1.我們測量了UNC-Ref驗證數(shù)據(jù)的精度@1。每一行都是一種不同的訓練模式。

列顯示了ground truth 或者multibox proposals,和ground truth(人類)或者產(chǎn)生描述的性能。因此有GT描述的列評估了理解系統(tǒng)的性能,并且有GEN描述的列評估(端對端)了產(chǎn)生系統(tǒng)的性能。

理解任務很容易評估:我們簡單的計算了真實和因此邊界盒之間聯(lián)合比(IoU)率的交點。如果IoU超過了0.5,我們稱該檢測為一個正確的正面,否則稱之為錯誤的負面(這相當于計算@1測量的精度)。然后計算所有圖像的平均分。

生成任務的則要困難很多—我們可以用同樣的方法評估生成描述,即把它當成圖像描述,使用如CIDEr,BLEU和METEOR的指標進行性能評估。然而這種指標可能變得不可信任,并且不能解釋語義。相反,如大部分最近圖像捕捉競賽中所作的一樣,我們依賴人類評估。特別的是,當提出一個感興趣的圖像和對象時,我們要求了 Amazon Mechanical Turk (AMT) 工作人員,將自動生成對象描述和人類生成對象描述對比。AMT工作人員并不知道哪一個是人類生成的句子,哪一個是電腦生成的句子(我們甚至沒有告訴他們一些句子可能是電腦生成以便減少偏見)。我們簡單的問他們哪一個句子描述的更好,或者他們是否一樣好。

增加非規(guī)模性的人類評估,我們通過如下方法評估我們整個系統(tǒng),即傳遞自動生成的描述到理解系統(tǒng)中,并驗證他們是原來感興趣對象正確對應的解碼。這端對端的的測試就自動的,并且比標準的圖像捕捉指標更可靠。

8.2對比不同的訓練方法

此部分,我們對比了不同的訓練模型方法:最大值可能性訓練(精準方法);簡單的ground truth負面最大邊際損(“MMIMM-easy-GT-neg”);困難的ground truth最大邊際損失(“MMI-MM-hard-GT-neg”):混合盒負面最大邊際損失(“MMI-MM-multiboxneg”);最大soft或者MMI損失(“MMI-SoftMax”)。在測試時,每一種方法,我們都考慮使用 ground truth或者multibox proposals。

 圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


表2:方法標準線(ML)的精度和基于各種數(shù)據(jù)集的目標函數(shù)

此外,我們把事實描述和生成描述都考慮進去。

在此實驗中,我們把UNC-Ref當做是一個測試集,對各種各樣的MMI算法選擇和超參數(shù)設置進行測試。只有在確定算法選擇和超參數(shù)設計之后,我們才會對G-Ref數(shù)據(jù)集進行試驗。這會減少超參數(shù)和每一個特殊數(shù)據(jù)的“過度重合”。結果已在表1中進行總結,所做總結如下:

模式在生成描述中表現(xiàn)更好,可能是因為生成描述比事實描述更短(5.99個單詞VS 8.43個單詞),或是因為生成和理解模式共享一些相同的參數(shù),所以即使生成器錯誤地使用了單詞(比如,將“狗”描述成“貓”),但理解系統(tǒng)依然能正確解碼。直觀來說,模式使用自己的語言時能更好地進行“交流”。

所有Full model的變體(使用MMI訓練時)比使用最大似然法進行訓練的標準線表現(xiàn)的更好。

MMI訓練的softmax版本和邊緣最大化方法相似,但表現(xiàn)更差。 

MMI訓練在難例中的收獲要比在簡單例的收獲的更多。

在使用真實建議時,能幫助實例訓練;但在使用多邊框建議時(我們在實踐中采用的),最好還是使用多邊框的實例。

基于以上的結果,我們在剩余的文章部分會將帶有難實例的邊緣最大化訓練作為Full Model。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


表3.Full Model在少量標注數(shù)據(jù)集上的訓練表現(xiàn)和在大量自動標注數(shù)據(jù)集上的訓練表現(xiàn)比較。

8.3 完全監(jiān)督模式

在本部分,我們基于G-Ref和UNC-Ref測試和驗證,對標準線(最大似然性)和最大邊緣化MMI方法進行比較。和前文一樣,我們會考慮真實圖像及測試時的測試圖像,和真實圖像(人工)及生成描述(自動)。結果在表2。從表中可見,在所有情況下,MMI的訓練表現(xiàn)要比ML更好。

除上述的端至端評價,我們會對生成句子質量進行人工判斷。我們會從測試集中隨機選擇1000個物體并展示給Amazon Mechanical Turk的工作人員。標準線和full model中的描述到達或是優(yōu)于人類描述分別占比15.9%和20.4%。這顯示MMI訓練效果比ML更好。

8.4半監(jiān)督的訓練

為進行半監(jiān)督試驗,我們把UNC-Ref和G-Ref的數(shù)據(jù)集分成兩個有相同目標數(shù)的部分。第一個部分(指代為Dbb+txt)具有目標描述注釋,第二部分(指代為Dbb)僅僅只有邊框。表3顯示的是半監(jiān)督訓練基于我們的數(shù)據(jù)的確認集和UNC-Ref上的測試結果。從表中可見,使用Dbb+txt和Dbb比單獨使用Dbb+txt的結果要好。

8.5 定性結果

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解


圖7使用完整模式(短劃線之上)和基線模式(短劃線之下)生成的描述例子。

圖7展示了完整生成模式(在短劃線之上)和基線生成模式(在短劃線之下)在測試圖片上的定性表現(xiàn)。我們由完整模式生成的描述要比基線模式生成的描述更長,更能辨別。例如,在第二幅圖片中,基線模式把其中一只貓描述為“躺在床上的貓”,這一描述不能讓聽者辨別出被描述的貓。完整模式把同一只貓描述為“躺在左邊的貓”,這樣的描述就很清楚。


圖8使用完整模式進行描述辨認的結果。第1欄和第2欄分別顯示的是原始圖像和多邊框建議。第3到底6欄顯示的是當輸入圖中任意目標的描述時的模式判斷結果。紅色邊框指代的是由模式預測的最有可能的目標,藍色邊框指代的是可能目標的邊緣。這些描述可能會是數(shù)據(jù)集中的固有描述(第3欄),或是特殊描述(第4到第6欄)。

圖片里的人在干嘛?讓深度學習來告訴你 | 谷歌CVPR2016論文詳解

圖8顯示完整模式基于測試集的定性結果。第1和第2欄分別顯示的是原始圖像和多邊框建議。最后4欄顯示的是模式根據(jù)輸入選擇的邊框(所有的句子都是為探索模式的理解能力)。為更好的解釋這些結果,我們在模式的范圍之內的邊框用藍色邊框表示。這些邊框被看做是“候選邊框”,但是這些邊框的分數(shù)不如選中的分數(shù)高。

總的來說,我們可以看到理解模式在從兩三個詞組到更長的描述中都表現(xiàn)很好。它能正確應對指代表達中單個單詞的改變(例如,“穿黑色衣服的男人”和“穿紅色衣服的男人”)。它也能正確辨認指代表達,例如,“載著女人的一匹黑馬”,“女人”在另外一個短語也出現(xiàn)過“女人騎在黑馬上”——但是要注意這種嵌入的單詞可能會辨認失敗。例如,在第4欄中,輸入“穿白色衣服的女人”但卻選擇了“穿黑色衣服的女人”;這是因為我們的模式不能處理目標未出現(xiàn)的情況,但是做了合理的猜測。同樣,在第5欄,可能是因為控制器太小以至于難以檢測,或是缺少相關訓練數(shù)據(jù),輸入“女人手中的控制器”但卻選擇了女人,橘色茶杯和控制器。

9.總結

總的來說,我們向讀者展示了兩個簡單觀點。第一,指代表達的研究已進行了數(shù)十年,但基于最近的圖像解釋潮流,這項研究又迸發(fā)出新的活力。圖像解釋本身很難評價,指代表達有一個客觀的表現(xiàn)指標,并且要求語言和圖像的語義相符合。基于數(shù)據(jù)集測試的成功比通過標準圖像解釋的意義更大。

第二,為成功生成描述,我們需要傾聽者。試驗顯示,建模一個傾聽者能正確解碼生成的描述,這樣的模式比使用只基于圖像特征進行輸出的模式表現(xiàn)要好。希望除了我們的數(shù)據(jù)集,這些觀察能促進視覺和語言聯(lián)合模式的建立。

via CVPR2016

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說