0
雷鋒網(wǎng) AI 科技評(píng)論按:近日,李飛飛的學(xué)生 Justin Johnson 在 arXiv 上傳了一篇論文:Image Generation from Scene Graphs(從場(chǎng)景圖生成圖像),提出利用結(jié)構(gòu)化場(chǎng)景圖而不是非結(jié)構(gòu)化文本生成圖像,該方法能夠明確解析對(duì)象和對(duì)象之間關(guān)系,并可生成具有多個(gè)可識(shí)別對(duì)象的復(fù)雜圖像。
論文摘要
為了能真正理解視覺(jué)世界,模型不僅要能夠識(shí)別圖像,還要能夠生成它們。近期在自然語(yǔ)言描述生成圖片方面取得了令人興奮的進(jìn)展。這些方法在有限的領(lǐng)域(例如鳥類或花卉的描述)上提供了令人驚嘆的結(jié)果,但對(duì)于具有許多對(duì)象和關(guān)系的復(fù)雜句子卻很難成功復(fù)制。為了克服這個(gè)限制,作者提出了一種從場(chǎng)景圖生成圖像的方法,能夠明確地推理對(duì)象及其關(guān)系。作者開發(fā)的模型使用圖形卷積來(lái)處理輸入圖,通過(guò)預(yù)測(cè)對(duì)象的邊界框和分割掩模來(lái)計(jì)算場(chǎng)景布局,并且將布局轉(zhuǎn)換為具有級(jí)聯(lián)精化網(wǎng)絡(luò)的圖像。論文作者使用對(duì)抗訓(xùn)練網(wǎng)絡(luò)對(duì)抗一組鑒別器,以確保實(shí)際輸出圖像足夠逼真。實(shí)驗(yàn)通過(guò) Visual Genome 和 COCO-Stuff 數(shù)據(jù)集驗(yàn)證了其方法,定性結(jié)果和用戶實(shí)驗(yàn)復(fù)現(xiàn)證明了該方法能夠生成具有多個(gè)對(duì)象的復(fù)雜圖像。
背景介紹
我不理解的事物,我是不可能創(chuàng)造出來(lái)的。——Richard Feynman
創(chuàng)作行為的產(chǎn)生建立在深刻理解所創(chuàng)造的事物的基礎(chǔ)之上。例如,廚師要比食客更深層理解食物,小說(shuō)家要比讀者更深層次理解寫作,電影制作者要比影迷更深層次理解電影。如果讓計(jì)算機(jī)視覺(jué)系統(tǒng)要真正理解視覺(jué)世界,它必須不僅能夠識(shí)別圖像,而且能夠產(chǎn)生它們。
除了傳遞深刻的視覺(jué)理解之外,生成逼真圖像的方法也可能在實(shí)踐中有用。在短期內(nèi),自動(dòng)圖像生成可以幫助藝術(shù)家或圖形設(shè)計(jì)師更好地工作。有一天,可能會(huì)根據(jù)每個(gè)用戶的個(gè)人興趣愛(ài)好,私人定制圖像和視頻,從而取代依靠算法的圖像和視頻搜索引擎。
作為實(shí)現(xiàn)這些目標(biāo)的一個(gè)步驟,通過(guò)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò),從文本到圖像的合成,從自然語(yǔ)言描述生成圖像已經(jīng)有令人興奮的進(jìn)展。(論文作者在 Google Cloud AI 實(shí)習(xí)期間已經(jīng)完成了這項(xiàng)工作)
圖1
句子生成圖像已經(jīng)有一些最好的方法,例如StackGAN ,但它很難用真實(shí)的方式刻畫出有許多對(duì)象的復(fù)雜句子。論文作者通過(guò)從場(chǎng)景圖生成圖像來(lái)克服這個(gè)限制,可以明確地推斷出對(duì)象及其關(guān)系。
這些方法可以在有限的區(qū)域上產(chǎn)生令人驚嘆的效果,例如對(duì)鳥類或花朵的細(xì)致描述。然而,如圖 1 所示,從句子生成圖像的主要方法遇到包含許多對(duì)象的復(fù)雜句子并不能發(fā)揮很好的效果。
句子是線性結(jié)構(gòu),一個(gè)詞接一個(gè)詞;然而,如圖 1 所示,復(fù)雜句子傳達(dá)的信息通??梢宰鳛閳?chǎng)景圖更明確地表示為對(duì)象及其關(guān)系。場(chǎng)景圖是圖像和語(yǔ)言的強(qiáng)大結(jié)構(gòu)化表示;他們已經(jīng)被用于語(yǔ)義圖像檢索;評(píng)估和改進(jìn)圖像字幕。其方法也被開發(fā)用于將句子轉(zhuǎn)換成場(chǎng)景圖并用于從圖像到場(chǎng)景圖的預(yù)測(cè)。
在本文中,作者旨在通過(guò)調(diào)整場(chǎng)景圖的生成來(lái)生成具有多對(duì)象和關(guān)系復(fù)雜的圖像,從而使模型能夠明確地解釋對(duì)象及其關(guān)系。
這項(xiàng)新任務(wù)帶來(lái)了新的挑戰(zhàn)。作者必須開發(fā)處理場(chǎng)景圖輸入的方法; 為此,他們使用一個(gè)圖形卷積網(wǎng)絡(luò),沿著圖形邊緣傳遞信息。處理完圖后,必須填補(bǔ)符號(hào)圖形結(jié)構(gòu)輸入和二維圖像輸出之間的差距; 為此,通過(guò)預(yù)測(cè)圖中所有對(duì)象的邊界框和分割掩模來(lái)構(gòu)建場(chǎng)景布局。預(yù)先設(shè)定好布局后,必須生成涉及它的圖像; 為此,使用級(jí)聯(lián)精化網(wǎng)絡(luò)(CRN),它在不斷增加的空間尺度下處理布局。最后,必須確保生成的圖像真實(shí)并且包含可識(shí)別的對(duì)象; 因此針對(duì)一組用于圖像補(bǔ)丁和生成對(duì)象的鑒別器網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練。模型的所有組件都以端到端的方式共同學(xué)習(xí)。
作者在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):Visual Genome 提供了人工標(biāo)注的場(chǎng)景圖,COCO-Stuff [3] 則根據(jù)地面真實(shí)物體位置構(gòu)建合成場(chǎng)景圖。在這兩個(gè)數(shù)據(jù)集上,都會(huì)展示定性結(jié)果,演示其方法生成復(fù)雜圖像的能力。這些復(fù)雜圖像涉及輸入場(chǎng)景圖的對(duì)象和關(guān)系,并執(zhí)行全面的圖像分割來(lái)驗(yàn)證模型的每個(gè)組件。
生成圖像模型的自動(dòng)評(píng)估本身就是一個(gè)具有挑戰(zhàn)性的問(wèn)題,所以通過(guò)兩個(gè)亞馬遜 Mechanical Turk 用戶研究評(píng)估了實(shí)驗(yàn)結(jié)果。與 StackGAN 相比,這是一個(gè)領(lǐng)先的文本到圖像合成系統(tǒng),用戶發(fā)現(xiàn),該方法生成的結(jié)果在 68%的試驗(yàn)中能更好地匹配 COCO 字幕,并且包含 59%以上的可識(shí)別對(duì)象。
實(shí)驗(yàn)方法
作者的目標(biāo)是開發(fā)一個(gè)模型,將輸入描述對(duì)象及其關(guān)系的場(chǎng)景圖作為輸入,并生成與該圖對(duì)應(yīng)的逼真圖像。主要的挑戰(zhàn)有三個(gè):首先,必須開發(fā)一種處理圖形結(jié)構(gòu)輸入的方法;其次,必須確保生成的圖像涉及圖形指定的對(duì)象和關(guān)系;第三,必須確保合成圖像真實(shí)。
作者將場(chǎng)景圖轉(zhuǎn)換為圖像生成網(wǎng)絡(luò) f 的圖像,如圖 2 所示,它輸入場(chǎng)景圖 G 和噪聲 z 并輸出圖像 I = f(G,z)。
場(chǎng)景圖 G 由一個(gè)圖形卷積網(wǎng)絡(luò)處理,該網(wǎng)絡(luò)給出每個(gè)物體的嵌入矢量;如圖 2 和圖 3 所示,圖層卷積的每個(gè)層沿著圖的邊緣混合信息。
我們通過(guò)使用來(lái)自圖卷積網(wǎng)絡(luò)的對(duì)象嵌入向量來(lái)預(yù)測(cè)每個(gè)對(duì)象的邊界框和分割掩模,從而尊重來(lái)自 G 的對(duì)象和關(guān)系;這些結(jié)合在一起形成一個(gè)場(chǎng)景布局,如圖 2 中間所示,它充當(dāng)圖形和圖像域之間的中間層。
輸出圖像 I^是使用級(jí)聯(lián)精化網(wǎng)絡(luò)(CRN)從布局生成的,如圖 2 右邊所示。每個(gè)模塊都在處理布局,增加空間尺度,最終生成圖像 I^。我們通過(guò)對(duì)一對(duì)鑒別器網(wǎng)絡(luò) Dimg 和 Dobj 進(jìn)行對(duì)抗訓(xùn)練 f 來(lái)生成逼真的圖像,這些網(wǎng)絡(luò)鼓勵(lì)圖像 I^看起來(lái)逼真。
關(guān)于實(shí)驗(yàn)中每一個(gè)組件更詳細(xì)的描述,可查閱原論文:https://arxiv.org/abs/1804.01622
圖2
圖像生成網(wǎng)絡(luò) f 用于從場(chǎng)景圖生成圖像的概述。模型的輸入是指定對(duì)象和關(guān)系的場(chǎng)景圖; 它用圖形卷積網(wǎng)絡(luò)(圖 3)進(jìn)行處理,該網(wǎng)絡(luò)沿著邊緣傳遞信息來(lái)計(jì)算所有對(duì)象的嵌入向量。這些向量被用來(lái)預(yù)測(cè)對(duì)象的邊界框和分割掩模,它們被組合形成場(chǎng)景布局(圖 4)。使用級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)(CRN)將布局轉(zhuǎn)換為圖像 [6]。該模型是針對(duì)一對(duì)鑒別器網(wǎng)絡(luò)進(jìn)行敵對(duì)訓(xùn)練的。在訓(xùn)練期間,模型觀察地面真實(shí)物體邊界框和(可選)分割掩模,但是這些是在測(cè)試時(shí)由模型預(yù)測(cè)的。
圖3中顯示了單個(gè)圖形卷積層的示例計(jì)算圖。
圖3
計(jì)算機(jī)圖形表示單一的圖形變化層。 該圖由三個(gè)對(duì)象o1,o2和o3以及兩個(gè)邊(o1,r1,o2)和(o3,r2,o2)組成。 沿著每條邊,三個(gè)輸入向量被傳遞給函數(shù)gs,gp和go; gp直接計(jì)算邊的輸出矢量,而gs和go計(jì)算候選矢量,它們被饋送到對(duì)稱池函數(shù)h以計(jì)算對(duì)象的輸出矢量。
為了生成圖像,必須從圖域移動(dòng)到圖像域。為此,作者使用對(duì)象嵌入向量來(lái)計(jì)算場(chǎng)景布局,該場(chǎng)景布局給出了生成圖像的粗略 2D 結(jié)構(gòu); 通過(guò)使用對(duì)象布局網(wǎng)絡(luò)為每個(gè)對(duì)象預(yù)測(cè)分割掩碼和邊界框來(lái)計(jì)算場(chǎng)景布局,如圖 4 所示。
圖4
圖 4 通過(guò)計(jì)算場(chǎng)景布局從圖域轉(zhuǎn)移到圖像域。每個(gè)對(duì)象的嵌入向量被傳遞給一個(gè)對(duì)象布局網(wǎng)絡(luò),該網(wǎng)絡(luò)預(yù)測(cè)對(duì)象的布局,總結(jié)所有對(duì)象布局給出場(chǎng)景布局。對(duì)象布局網(wǎng)絡(luò)在內(nèi)部預(yù)測(cè)一個(gè)軟二進(jìn)制分割掩碼和一個(gè)對(duì)象的邊界框; 這些與使用雙線性插值的嵌入向量組合以產(chǎn)生對(duì)象布局。
圖5
圖 5 使用分別來(lái)自 Visual Genome(左四列)和 COCO(右四列)測(cè)試集的圖形生成 64×64 圖像為例。對(duì)于每個(gè)示例,都會(huì)顯示輸入場(chǎng)景圖和手動(dòng)將場(chǎng)景圖轉(zhuǎn)換為文本; 模型處理場(chǎng)景圖并預(yù)測(cè)由所有對(duì)象的邊界框和分割掩模組成的布局; 然后這個(gè)布局用于生成圖像。作者還使用地面實(shí)況而非預(yù)測(cè)的場(chǎng)景布局顯示了模型的一些結(jié)果。一些場(chǎng)景圖具有重復(fù)的關(guān)系,如雙箭頭所示。為了清楚起見,忽略了某些東西類別的遮罩,如天空,街道和水。
圖6
通過(guò)作者的方法生成的圖像經(jīng)過(guò) Visual Genome 訓(xùn)練。在每一行中,我們從左側(cè)的簡(jiǎn)單場(chǎng)景圖形開始,逐步添加更多的對(duì)象和關(guān)系向右移動(dòng)。圖像涉及關(guān)系,像「風(fēng)箏下面的汽車」和「草地上的小船」。
部分實(shí)驗(yàn)結(jié)果對(duì)比
表1
表 1 是使用 Inception 分?jǐn)?shù)的消融研究。在每個(gè)數(shù)據(jù)集上,作者將測(cè)試集樣本隨機(jī)分成 5 組,并報(bào)告分組的平均值和標(biāo)準(zhǔn)差。在 COCO 上,通過(guò)構(gòu)建不同的合成場(chǎng)景圖,為每個(gè)測(cè)試集圖像生成五個(gè)樣本。對(duì)于 StackGAN,作者為每個(gè) COCO 測(cè)試集字幕生成一個(gè)圖像,并將其 256×256 輸出下采樣為 64×64,以便與論文中的方法進(jìn)行公平比較。
表2
表 2 是預(yù)測(cè)邊界框的統(tǒng)計(jì)。R@t 是具有 t 的 IoU 閾值的對(duì)象調(diào)用,并且與地面實(shí)況框測(cè)量協(xié)議。σx 和σ分別通過(guò)計(jì)算每個(gè)對(duì)象類別中框 x 位置和面積的標(biāo)準(zhǔn)偏差,然后對(duì)各個(gè)類別進(jìn)行求平均來(lái)測(cè)量框的變化。
實(shí)驗(yàn)結(jié)果分析
圖 5 顯示了來(lái)自 Visual Genome 和 COCO 測(cè)試集的示例場(chǎng)景圖以及使用論文作者方法生成的圖像,以及預(yù)測(cè)的對(duì)象邊界框和分割掩模。
從這些例子中可以清楚地看到,該方法可以生成具有多個(gè)對(duì)象的場(chǎng)景,甚至可以生成多個(gè)相同對(duì)象類型的實(shí)例:例如圖 5(a)顯示了兩只羊,(d)顯示了兩輛巴士,(g)顯示三個(gè)人,(i)顯示兩輛汽車。
這些例子還表明,該方法生成涉及輸入圖關(guān)系的圖像; 例如(i)看到第二個(gè)西蘭花左邊有一個(gè)西蘭花,第二個(gè)西蘭花下面有一個(gè)胡蘿卜; 在(j)中,該男子正在騎馬,并且該男子的腿和馬的腿都已經(jīng)被適當(dāng)定位。圖 5 還顯示了該方法使用的是地表實(shí)況而不是預(yù)測(cè)的對(duì)象布局生成的圖像。
在某些情況下,該方法的預(yù)測(cè)布局可能與地面實(shí)況對(duì)象布局有很大差異。例如(k)圖中沒(méi)有指定鳥的位置,該方法使它站立在地面上,但是在地面真實(shí)布局中,鳥在天空中飛行。模型有時(shí)會(huì)受到布局預(yù)測(cè)的瓶頸,比如(n)使用地面實(shí)況而不是預(yù)測(cè)布局顯著提高圖像質(zhì)量。
在圖 6 中,通過(guò)從左側(cè)的簡(jiǎn)單圖形開始,逐步構(gòu)建更復(fù)雜的圖形來(lái)演示模型生成復(fù)雜圖像的能力。從這個(gè)例子中,可以看到對(duì)象的位置受到圖中關(guān)系的影響:在頂部序列中,添加「汽車在風(fēng)箏下面」關(guān)系后,造成使汽車向右移動(dòng),風(fēng)箏向左移動(dòng),從而風(fēng)箏和汽車的關(guān)系也發(fā)生變化。在底部序列中,將關(guān)系「船在草地上」添加后,導(dǎo)致船的位置移位。
總結(jié)
在本文中,作者開發(fā)了一種從場(chǎng)景圖生成圖像的端到端的方法。 與從文本描述生成圖像的領(lǐng)先方法相比,作者提出的從結(jié)構(gòu)化場(chǎng)景圖而不是非結(jié)構(gòu)化文本生成圖像的方法能夠明確地解析對(duì)象和對(duì)象之間關(guān)系,并生成具有多個(gè)可識(shí)別對(duì)象的復(fù)雜圖像。
論文下載地址:https://arxiv.org/abs/1804.01622
雷鋒網(wǎng)AI科技評(píng)論
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。