逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

本文作者：我在思考中

2022-05-25 10:06

導(dǎo)語(yǔ)：Google Brain推出的 Imagen，比前段時(shí)間OpeAI家的DALL·E 2更強(qiáng)！

作者｜李梅、王玥

編輯｜陳彩嫻

文本生成圖像模型界又出新手筆！

這次的主角是Google Brain推出的 Imagen，再一次突破人類想象力，將文本生成圖像的逼真度和語(yǔ)言理解提高到了前所未有的新高度！比前段時(shí)間OpeAI家的DALL·E 2更強(qiáng)！

話不多說(shuō)，我們來(lái)欣賞這位AI畫(huà)師的杰作～

A brain riding a rocketship heading towards the moon.（一顆大腦乘著火箭飛向月球。）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A dragon fruit wearing karate belt in the snow.（在雪地里戴著空手道腰帶的火龍果）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.（一只帶著巨大耳機(jī)的考拉DJ的大理石雕像站在一個(gè)大理石轉(zhuǎn)盤(pán)前。）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.（陳列莫奈畫(huà)作的美術(shù)館被水淹沒(méi)。機(jī)器人正在使用槳板在美術(shù)館里劃行。）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn（農(nóng)場(chǎng)里有一條巨大的玉米構(gòu)成的眼鏡蛇。）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.（泰迪熊在奧運(yùn)會(huì)400米蝶泳項(xiàng)目中游泳。）

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

以及更多......

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

給出同樣的文本提示，Imagen還可以生成不同類別的圖像。比如下面這些圖中，各組圖片在物品的顏色、空間位置、材質(zhì)等范疇上都不太相同。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

Imagen的工作原理

論文地址：https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基于大型transformer語(yǔ)言模型在理解文本方面的能力和擴(kuò)散模型在高保真圖像生成方面的能力。

在用戶輸入文本要求后，如“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”，Imagen先是使用一個(gè)大的凍結(jié)（frozen）T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴(kuò)散模型將文本嵌入映射到64×64的圖像中。

Imagen進(jìn)一步利用文本條件超分辨率擴(kuò)散模型對(duì)64×64的圖像進(jìn)行升采樣為256×256，再?gòu)?56×256升到1024×1024。結(jié)果表明，帶噪聲調(diào)節(jié)增強(qiáng)的級(jí)聯(lián)擴(kuò)散模型在逐步生成高保真圖像方面效果很好。

圖注：輸入“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”后Imagen的動(dòng)作

圖注：64 × 64生成圖像的超分辨率變化。對(duì)于生成的64 × 64圖像，將兩種超分辨率模型分別置于不同的提示下，產(chǎn)生不同的上采樣變化

大型預(yù)訓(xùn)練語(yǔ)言模型×級(jí)聯(lián)擴(kuò)散模型

Imagen使用在純文本語(yǔ)料中進(jìn)行預(yù)訓(xùn)練的通用大型語(yǔ)言模型(例如T5)，它能夠非常有效地將文本合成圖像：在Imagen中增加語(yǔ)言模型的大小，而不是增加圖像擴(kuò)散模型的大小，可以大大地提高樣本保真度和圖像-文本對(duì)齊。

Imagen的研究突出體現(xiàn)在：

大型預(yù)訓(xùn)練凍結(jié)文本編碼器對(duì)于文本到圖像的任務(wù)來(lái)說(shuō)非常有效；
縮放預(yù)訓(xùn)練的文本編碼器大小比縮放擴(kuò)散模型大小更重要；
引入一種新的閾值擴(kuò)散采樣器，這種采樣器可以使用非常大的無(wú)分類器指導(dǎo)權(quán)重；
引入一種新的高效U-Net架構(gòu)，這種架構(gòu)具有更高的計(jì)算效率、更高的內(nèi)存效率和更快的收斂速度；
Imagen在COCO數(shù)據(jù)集上獲得了最先進(jìn)的FID分?jǐn)?shù)7.27，而沒(méi)有對(duì)COCO進(jìn)行任何訓(xùn)練，人類評(píng)分者發(fā)現(xiàn)，Imagen樣本在圖像-文本對(duì)齊方面與COCO數(shù)據(jù)本身不相上下。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2！谷歌大腦推出新的文本生成圖像模型——Imagen

引入新基準(zhǔn)DrawBench

為了更深入地評(píng)估文本到圖像模型，Google Brain 引入了DrawBench，這是一個(gè)全面的、具有挑戰(zhàn)性的文本到圖像模型基準(zhǔn)。通過(guò)DrawBench，他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法，發(fā)現(xiàn)人類評(píng)分者在比較中更喜歡Imagen而不是其他模型，無(wú)論是在樣本質(zhì)量上還是在圖像-文本對(duì)齊方面。

并排人類評(píng)估；
對(duì)語(yǔ)意合成性、基數(shù)性、空間關(guān)系、長(zhǎng)文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗(yàn)；
由于圖像-文本對(duì)齊和圖像保真度的優(yōu)勢(shì)，相對(duì)于其他方法，用戶強(qiáng)烈傾向于使用Imagen。

圖注：Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對(duì)圖像-文本對(duì)齊和圖像逼真度的偏好率(95%置信區(qū)間)

Imagen與DALL-E 2 生成圖像的比較示例：

圖注：“外星人綁架奶牛，將其吸入空中盤(pán)旋”（上）；“一個(gè)被貓絆倒的希臘男性的雕塑”（下）

對(duì)于涉及顏色的文本提示，Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標(biāo)圖像分配正確的顏色，尤其是當(dāng)文本提示中包含多個(gè)對(duì)象的顏色提示時(shí)，DALL-E 2會(huì)容易將其混淆。

圖注：Imagen和DALL-E 2從顏色類文本生成圖像的比較。“一本黃色書(shū)籍和一個(gè)紅花瓶”（上）；“一個(gè)黑色蘋(píng)果和一個(gè)綠色雙肩包”（下）

而在帶引號(hào)文本的提示方面，Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。

圖注：Imagen 和 DALL-E 2 從帶引號(hào)文本生成圖像的比較?！凹~約天際線，天上有煙花寫(xiě)成的“Hello World”字樣”（上）；“一間寫(xiě)著Time to Image的店面”（下）

打開(kāi)了潘多拉魔盒？

像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。

首先，文本-圖像模型的下游應(yīng)用多種多樣，可能會(huì)從多方面對(duì)社會(huì)造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風(fēng)險(xiǎn)，因此社會(huì)要求開(kāi)發(fā)方提供負(fù)責(zé)任的開(kāi)源代碼和演示。基于以上原因，Google決定暫時(shí)不發(fā)布代碼或進(jìn)行公開(kāi)演示。而在未來(lái)的工作中，Google將探索一個(gè)負(fù)責(zé)任的外部化框架，從而將各類潛在風(fēng)險(xiǎn)最小化。

其次，文本到圖像模型對(duì)數(shù)據(jù)的要求導(dǎo)致研究人員嚴(yán)重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡(luò)抓取的數(shù)據(jù)集。雖然近年來(lái)這種方法使算法快速進(jìn)步，但這種性質(zhì)的數(shù)據(jù)集往往會(huì)夾帶社會(huì)刻板印象、壓迫性觀點(diǎn)、對(duì)邊緣群體有所貶損等“有毒”信息。

為了去除噪音和不良內(nèi)容（如色情圖像和“有毒”言論），Google對(duì)訓(xùn)練數(shù)據(jù)的子集進(jìn)行了過(guò)濾，同時(shí)Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進(jìn)行過(guò)濾對(duì)比，該數(shù)據(jù)集包含網(wǎng)絡(luò)上常見(jiàn)的不當(dāng)內(nèi)容，包括色情圖像、種族主義攻擊言論和負(fù)面社會(huì)刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上訓(xùn)練的文本編碼器，因此繼承了大型語(yǔ)言模型的社會(huì)偏見(jiàn)和局限性。這說(shuō)明Imagen可能存在負(fù)面刻板印象和其他局限性，因此Google決定，在沒(méi)有進(jìn)一步安全措施的情況下，不會(huì)將Imagen發(fā)布給公眾使用。

參考鏈接：

https://gweb-research-imagen.appspot.com/