0
本文作者: 我在思考中 | 2022-05-25 10:06 |
作者|李梅、王玥
文本生成圖像模型界又出新手筆!
這次的主角是Google Brain推出的 Imagen,再一次突破人類想象力,將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度!比前段時間OpeAI家的DALL·E 2更強!
話不多說,我們來欣賞這位AI畫師的杰作~
以及更多......
給出同樣的文本提示,Imagen還可以生成不同類別的圖像。比如下面這些圖中,各組圖片在物品的顏色、空間位置、材質等范疇上都不太相同。
論文地址:https://gweb-research-imagen.appspot.com/paper.pdf
Imagen基于大型transformer語言模型在理解文本方面的能力和擴散模型在高保真圖像生成方面的能力。
在用戶輸入文本要求后,如“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”,Imagen先是使用一個大的凍結(frozen)T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴散模型將文本嵌入映射到64×64的圖像中。
Imagen進一步利用文本條件超分辨率擴散模型對64×64的圖像進行升采樣為256×256,再從256×256升到1024×1024。結果表明,帶噪聲調節(jié)增強的級聯(lián)擴散模型在逐步生成高保真圖像方面效果很好。
圖注:輸入“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”后Imagen的動作
圖注:64 × 64生成圖像的超分辨率變化。對于生成的64 × 64圖像,將兩種超分辨率模型分別置于不同的提示下,產(chǎn)生不同的上采樣變化
Imagen使用在純文本語料中進行預訓練的通用大型語言模型(例如T5),它能夠非常有效地將文本合成圖像:在Imagen中增加語言模型的大小,而不是增加圖像擴散模型的大小,可以大大地提高樣本保真度和圖像-文本對齊。
Imagen的研究突出體現(xiàn)在:
大型預訓練凍結文本編碼器對于文本到圖像的任務來說非常有效;
縮放預訓練的文本編碼器大小比縮放擴散模型大小更重要;
引入一種新的閾值擴散采樣器,這種采樣器可以使用非常大的無分類器指導權重;
引入一種新的高效U-Net架構,這種架構具有更高的計算效率、更高的內(nèi)存效率和更快的收斂速度;
Imagen在COCO數(shù)據(jù)集上獲得了最先進的FID分數(shù)7.27,而沒有對COCO進行任何訓練,人類評分者發(fā)現(xiàn),Imagen樣本在圖像-文本對齊方面與COCO數(shù)據(jù)本身不相上下。
為了更深入地評估文本到圖像模型,Google Brain 引入了DrawBench,這是一個全面的、具有挑戰(zhàn)性的文本到圖像模型基準。通過DrawBench,他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,發(fā)現(xiàn)人類評分者在比較中更喜歡Imagen而不是其他模型,無論是在樣本質量上還是在圖像-文本對齊方面。
并排人類評估;
對語意合成性、基數(shù)性、空間關系、長文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗;
由于圖像-文本對齊和圖像保真度的優(yōu)勢,相對于其他方法,用戶強烈傾向于使用Imagen。
圖注:Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對圖像-文本對齊和圖像逼真度的偏好率(95%置信區(qū)間)
Imagen與DALL-E 2 生成圖像的比較示例 :
圖注:“外星人綁架奶牛,將其吸入空中盤旋”(上);“一個被貓絆倒的希臘男性的雕塑”(下)
對于涉及顏色的文本提示,Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標圖像分配正確的顏色,尤其是當文本提示中包含多個對象的顏色提示時,DALL-E 2會容易將其混淆。
圖注:Imagen和DALL-E 2從顏色類文本生成圖像的比較。“一本黃色書籍和一個紅花瓶”(上);“一個黑色蘋果和一個綠色雙肩包”(下)
而在帶引號文本的提示方面,Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。
圖注:Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較?!凹~約天際線,天上有煙花寫成的“Hello World”字樣”(上);“一間寫著Time to Image的店面”(下)
像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。
首先,文本-圖像模型的下游應用多種多樣,可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風險,因此社會要求開發(fā)方提供負責任的開源代碼和演示?;谝陨显?,Google決定暫時不發(fā)布代碼或進行公開演示。而在未來的工作中,Google將探索一個負責任的外部化框架,從而將各類潛在風險最小化。
其次,文本到圖像模型對數(shù)據(jù)的要求導致研究人員嚴重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡抓取的數(shù)據(jù)集。雖然近年來這種方法使算法快速進步,但這種性質的數(shù)據(jù)集往往會夾帶社會刻板印象、壓迫性觀點、對邊緣群體有所貶損等“有毒”信息。
為了去除噪音和不良內(nèi)容(如色情圖像和“有毒”言論),Google對訓練數(shù)據(jù)的子集進行了過濾,同時Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進行過濾對比,該數(shù)據(jù)集包含網(wǎng)絡上常見的不當內(nèi)容,包括色情圖像、種族主義攻擊言論和負面社會刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡規(guī)模數(shù)據(jù)上訓練的文本編碼器,因此繼承了大型語言模型的社會偏見和局限性。這說明Imagen可能存在負面刻板印象和其他局限性,因此Google決定,在沒有進一步安全措施的情況下,不會將Imagen發(fā)布給公眾使用。
參考鏈接:
https://gweb-research-imagen.appspot.com/
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。