丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

本文作者: 我在思考中 2022-05-25 10:06
導語:Google Brain推出的 Imagen,比前段時間OpeAI家的DALL·E 2更強!

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

作者|李梅、王玥

編輯|陳彩嫻

文本生成圖像模型界又出新手筆!

這次的主角是Google Brain推出的 Imagen,再一次突破人類想象力,將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度!比前段時間OpeAI家的DALL·E 2更強!

話不多說,我們來欣賞這位AI畫師的杰作~

A brain riding a rocketship heading towards the moon.(一顆大腦乘著火箭飛向月球。)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A dragon fruit wearing karate belt in the snow.(在雪地里戴著空手道腰帶的火龍果)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只帶著巨大耳機的考拉DJ的大理石雕像站在一個大理石轉盤前。)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陳列莫奈畫作的美術館被水淹沒。機器人正在使用槳板在美術館里劃行。)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(農(nóng)場里有一條巨大的玉米構成的眼鏡蛇。)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奧運會400米蝶泳項目中游泳。)

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

以及更多......

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

給出同樣的文本提示,Imagen還可以生成不同類別的圖像。比如下面這些圖中,各組圖片在物品的顏色、空間位置、材質等范疇上都不太相同。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



1

Imagen的工作原理
逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

論文地址:https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基于大型transformer語言模型在理解文本方面的能力和擴散模型在高保真圖像生成方面的能力。

在用戶輸入文本要求后,如“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”,Imagen先是使用一個大的凍結(frozen)T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴散模型將文本嵌入映射到64×64的圖像中。

Imagen進一步利用文本條件超分辨率擴散模型對64×64的圖像進行升采樣為256×256,再從256×256升到1024×1024。結果表明,帶噪聲調節(jié)增強的級聯(lián)擴散模型在逐步生成高保真圖像方面效果很好。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:輸入“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”后Imagen的動作

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:64 × 64生成圖像的超分辨率變化。對于生成的64 × 64圖像,將兩種超分辨率模型分別置于不同的提示下,產(chǎn)生不同的上采樣變化

大型預訓練語言模型×級聯(lián)擴散模型

Imagen使用在純文本語料中進行預訓練的通用大型語言模型(例如T5),它能夠非常有效地將文本合成圖像:在Imagen中增加語言模型的大小,而不是增加圖像擴散模型的大小,可以大大地提高樣本保真度和圖像-文本對齊。

Imagen的研究突出體現(xiàn)在:

  • 大型預訓練凍結文本編碼器對于文本到圖像的任務來說非常有效;

  • 縮放預訓練的文本編碼器大小比縮放擴散模型大小更重要;

  • 引入一種新的閾值擴散采樣器,這種采樣器可以使用非常大的無分類器指導權重;

  • 引入一種新的高效U-Net架構,這種架構具有更高的計算效率、更高的內(nèi)存效率和更快的收斂速度;

  • Imagen在COCO數(shù)據(jù)集上獲得了最先進的FID分數(shù)7.27,而沒有對COCO進行任何訓練,人類評分者發(fā)現(xiàn),Imagen樣本在圖像-文本對齊方面與COCO數(shù)據(jù)本身不相上下。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



2

引入新基準DrawBench

為了更深入地評估文本到圖像模型,Google Brain 引入了DrawBench,這是一個全面的、具有挑戰(zhàn)性的文本到圖像模型基準。通過DrawBench,他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,發(fā)現(xiàn)人類評分者在比較中更喜歡Imagen而不是其他模型,無論是在樣本質量上還是在圖像-文本對齊方面。

  • 并排人類評估;

  • 對語意合成性、基數(shù)性、空間關系、長文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗;

  • 由于圖像-文本對齊和圖像保真度的優(yōu)勢,相對于其他方法,用戶強烈傾向于使用Imagen。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對圖像-文本對齊和圖像逼真度的偏好率(95%置信區(qū)間)

Imagen與DALL-E 2 生成圖像的比較示例 :

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:“外星人綁架奶牛,將其吸入空中盤旋”(上);“一個被貓絆倒的希臘男性的雕塑”(下)

對于涉及顏色的文本提示,Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標圖像分配正確的顏色,尤其是當文本提示中包含多個對象的顏色提示時,DALL-E 2會容易將其混淆。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen和DALL-E 2從顏色類文本生成圖像的比較。“一本黃色書籍和一個紅花瓶”(上);“一個黑色蘋果和一個綠色雙肩包”(下)

而在帶引號文本的提示方面,Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較?!凹~約天際線,天上有煙花寫成的“Hello World”字樣”(上);“一間寫著Time to Image的店面”(下)



3

打開了潘多拉魔盒?

像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。

首先,文本-圖像模型的下游應用多種多樣,可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風險,因此社會要求開發(fā)方提供負責任的開源代碼和演示?;谝陨显?,Google決定暫時不發(fā)布代碼或進行公開演示。而在未來的工作中,Google將探索一個負責任的外部化框架,從而將各類潛在風險最小化。

其次,文本到圖像模型對數(shù)據(jù)的要求導致研究人員嚴重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡抓取的數(shù)據(jù)集。雖然近年來這種方法使算法快速進步,但這種性質的數(shù)據(jù)集往往會夾帶社會刻板印象、壓迫性觀點、對邊緣群體有所貶損等“有毒”信息。

為了去除噪音和不良內(nèi)容(如色情圖像和“有毒”言論),Google對訓練數(shù)據(jù)的子集進行了過濾,同時Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進行過濾對比,該數(shù)據(jù)集包含網(wǎng)絡上常見的不當內(nèi)容,包括色情圖像、種族主義攻擊言論和負面社會刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡規(guī)模數(shù)據(jù)上訓練的文本編碼器,因此繼承了大型語言模型的社會偏見和局限性。這說明Imagen可能存在負面刻板印象和其他局限性,因此Google決定,在沒有進一步安全措施的情況下,不會將Imagen發(fā)布給公眾使用。

參考鏈接:

https://gweb-research-imagen.appspot.com/

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說