丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

本文作者: 我在思考中 2022-05-25 10:06
導(dǎo)語:Google Brain推出的 Imagen,比前段時(shí)間OpeAI家的DALL·E 2更強(qiáng)!

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

作者|李梅、王玥

編輯|陳彩嫻

文本生成圖像模型界又出新手筆!

這次的主角是Google Brain推出的 Imagen,再一次突破人類想象力,將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度!比前段時(shí)間OpeAI家的DALL·E 2更強(qiáng)!

話不多說,我們來欣賞這位AI畫師的杰作~

A brain riding a rocketship heading towards the moon.(一顆大腦乘著火箭飛向月球。)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A dragon fruit wearing karate belt in the snow.(在雪地里戴著空手道腰帶的火龍果)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只帶著巨大耳機(jī)的考拉DJ的大理石雕像站在一個(gè)大理石轉(zhuǎn)盤前。)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陳列莫奈畫作的美術(shù)館被水淹沒。機(jī)器人正在使用槳板在美術(shù)館里劃行。)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(農(nóng)場里有一條巨大的玉米構(gòu)成的眼鏡蛇。)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奧運(yùn)會(huì)400米蝶泳項(xiàng)目中游泳。)

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

以及更多......

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

給出同樣的文本提示,Imagen還可以生成不同類別的圖像。比如下面這些圖中,各組圖片在物品的顏色、空間位置、材質(zhì)等范疇上都不太相同。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



1

Imagen的工作原理
逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

論文地址:https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可視化流程

Imagen基于大型transformer語言模型在理解文本方面的能力和擴(kuò)散模型在高保真圖像生成方面的能力。

在用戶輸入文本要求后,如“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”,Imagen先是使用一個(gè)大的凍結(jié)(frozen)T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴(kuò)散模型將文本嵌入映射到64×64的圖像中。

Imagen進(jìn)一步利用文本條件超分辨率擴(kuò)散模型對(duì)64×64的圖像進(jìn)行升采樣為256×256,再從256×256升到1024×1024。結(jié)果表明,帶噪聲調(diào)節(jié)增強(qiáng)的級(jí)聯(lián)擴(kuò)散模型在逐步生成高保真圖像方面效果很好。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:輸入“一只戴著藍(lán)色格子貝雷帽和紅色波點(diǎn)高領(lǐng)毛衣的金毛犬”后Imagen的動(dòng)作

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:64 × 64生成圖像的超分辨率變化。對(duì)于生成的64 × 64圖像,將兩種超分辨率模型分別置于不同的提示下,產(chǎn)生不同的上采樣變化

大型預(yù)訓(xùn)練語言模型×級(jí)聯(lián)擴(kuò)散模型

Imagen使用在純文本語料中進(jìn)行預(yù)訓(xùn)練的通用大型語言模型(例如T5),它能夠非常有效地將文本合成圖像:在Imagen中增加語言模型的大小,而不是增加圖像擴(kuò)散模型的大小,可以大大地提高樣本保真度和圖像-文本對(duì)齊。

Imagen的研究突出體現(xiàn)在:

  • 大型預(yù)訓(xùn)練凍結(jié)文本編碼器對(duì)于文本到圖像的任務(wù)來說非常有效;

  • 縮放預(yù)訓(xùn)練的文本編碼器大小比縮放擴(kuò)散模型大小更重要;

  • 引入一種新的閾值擴(kuò)散采樣器,這種采樣器可以使用非常大的無分類器指導(dǎo)權(quán)重;

  • 引入一種新的高效U-Net架構(gòu),這種架構(gòu)具有更高的計(jì)算效率、更高的內(nèi)存效率和更快的收斂速度;

  • Imagen在COCO數(shù)據(jù)集上獲得了最先進(jìn)的FID分?jǐn)?shù)7.27,而沒有對(duì)COCO進(jìn)行任何訓(xùn)練,人類評(píng)分者發(fā)現(xiàn),Imagen樣本在圖像-文本對(duì)齊方面與COCO數(shù)據(jù)本身不相上下。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



2

引入新基準(zhǔn)DrawBench

為了更深入地評(píng)估文本到圖像模型,Google Brain 引入了DrawBench,這是一個(gè)全面的、具有挑戰(zhàn)性的文本到圖像模型基準(zhǔn)。通過DrawBench,他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,發(fā)現(xiàn)人類評(píng)分者在比較中更喜歡Imagen而不是其他模型,無論是在樣本質(zhì)量上還是在圖像-文本對(duì)齊方面。

  • 并排人類評(píng)估;

  • 對(duì)語意合成性、基數(shù)性、空間關(guān)系、長文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗(yàn);

  • 由于圖像-文本對(duì)齊和圖像保真度的優(yōu)勢,相對(duì)于其他方法,用戶強(qiáng)烈傾向于使用Imagen。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對(duì)圖像-文本對(duì)齊和圖像逼真度的偏好率(95%置信區(qū)間)

Imagen與DALL-E 2 生成圖像的比較示例 :

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:“外星人綁架奶牛,將其吸入空中盤旋”(上);“一個(gè)被貓絆倒的希臘男性的雕塑”(下)

對(duì)于涉及顏色的文本提示,Imagen生成的圖像也比DALL-E 2更優(yōu)。DALL-E 2通常很難為目標(biāo)圖像分配正確的顏色,尤其是當(dāng)文本提示中包含多個(gè)對(duì)象的顏色提示時(shí),DALL-E 2會(huì)容易將其混淆。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen和DALL-E 2從顏色類文本生成圖像的比較?!耙槐军S色書籍和一個(gè)紅花瓶”(上);“一個(gè)黑色蘋果和一個(gè)綠色雙肩包”(下)

而在帶引號(hào)文本的提示方面,Imagen生成圖像的能力也明顯優(yōu)于DALL-E 2。

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

圖注:Imagen 和 DALL-E 2 從帶引號(hào)文本生成圖像的比較?!凹~約天際線,天上有煙花寫成的“Hello World”字樣”(上);“一間寫著Time to Image的店面”(下)



3

打開了潘多拉魔盒?

像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰(zhàn)。

首先,文本-圖像模型的下游應(yīng)用多種多樣,可能會(huì)從多方面對(duì)社會(huì)造成影響。Imagen以及一切從文本生成圖像的系統(tǒng)都有可能被誤用的潛在風(fēng)險(xiǎn),因此社會(huì)要求開發(fā)方提供負(fù)責(zé)任的開源代碼和演示。基于以上原因,Google決定暫時(shí)不發(fā)布代碼或進(jìn)行公開演示。而在未來的工作中,Google將探索一個(gè)負(fù)責(zé)任的外部化框架,從而將各類潛在風(fēng)險(xiǎn)最小化。

其次,文本到圖像模型對(duì)數(shù)據(jù)的要求導(dǎo)致研究人員嚴(yán)重依賴于大型的、大部分未經(jīng)整理的、網(wǎng)絡(luò)抓取的數(shù)據(jù)集。雖然近年來這種方法使算法快速進(jìn)步,但這種性質(zhì)的數(shù)據(jù)集往往會(huì)夾帶社會(huì)刻板印象、壓迫性觀點(diǎn)、對(duì)邊緣群體有所貶損等“有毒”信息。

為了去除噪音和不良內(nèi)容(如色情圖像和“有毒”言論),Google對(duì)訓(xùn)練數(shù)據(jù)的子集進(jìn)行了過濾,同時(shí)Google還使用了眾所周知的LAION-400M數(shù)據(jù)集進(jìn)行過濾對(duì)比,該數(shù)據(jù)集包含網(wǎng)絡(luò)上常見的不當(dāng)內(nèi)容,包括色情圖像、種族主義攻擊言論和負(fù)面社會(huì)刻板印象。Imagen依賴于在未經(jīng)策劃的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上訓(xùn)練的文本編碼器,因此繼承了大型語言模型的社會(huì)偏見和局限性。這說明Imagen可能存在負(fù)面刻板印象和其他局限性,因此Google決定,在沒有進(jìn)一步安全措施的情況下,不會(huì)將Imagen發(fā)布給公眾使用。

參考鏈接:

https://gweb-research-imagen.appspot.com/

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說