丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

本文作者: 我在思考中 2021-12-23 09:37
導(dǎo)語(yǔ):GLIDE:邁向真實(shí)圖像生成和編輯文本引導(dǎo)的擴(kuò)散模型。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

作者 | 莓酊、杏花
編輯 | 青暮

以前,當(dāng)我們想擁有一副圖像時(shí),首先會(huì)做的就是找專業(yè)畫(huà)師,將我們對(duì)圖畫(huà)的要求逐一描述,畫(huà)師再根據(jù)需求醉墨淋漓一番。但這種方式需要耗費(fèi)一定的時(shí)間和人力成本,且成果不一定盡如人意。

如今,基于自然語(yǔ)言生成逼真圖像的工具使我們能夠以一種全新的方式輕松創(chuàng)建大量的高質(zhì)量圖像。使用自然語(yǔ)言編輯圖像的能力進(jìn)一步允許迭代細(xì)化和細(xì)粒度控制,這兩者對(duì)于現(xiàn)實(shí)世界的應(yīng)用程序都至關(guān)重要。

目前,GANs(對(duì)抗生成網(wǎng)絡(luò))在大多數(shù)圖像生成任務(wù)上擁有最先進(jìn)的技術(shù),這些技術(shù)是通過(guò)樣本質(zhì)量來(lái)衡量的,例如FID,Inception Score 和 Precision等指標(biāo)。

然而,其中一些指標(biāo)不能完全捕獲生成圖像的多樣性,且與最先進(jìn)的基于似然度的模型相比,GANs捕獲的多樣性較少。此外,如果沒(méi)有精心選擇的超參數(shù)和正則化器,GANs在訓(xùn)練中經(jīng)常翻車。

針對(duì)這些問(wèn)題,OpenAI的兩位研究人員Prafulla Dhariwal和Alex Nichol便著眼于其他體系架構(gòu)。2021年5月,這兩名學(xué)者發(fā)表了名為《Diffusion Models Beat GANs on Image Synthesis》的論文,證明了擴(kuò)散模型在圖像合成上優(yōu)于目前最先進(jìn)的生成模型的圖像質(zhì)量。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

論文地址:https://openreview.net/pdf?id=AAWuCvzaVt

半年多的時(shí)間,Alex Nichol 和Prafulla Dhariwal再度攜手,帶領(lǐng)團(tuán)隊(duì)于2021年12月20日發(fā)布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

論文地址:https://arxiv.org/pdf/2112.10741v1.pdf

以文本“薩爾瓦多·達(dá)勒(salvador dal??)的超現(xiàn)實(shí)主義夢(mèng)幻油畫(huà),畫(huà)的是一只貓?jiān)谔濉?/strong>為例,GLIDE模型生成如下具有陰影和反射的逼真圖像,并以正確的方式組合多個(gè)概念,產(chǎn)生新穎概念的藝術(shù)效果圖。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

文章一出即在推特上引起廣泛關(guān)注,收獲了無(wú)數(shù)業(yè)內(nèi)人士的鮮花和掌聲。

名為Kyle的網(wǎng)友表示,他覺(jué)得這項(xiàng)研究跨越了“漸進(jìn)式增長(zhǎng)GAN”到“StyleGAN”的界限。從滿是笨拙的機(jī)器學(xué)習(xí)人工偽造物,到現(xiàn)在突然變得與它模仿的真實(shí)物體幾乎無(wú)法分辨。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

連GLIDE的失敗案例都透著滿滿的優(yōu)秀感:它不會(huì)畫(huà)有 8 條腿的貓......

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

有網(wǎng)友提問(wèn):如果對(duì)它提出指令“沒(méi)人見(jiàn)過(guò)的東西”會(huì)生成什么?

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

Em......結(jié)果是沒(méi)見(jiàn)過(guò),但也不是完全沒(méi)見(jiàn)過(guò)。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E


1

生成能力超越DALL-E

實(shí)驗(yàn)證明,擴(kuò)散模型(Diffusion Models)可以生成高質(zhì)量的合成圖像,尤其在與引導(dǎo)技術(shù)結(jié)合使用時(shí),能夠在保真度上權(quán)衡多樣性。

作者們?yōu)槲谋緱l件下的圖像合成問(wèn)題的擴(kuò)散模型,對(duì)比了兩種不同的指導(dǎo)策略:CLIP guidance 和classifier-free guidance。而后發(fā)現(xiàn),在寫實(shí)度和主題相似度方面,后者更受人類評(píng)估參與者的青睞,并且經(jīng)常獲得逼真的樣本。

使用classifier-free guidance的35億參數(shù)文本條件擴(kuò)散模型的樣本收到的評(píng)價(jià)更高,令來(lái)自DALL-E的樣本完全“黯然失色”。GLIDE模型微調(diào)后還可以修復(fù)圖像,出色完成文本驅(qū)動(dòng)的圖像編輯任務(wù)。

已有的最新文本條件圖像模型已經(jīng)可以做到根據(jù)格式多樣的文本中合成圖像,甚至可以“理解”語(yǔ)義,按照合理的邏輯組合毫不相關(guān)的客體。但在捕捉相應(yīng)文本并生成逼真圖像方面,還略遜一籌。

毋庸置疑,擴(kuò)散模型是前景大為可觀的生成模型系列,在諸多圖像生成任務(wù)上達(dá)到了最先進(jìn)的樣本質(zhì)量基準(zhǔn)。

為了在類條件設(shè)置中實(shí)現(xiàn)真實(shí)感,作者們利用分類器指導(dǎo)增強(qiáng)擴(kuò)散模型,擴(kuò)散模型以分類器的標(biāo)簽作為條件。分類器首先在有噪聲的圖像上進(jìn)行訓(xùn)練,在擴(kuò)散采樣過(guò)程中,使用分類器提供的梯度引導(dǎo)樣本朝向標(biāo)簽。Salimans等人曾通過(guò)使用無(wú)分類器的指導(dǎo),未單獨(dú)訓(xùn)練的分類器中獲得了類似結(jié)果,這給研究者們帶來(lái)了靈感,在有標(biāo)簽擴(kuò)散模型和無(wú)標(biāo)簽擴(kuò)散模型的預(yù)測(cè)之間進(jìn)行插值。

受引導(dǎo)擴(kuò)散模型生成逼真樣本的能力以及文本到圖像模型處理自由形式提示的能力的啟發(fā),研究人員將引導(dǎo)擴(kuò)散應(yīng)用于文本條件圖像合成問(wèn)題。首先,作者們訓(xùn)練了一個(gè) 35 億參數(shù)擴(kuò)散模型,該模型使用文本編碼器以自然語(yǔ)言描述為條件。接下來(lái),他們比較了兩種將擴(kuò)散模型引導(dǎo)至文本提示的技術(shù):CLIP 引導(dǎo)和無(wú)分類器引導(dǎo)。使用人工和自動(dòng)評(píng)估,發(fā)現(xiàn)無(wú)分類器的指導(dǎo)產(chǎn)生更高質(zhì)量的圖像。

研究人員發(fā)現(xiàn)GLIDE模型中,無(wú)分類器指導(dǎo)生成的樣本栩栩如生,圖像還蘊(yùn)涵著廣泛的世界知識(shí)。由人類參與者評(píng)估后,普遍給出評(píng)價(jià):GLIDE“創(chuàng)造”的效果優(yōu)于 DALL-E

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E


2

擴(kuò)散模型的潛力

在論文《Diffusion Models Beat GANs on Image Synthesis》中,研究人員通過(guò)一系列的消融實(shí)驗(yàn),以找到更好的擴(kuò)散模型架構(gòu),實(shí)現(xiàn)無(wú)條件的圖像合成。對(duì)于條件圖像合成,則使用分類器指導(dǎo)(利用分類器的梯度以來(lái)權(quán)衡樣本質(zhì)量-多樣性)進(jìn)一步提高了樣本質(zhì)量。

論文的作者們分別在ImageNet 128×128上達(dá)到2.97的FID,在ImageNet 256×256上達(dá)到4.59的FID,在ImageNet512×512上達(dá)到7.72的FID,并且即使每個(gè)樣本只有25次正向傳遞,其生成圖像質(zhì)量依然可以匹配BigGAN-deep,同時(shí)保持了更好的分布覆蓋率(多樣性)。

最后,作者團(tuán)隊(duì)發(fā)現(xiàn)分類器指導(dǎo)與上采樣擴(kuò)散模型可以很好地結(jié)合在一起,從而將ImageNet512×512上的FID進(jìn)一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 論文中提出了BigGAN,當(dāng)時(shí)一經(jīng)發(fā)表就引起了大量關(guān)注, 很多學(xué)者都不敢相信AI竟能生成如此高質(zhì)量的圖像,這些生成圖像的目標(biāo)和背景都相當(dāng)逼真,邊界也很自然。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

由BigGAN模型生成的512x512分辨率圖像

如今,Alex Nichol和Prafulla Dhariwal兩位學(xué)者提出的擴(kuò)散模型,終于可在圖像合成上匹敵BigGAN。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

從最佳ImageNet512×512模型(FID3.85)中選擇的樣本

擴(kuò)散模型是一類基于似然度的模型,最近被證明可用于生成高質(zhì)量圖像,同時(shí)保留理想的屬性,如更高的分布覆蓋率、穩(wěn)定的訓(xùn)練目標(biāo)和更好的可擴(kuò)展性。這些模型通過(guò)逐步去除信號(hào)中的噪聲來(lái)生成樣本,其訓(xùn)練目標(biāo)可以表示為一個(gè)重新加權(quán)的變分下界。

Nichol和Dhariwal發(fā)現(xiàn),隨著計(jì)算量的增加,這些模型不斷改進(jìn),即使在高難度ImageNet256×256數(shù)據(jù)集上也能生成高質(zhì)量的樣本。

再來(lái)看看GLIDE的生成效果。下圖是GLIDE基于不同的文本提示生成的16個(gè)圖像集,例如“使用計(jì)算器的刺猬”、“戴著紅色領(lǐng)帶和紫色帽子的柯基”等等,如圖所示,生成的圖像基本符合文本描述。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

美中不足的是,這項(xiàng)研究發(fā)布的較小模型的準(zhǔn)確性不如全尺寸模型那么完美。下圖是由“刺猬”文本提示生成的16個(gè)樣本。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

除了圖文轉(zhuǎn)換,該論文還包括一個(gè)交互式系統(tǒng)的原型,用于逐步細(xì)化圖像的選定部分。這些圖像中的一切都是自動(dòng)生成的,從整個(gè)房間開(kāi)始,對(duì)綠色區(qū)域進(jìn)行迭代細(xì)化。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

在下圖中,研究人員將他們的模型與之前最先進(jìn)的基于MS-COCO字幕的文本條件圖像生成模型進(jìn)行了比較,發(fā)現(xiàn)其模型在無(wú)需CLIP 重新排序或挑選的情況下生成了更逼真的圖像。對(duì)于XMC-GAN,從用于文本到圖像生成的跨模態(tài)對(duì)比學(xué)習(xí)采集了樣本。對(duì)于DALL-E,在溫度0.85下生成樣本,并使用CLIP重新排序從256個(gè)樣本中選擇最好的。對(duì)于GLIDE,使用2.0刻度的CLIP引導(dǎo)和3.0刻度的無(wú)分類器引導(dǎo)。作者沒(méi)有為GLIDE執(zhí)行任何CLIP重新排序或挑選。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

研究人員使用人類評(píng)估協(xié)議將GLIDE與DALL-E進(jìn)行比較(如下表所示)。請(qǐng)注意,GLIDE使用的訓(xùn)練計(jì)算與DALL-E大致相同,但模型要小得多(35億對(duì)120億參數(shù))。此外,它只需要更少的采樣延遲,并且沒(méi)有CLIP 重新排序。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

研究人員在DALL-E和GLIDE之間執(zhí)行三組比較。首先,當(dāng)不使用CLIP重新排序時(shí),比較兩種模型。其次,只對(duì)DALL-E使用CLIP重新排序。最后,對(duì)DALL-E使用CLIP重新排序,并通過(guò)DALL-E使用的離散VAE投影GLIDE樣本。后者允許研究者評(píng)估DALLE模糊樣本如何影響人類的判斷。他們使用DALL-E模型的兩個(gè)溫度來(lái)進(jìn)行所有的評(píng)估,其模型在所有設(shè)置中都受到人類評(píng)估人員的青睞,即使在非常支持DALL-E的配置中,也允許它使用大量的測(cè)試時(shí)間計(jì)算(通過(guò)CLIP重新排序)同時(shí)降低GLIDE樣本質(zhì)量(通過(guò)VAE模糊)。


推薦閱讀

GAIR 2021大會(huì)首日:18位Fellow的40年AI歲月,一場(chǎng)技術(shù)前沿的傳承與激辯

2021-12-10

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

致敬傳奇:中國(guó)并行處理四十年,他們從無(wú)人區(qū)探索走到計(jì)算的黃金時(shí)代 | GAIR 2021

2021-12-09

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

時(shí)間的力量——1991 人工智能大辯論 30 周年紀(jì)念:主義不再,共融互生|GAIR 2021

2021-12-12

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

未來(lái)已來(lái),元宇宙比你想象中來(lái)得更早丨GAIR 2021

2021-12-12

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

打破GANs“壟斷”|OpenAI新研究:Diffusion Models 圖文轉(zhuǎn)換效果超越DALL-E

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄