0
本文作者: 我在思考中 | 2021-12-23 09:37 |
以前,當我們想擁有一副圖像時,首先會做的就是找專業(yè)畫師,將我們對圖畫的要求逐一描述,畫師再根據(jù)需求醉墨淋漓一番。但這種方式需要耗費一定的時間和人力成本,且成果不一定盡如人意。
如今,基于自然語言生成逼真圖像的工具使我們能夠以一種全新的方式輕松創(chuàng)建大量的高質量圖像。使用自然語言編輯圖像的能力進一步允許迭代細化和細粒度控制,這兩者對于現(xiàn)實世界的應用程序都至關重要。
目前,GANs(對抗生成網(wǎng)絡)在大多數(shù)圖像生成任務上擁有最先進的技術,這些技術是通過樣本質量來衡量的,例如FID,Inception Score 和 Precision等指標。
然而,其中一些指標不能完全捕獲生成圖像的多樣性,且與最先進的基于似然度的模型相比,GANs捕獲的多樣性較少。此外,如果沒有精心選擇的超參數(shù)和正則化器,GANs在訓練中經(jīng)常翻車。
針對這些問題,OpenAI的兩位研究人員Prafulla Dhariwal和Alex Nichol便著眼于其他體系架構。2021年5月,這兩名學者發(fā)表了名為《Diffusion Models Beat GANs on Image Synthesis》的論文,證明了擴散模型在圖像合成上優(yōu)于目前最先進的生成模型的圖像質量。
論文地址:https://openreview.net/pdf?id=AAWuCvzaVt
半年多的時間,Alex Nichol 和Prafulla Dhariwal再度攜手,帶領團隊于2021年12月20日發(fā)布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。
論文地址:https://arxiv.org/pdf/2112.10741v1.pdf
以文本“薩爾瓦多·達勒(salvador dal??)的超現(xiàn)實主義夢幻油畫,畫的是一只貓在跳棋”為例,GLIDE模型生成如下具有陰影和反射的逼真圖像,并以正確的方式組合多個概念,產(chǎn)生新穎概念的藝術效果圖。
文章一出即在推特上引起廣泛關注,收獲了無數(shù)業(yè)內(nèi)人士的鮮花和掌聲。
名為Kyle的網(wǎng)友表示,他覺得這項研究跨越了“漸進式增長GAN”到“StyleGAN”的界限。從滿是笨拙的機器學習人工偽造物,到現(xiàn)在突然變得與它模仿的真實物體幾乎無法分辨。
連GLIDE的失敗案例都透著滿滿的優(yōu)秀感:它不會畫有 8 條腿的貓......
有網(wǎng)友提問:如果對它提出指令“沒人見過的東西”會生成什么?
Em......結果是沒見過,但也不是完全沒見過。
實驗證明,擴散模型(Diffusion Models)可以生成高質量的合成圖像,尤其在與引導技術結合使用時,能夠在保真度上權衡多樣性。
作者們?yōu)槲谋緱l件下的圖像合成問題的擴散模型,對比了兩種不同的指導策略:CLIP guidance 和classifier-free guidance。而后發(fā)現(xiàn),在寫實度和主題相似度方面,后者更受人類評估參與者的青睞,并且經(jīng)常獲得逼真的樣本。
使用classifier-free guidance的35億參數(shù)文本條件擴散模型的樣本收到的評價更高,令來自DALL-E的樣本完全“黯然失色”。GLIDE模型微調(diào)后還可以修復圖像,出色完成文本驅動的圖像編輯任務。
已有的最新文本條件圖像模型已經(jīng)可以做到根據(jù)格式多樣的文本中合成圖像,甚至可以“理解”語義,按照合理的邏輯組合毫不相關的客體。但在捕捉相應文本并生成逼真圖像方面,還略遜一籌。
毋庸置疑,擴散模型是前景大為可觀的生成模型系列,在諸多圖像生成任務上達到了最先進的樣本質量基準。
為了在類條件設置中實現(xiàn)真實感,作者們利用分類器指導增強擴散模型,擴散模型以分類器的標簽作為條件。分類器首先在有噪聲的圖像上進行訓練,在擴散采樣過程中,使用分類器提供的梯度引導樣本朝向標簽。Salimans等人曾通過使用無分類器的指導,未單獨訓練的分類器中獲得了類似結果,這給研究者們帶來了靈感,在有標簽擴散模型和無標簽擴散模型的預測之間進行插值。
受引導擴散模型生成逼真樣本的能力以及文本到圖像模型處理自由形式提示的能力的啟發(fā),研究人員將引導擴散應用于文本條件圖像合成問題。首先,作者們訓練了一個 35 億參數(shù)擴散模型,該模型使用文本編碼器以自然語言描述為條件。接下來,他們比較了兩種將擴散模型引導至文本提示的技術:CLIP 引導和無分類器引導。使用人工和自動評估,發(fā)現(xiàn)無分類器的指導產(chǎn)生更高質量的圖像。
研究人員發(fā)現(xiàn)GLIDE模型中,無分類器指導生成的樣本栩栩如生,圖像還蘊涵著廣泛的世界知識。由人類參與者評估后,普遍給出評價:GLIDE“創(chuàng)造”的效果優(yōu)于 DALL-E。
在論文《Diffusion Models Beat GANs on Image Synthesis》中,研究人員通過一系列的消融實驗,以找到更好的擴散模型架構,實現(xiàn)無條件的圖像合成。對于條件圖像合成,則使用分類器指導(利用分類器的梯度以來權衡樣本質量-多樣性)進一步提高了樣本質量。
論文的作者們分別在ImageNet 128×128上達到2.97的FID,在ImageNet 256×256上達到4.59的FID,在ImageNet512×512上達到7.72的FID,并且即使每個樣本只有25次正向傳遞,其生成圖像質量依然可以匹配BigGAN-deep,同時保持了更好的分布覆蓋率(多樣性)。
最后,作者團隊發(fā)現(xiàn)分類器指導與上采樣擴散模型可以很好地結合在一起,從而將ImageNet512×512上的FID進一步降低到3.85。
DeepMind曾于2018年在一篇 ICLR 2019 論文中提出了BigGAN,當時一經(jīng)發(fā)表就引起了大量關注, 很多學者都不敢相信AI竟能生成如此高質量的圖像,這些生成圖像的目標和背景都相當逼真,邊界也很自然。
由BigGAN模型生成的512x512分辨率圖像
如今,Alex Nichol和Prafulla Dhariwal兩位學者提出的擴散模型,終于可在圖像合成上匹敵BigGAN。
從最佳ImageNet512×512模型(FID3.85)中選擇的樣本
擴散模型是一類基于似然度的模型,最近被證明可用于生成高質量圖像,同時保留理想的屬性,如更高的分布覆蓋率、穩(wěn)定的訓練目標和更好的可擴展性。這些模型通過逐步去除信號中的噪聲來生成樣本,其訓練目標可以表示為一個重新加權的變分下界。
Nichol和Dhariwal發(fā)現(xiàn),隨著計算量的增加,這些模型不斷改進,即使在高難度ImageNet256×256數(shù)據(jù)集上也能生成高質量的樣本。
再來看看GLIDE的生成效果。下圖是GLIDE基于不同的文本提示生成的16個圖像集,例如“使用計算器的刺猬”、“戴著紅色領帶和紫色帽子的柯基”等等,如圖所示,生成的圖像基本符合文本描述。
美中不足的是,這項研究發(fā)布的較小模型的準確性不如全尺寸模型那么完美。下圖是由“刺猬”文本提示生成的16個樣本。
除了圖文轉換,該論文還包括一個交互式系統(tǒng)的原型,用于逐步細化圖像的選定部分。這些圖像中的一切都是自動生成的,從整個房間開始,對綠色區(qū)域進行迭代細化。
在下圖中,研究人員將他們的模型與之前最先進的基于MS-COCO字幕的文本條件圖像生成模型進行了比較,發(fā)現(xiàn)其模型在無需CLIP 重新排序或挑選的情況下生成了更逼真的圖像。對于XMC-GAN,從用于文本到圖像生成的跨模態(tài)對比學習采集了樣本。對于DALL-E,在溫度0.85下生成樣本,并使用CLIP重新排序從256個樣本中選擇最好的。對于GLIDE,使用2.0刻度的CLIP引導和3.0刻度的無分類器引導。作者沒有為GLIDE執(zhí)行任何CLIP重新排序或挑選。
研究人員使用人類評估協(xié)議將GLIDE與DALL-E進行比較(如下表所示)。請注意,GLIDE使用的訓練計算與DALL-E大致相同,但模型要小得多(35億對120億參數(shù))。此外,它只需要更少的采樣延遲,并且沒有CLIP 重新排序。
研究人員在DALL-E和GLIDE之間執(zhí)行三組比較。首先,當不使用CLIP重新排序時,比較兩種模型。其次,只對DALL-E使用CLIP重新排序。最后,對DALL-E使用CLIP重新排序,并通過DALL-E使用的離散VAE投影GLIDE樣本。后者允許研究者評估DALLE模糊樣本如何影響人類的判斷。他們使用DALL-E模型的兩個溫度來進行所有的評估,其模型在所有設置中都受到人類評估人員的青睞,即使在非常支持DALL-E的配置中,也允許它使用大量的測試時間計算(通過CLIP重新排序)同時降低GLIDE樣本質量(通過VAE模糊)。
2021-12-10
2021-12-09
2021-12-12
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。