0
最近,Stability.Ai 公開發(fā)布了其文本生成圖像模型 Stable Diffusion 的最新版本,網(wǎng)友們的新一波圖像創(chuàng)作熱潮又開始了~
前特斯拉 AI 總監(jiān) Andrej Karpathy 評論說:這是人類創(chuàng)造力具有歷史意義的一天,如此豐富的人類視覺創(chuàng)造力集中體現(xiàn)到了一個人人可觸及的產(chǎn)品中。
從生成圖像的效果來看,Stable Diffusion 已經(jīng)是當前最好的模型之一,而它背后的擴散模型(Diffusion Model)最近也備受關注,顯示出要取代 GAN 模型的勢頭。
其實,自從 2015 年擴散模型首次被提出以來,該領域本身已經(jīng)有非常多的研究,研究人員也提出不少變體。而日前,來自馬里蘭大學和紐約大學的團隊提出了近來最新的一種擴散模型:Cold Diffusion。
目前業(yè)界出現(xiàn)的擴散模型變體層出不窮,但它們都有一個不變的核心:都是圍繞隨機噪聲去除這個概念建立的。
擴散模型的本質(zhì),以及目前我們對擴散模型的理解,都與高斯噪聲在訓練和生成過程中所起的作用高度相關。我們可以將「擴散」理解為使用 Langevin 動力學圍繞圖像密度函數(shù)的隨機移動,擴散的每一步都需要高斯噪聲。擴散始于「高溫」狀態(tài)(即噪音很大的狀態(tài)),然后逐漸降溫到幾乎沒有噪音的「冷」狀態(tài)。
而在這篇叫做“Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”的最新論文中,作者提出了一個疑問:制作擴散模型的變體,是不是非得使用高斯噪聲不可?
論文地址:https://arxiv.org/pdf/2208.09392.pdf
通過多次嘗試,該研究團隊得出了答案:并不一定需要。
在這篇論文中,作者不再將擴散模型局限于「依賴高斯噪聲而建立」,而是提出了圍繞模糊(blurring)、下采樣(downsampling)等任意圖像變換方式建立的廣義擴散模型。由于不再有原先的「高溫」狀態(tài),這種全新廣義擴散模型也就被稱作為 Cold Diffusion。
過去標準的擴散模型有兩步工作流程:首先,用圖像退化算子(image degradation operator)使得圖像受到高斯噪聲的污染,其次用一個訓練好的恢復算子(restoration operator)對圖像進行去噪,逆轉(zhuǎn)退化,從而得到一張新圖像。
圖注:傳統(tǒng)擴散模型的兩步工作流程
Cold Diffusion 繼承了這兩步工作流程,但又對之進行了升華式的修改。如下圖所示,在圖像退化再到逆轉(zhuǎn)退化的過程中,Cold Diffusion 研究團隊嘗試了使用噪聲、模糊、變形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等變換方式,且都得到了不錯的效果。
圖注:Cold Diffusion 使用不同圖像變換方式得到新圖像的工作流程
對于已知圖像 x0,設圖像退化算子為D,執(zhí)行算子的次數(shù)為t。
對以往標準的擴散模型來說,其執(zhí)行圖像變換的前向過程,是由圖像退化算子 D 來對圖像添加高斯噪聲。添加0次時,D 應滿足:
添加t次時,則應有:
而在 Cold Diffusion 的模型設計中,D 可以用來執(zhí)行其他各種圖像變換方式,如模糊、變形、像素化、雪花等,其退化程度取決于t ——Cold Diffusion 的「升級」正體現(xiàn)在可以進行包括噪音在內(nèi)的多種圖像變換。
同時我們還需要一個能把xt“變回”圖像的恢復算子 R ,應有:
在有了圖像退化算子 D 和 恢復算子 R 后,就可以借用擴散模型的標準方法對算子進行串聯(lián)使用,從而實現(xiàn)退化運算-逆轉(zhuǎn)退化的工作流程。如果退化運算的次數(shù) t 比較?。╰ ≈ 0),對 R 進行一次應用就可以得到一幅恢復后的新圖像。
由于R通常只經(jīng)過了一個簡單的凸損失訓練,當執(zhí)行退化運算的次數(shù) t 很大時,生成的結果會很模糊。對此,作者團隊提出一個改進的 Cold Diffusion 采樣算法來生成高質(zhì)量圖像。
變化無窮
這篇研究的重點就在于,作者觀察到,擴散模型的圖像生成并不完全依賴于高斯噪聲,我們也可以選擇其他圖像變換方式來生成新圖像。通過改變圖像變換方式,甚至可以構建出整個生成模型家族。
以模糊為退化運算方式
基于噪聲的擴散模型中的前向擴散過程(即退化運算這一步)的優(yōu)點是,在最后一步 T 處的退化圖像分布只是一個各向同性的高斯分布。因此,我們可以首先從各向同性高斯分布中抽取樣本,然后通過反向擴散順序?qū)ζ溥M行去噪來執(zhí)行(無條件)生成。而選擇模糊這種退化運算時,完全退化的圖像不能形成我們可以抽樣的良好封閉式分布,但是可以形成一個足夠簡單的分布,可以用簡單的方法進行建模。
對于次數(shù)足夠大的 T,每個圖像 x0 都會降級為一個常數(shù) xT(即每個像素都是相同的顏色)。該常數(shù)值恰好是 RGB 圖像 x0 的通道平均值,可以表示為三維向量,并使用高斯混合模型 (Gaussian mixture model, GMM) 表示。通過對該 GMM 進行采樣,可以產(chǎn)生高度模糊圖像的隨機像素值,然后使用 cold diffusion 就可以進行去模糊化,從而創(chuàng)建新圖像。
另外,像素之間的對稱性會導致生成的圖像缺乏多樣性,為了打破同一管道像素的對稱性,作者向每個采樣的 xT 添加少量高斯噪聲,這個簡單的技巧極大地提高了生成圖像的豐富性。
圖注:對128 × 128 CelebA and AFHQ 數(shù)據(jù)集使用 cold diffusion 的模糊方式變換生成樣本示例
以其他圖像變換為退化運算方式
最后團隊進一步證明,除了模糊方式以外,cold diffusion 還可以擴展到其他變換,如修復、超分辨率和變形(animorphosis)方式上,且生成的圖像效果也都很好:
圖注:cold diffusion 的生成圖像。第一行使用變形方式變換,第二行使用修復方式變換,第三行使用超分辨率變換方式。
研究團隊給出了 CelebA 數(shù)據(jù)集上的結果,cold diffusion 在修復、超分辨率和變形方面的 FID 得分分別為90.14、92.91和48.51。( FID,即 Rechet Inception Distance score,是用來計算真實圖像和生成圖像計算的特征向量之間距離的指標。)
在訓練和測試期間不需要高斯噪聲的 cold diffusion,突破了人們對擴散模型的原有理解,為新型生成模型打開了未來的大門。
這項研究因為提出了一種不同于傳統(tǒng)形式的擴散模型,而在近日登上了許多論文排行榜的熱門,同樣引起了熱議的,還有論文其中一位作者在推特上發(fā)起的討論:為什么擴散模型如此迅速地取代了 GAN?
馬里蘭大學副教授 Tom Goldstein 解釋,擴散模型的優(yōu)點是它可以最小化凸回歸損失,所以 OpenAI 在開發(fā) DALLE 時直接拋棄了 GAN,而使用擴散模型來解決不穩(wěn)定的鞍點問題(saddle point problem)。
而且,他認為,擴散模型的成功是新數(shù)學范式發(fā)揮其作用的一個例子,世界上所有的超參數(shù)調(diào)整都比不過幾行深思熟慮的數(shù)學公式。
要說今天的文本生成圖像領域已經(jīng)由擴散模型統(tǒng)治或許還不夠嚴謹,但 GAN 的一家獨大的確已經(jīng)成為歷史。歸根結底,誰的圖像生成質(zhì)量和穩(wěn)定性更好,誰才在越來越卷的生成模型界成為寵兒。這項工作提出的 Cold Diffusion,或許就會在不久之后為我們帶來一個新的、強大的文本生成圖像模型。
參考鏈接:
https://arxiv.org/pdf/2208.09392.pdf
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。