0
本文作者: 我在思考中 | 2022-11-09 14:35 | 專題:ICLR 2019 |
編輯 | 陳彩嫻
11 月 5 日,人工智能頂級會議 ICLR 2023 的評審結(jié)果正式發(fā)布。
除了討論提交論文的分?jǐn)?shù)、錄用可能性、如何 rebuttal 之外,Diffusion Model(擴(kuò)散模型)成了今年 ICLR 的熱門關(guān)鍵詞之一,以擴(kuò)散模型為研究主題的投稿論文數(shù)量出現(xiàn)暴漲,所涵蓋的具體方向也十分廣泛。
ICLR 2023 的論文提交截止日期是今年的 9 月 28 日,距離文本生成圖像模型 DALL·E 2 的問世不過 5 個(gè)月,Stable Diffusion 的發(fā)布也只是在 8 月份。擴(kuò)散模型這一波研究熱潮,實(shí)在是“擴(kuò)散”得飛快,AIGC 的興起正當(dāng)時(shí)。
ICLR 全稱是 International Conference on Learning Representations(國際學(xué)習(xí)表征會議),由深度學(xué)習(xí)三巨頭其中的兩位 Yoshua Bengio 和 Yann LeCun 牽頭創(chuàng)辦于2013年,在人工智能領(lǐng)域地位舉足輕重。ICLR 2023 將于 2023 年 5 月 1 日至 5 月 5 日在盧旺達(dá)基加利舉行。
本屆會議共計(jì)有 6300 份初始摘要投稿和 4922 份經(jīng)過評審的投稿,其中經(jīng)過評審的投稿比去年增加了 32.2%。在 4922 份投稿中,有 99%(4883)得到了至少 3 份評審,一共有超過 18500 份評審。
ICLR 的審稿分?jǐn)?shù)和意見全部在 OpenReview 平臺上公開,一些網(wǎng)友已經(jīng)爬取了平臺上本輪審稿的論文得分?jǐn)?shù)據(jù),做了相關(guān)排名統(tǒng)計(jì)。
論文評分方面,今年的論文平均得分為 4.95。最終的論文錄用結(jié)果尚未公布,參照上一年 32.3% 的錄用率,今年共有 1556 篇左右的論文有希望被錄用,最低均分線在 5.50 分。
圖注:ICLR 2023 論文評分分布
毫無疑問,擴(kuò)散模型在今年是一個(gè)大熱門,從 ICLR 2023 的論文投稿情況就能看出,這波研究熱潮已經(jīng)掀起。
從提交論文的主題來看,最熱門的方向與往年相差不大,強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、表征學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等仍舊是熱點(diǎn)。而其中尤其引人注目的,是排在第 14 名的 Diffusion model。
從下圖顯示的頻率排名變化幅度最大的前 10 個(gè)論文關(guān)鍵詞可以看到,去年的 Diffusion model 還排在第 173 名。
論文題目中的關(guān)鍵詞頻率也印證了擴(kuò)散模型的研究熱度有多高:
上圖是論文標(biāo)題關(guān)鍵詞頻率排名變化幅度最大的前 10 個(gè)關(guān)鍵詞,diffusion 位列第 2,從去年的第 132 名大幅暴增到第 25 名。
甚至有網(wǎng)友開玩笑,不如就把 ICLR 2023 的名字改為“Diffusion Conference 2023”吧......
據(jù)粗略統(tǒng)計(jì),ICLR 2023 的論文投稿中,有 100 多篇論文以擴(kuò)散模型為研究主題,在 233 篇得分為 7分(含)及以上的論文中,共有 13 篇涉及擴(kuò)散模型。
這些工作所涵蓋的具體方向也十分廣,如高效采樣、與其他生成模型結(jié)合、在CV/NLP領(lǐng)域的應(yīng)用、在多模態(tài)領(lǐng)域的應(yīng)用、與強(qiáng)化學(xué)習(xí)結(jié)合、分子圖建模、擴(kuò)散模型理論與理解、擴(kuò)散模型泛化與拓展、擴(kuò)散模型遷移、特殊結(jié)構(gòu)數(shù)據(jù)的建模、魯棒性與穩(wěn)定性、擴(kuò)散模型的隱私保護(hù),以及其他方向。
研究提出的生成模型涉及多個(gè)模態(tài),模型本身的名字也是五花八門,過去幾個(gè)月令人驚艷的許多生成模型都在其中,如:
來自谷歌的文本生成 3D 模型 DreamFusion(被稱為“3D 版 DALL·E”),論文還得到了 8.0 的高分,總排名第 13。
另外還有谷歌發(fā)布的檢索增強(qiáng)的文本生成圖像模型 Re-Imagen、文本生成視頻模型 Phenaki,Meta 的文本生成視頻模型 Make-A-Video等等。
擴(kuò)散模型所引發(fā)的這一波 AIGC 熱潮是席卷式的。擴(kuò)散模型第一次被提出是在 2015 年(DPM,Diffusion Probabilistic Models),直到2020年,UC 伯克利的Pieter Abbeel 等人提出去噪擴(kuò)散概率模型(Denoising Diffusion Probabilistic Model, DDPM),在圖像生成方面擊敗了 GAN,向世界展示了擴(kuò)散模型的威力。
論文地址:https://arxiv.org/pdf/2006.11239.pdf
而擴(kuò)散模型真正開始成為研究熱門,今年 4 月 OpenAI 發(fā)布的文本生成圖像模型 DALL·E 2 居功至偉,之后又有谷歌推出 Imagen,直接對標(biāo) DALL·E 2,文本生成圖像領(lǐng)域從此開始卷了起來。
今年 8 月,初創(chuàng)公司 Stability.AI 發(fā)布深度學(xué)習(xí)文生圖模型 Stable Diffusion,開源后更是一石激起千層浪,后續(xù)基于擴(kuò)散模型的文本生成圖像模型可以說是越來越卷,并很快擴(kuò)展到文本生成視頻、文本生成 3D、文本生成音頻等等。
如今,擴(kuò)散模型已經(jīng)當(dāng)之無愧成為深度生成模型中新的 SOTA,其所引發(fā)的 AIGC 熱潮已經(jīng)勢不可擋。
所以,想要進(jìn)入 AIGC 這一賽道的可以早點(diǎn)行動(dòng)了。
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。