超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

本文作者：賴文昕

2024-06-20 14:40

導語：導語：視覺基礎(chǔ)模型與文生視頻成為 CVPR 2024 兩大熱點。

作者：賴文昕馬蕊蕾

編輯：陳彩嫻

北京時間今天凌晨，美國西雅圖正在召開的計算機視覺盛會 CVPR 2024 正式公布了最佳論文等獎項。今年共有 2 篇論文獲得了這份全球最重要的計算機視覺領(lǐng)域的大獎，團隊成員分別來自谷歌研究院、加州大學圣地亞哥分校、南加州大學、劍橋大學及布蘭迪斯大學。

本周（6.17-6.21），第四十一屆國際計算機視覺與模式識別會議（CVPR）在美國西雅圖拉開帷幕。根據(jù)CVPR官方的最新公告，CVPR 2024已經(jīng)成為該會議歷史上規(guī)模最大、參與人數(shù)最多的一屆，截止6月19日，現(xiàn)場參會人數(shù)已超過一萬兩千人。

作為計算機視覺乃至人工智能領(lǐng)域最具學術(shù)影響力的三大頂會之一，第一屆 CVPR 會議要追溯到1983年美國華盛頓，自此每一年都會吸引全球的計算機研究者和行業(yè)領(lǐng)袖匯聚一堂，共同探討計算機視覺領(lǐng)域最新的科學進展和產(chǎn)業(yè)成果。

作為領(lǐng)先的計算機視覺盛會，會議每年都會錄用當前視覺領(lǐng)域的最新研究。早在2月27日，CVPR 官網(wǎng)就公布了今年的論文接收結(jié)果：CVPR 2024 共有 35691 位注冊作者，11532 篇提交論文，其中 2719 篇被接收，錄用率為 23.6%。

與之相比，CVPR 2023 共有 9155 篇論文被提交，2359 篇論文被接收，錄用率為 25.8%。今年的論文數(shù)量提高了20.6%，創(chuàng)下新高，而錄用率降低了 2.2%。另外，hightlights 和 Oral 兩種類型的論文展示分別有 324 篇（占2.81%）和 90 篇（占0.78%）論文獲選，由此可見，本屆會議的熱度、競爭難度與入選獲獎的含金量都有所上升。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

CVPR 2024 頒獎環(huán)節(jié)

入圍 CVPR 2024 決賽圈的最佳論文有24篇，相比去年多了12篇。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

AI 科技評論梳理了候選論文的基本情況：

從地理位置上來看，位列前三的國家依次為美國、中國和德國；從研究領(lǐng)域來看，主要聚焦在視覺與圖形、單視圖 3D 重建以及圖像與視頻合成等；從產(chǎn)業(yè)界來看，有三家機構(gòu)入選，分別是 NAVER Cloud AI、Google Research 以及 NVIDIA；從學術(shù)界來看，高校依舊是研究的主要推動力，其中，國內(nèi)入選的高校有北京大學、上海交通大學、中山大學和深圳大學。

最佳論文

本屆 CVPR 總共評選出 2 篇最佳論文。

第一篇最佳論文屬于谷歌研究院團隊的《Generative Image Dynamics 》。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

論文鏈接：https://arxiv.org/pdf/2309.07906

代碼地址：http://generative-dynamics.github.io/

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski

論文介紹：本文通過從真實視頻中提取自然振蕩動態(tài)的運動軌跡來學習圖像空間中的場景運動先驗。該方法利用傅里葉域?qū)﹂L期運動進行建模，通過單圖像預(yù)測頻譜體積，進而生成整個視頻的運動紋理，可應(yīng)用于將靜態(tài)圖像轉(zhuǎn)化為循環(huán)視頻，或通過圖像空間模態(tài)基實現(xiàn)用戶與真實圖像中對象的交互，模擬其動態(tài)。

第二篇最佳論文頒給了由加州大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學及布蘭迪斯大學 5 所機構(gòu)共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation 》。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

論文鏈接：https://arxiv.org/pdf/2312.10240

代碼地址：https://github.com/google-research/google-research/tree/master/richhf_18k

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

論文介紹：許多生成的圖像仍然存在諸如不真實性、與文本描述不一致以及審美質(zhì)量低等問題。本文通過選擇高質(zhì)量的訓練數(shù)據(jù)進行微調(diào)來改進生成模型，或者通過創(chuàng)建帶有預(yù)測熱圖的掩模來修復(fù)問題區(qū)域。值得注意的是，這些改進可以推廣到用于收集人類反饋數(shù)據(jù)的圖像之外的模型（Muse）。

最佳學生論文

今年的最佳學生論文同樣有 2 篇工作獲選。

第一篇頒發(fā)給了來自德國圖賓根大學、圖賓根 AI 中心、上?？萍即髮W及布拉格捷克技術(shù)大學共同發(fā)表的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。值得注意的是，該篇論文的三位華人作者都是上?？萍即髮W在讀或畢業(yè)的碩士、博士生。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

論文鏈接：https://arxiv.org/pdf/2311.16493

代碼地址：https://github.com/autonomousvision/mip-splatting

作者：Zehao Yu , Anpei Chen, Binbin Huang , Torsten Sattler , Andreas Geiger

論文介紹：3D高斯點染技術(shù)在新視角合成方面取得了高保真度和效率的成果，但在改變采樣率時會出現(xiàn)偽影。為解決該問題，本文引入了基于最大采樣頻率的 3D 平滑濾波器，限制了高斯基元的大小，消除了放大時的高頻偽影。同時，用 2D Mip 濾波器替代 2D 膨脹，模擬 2D 盒濾波器，減輕了混疊和膨脹問題。評估結(jié)果顯示，在單尺度訓練和多尺度測試下，該方法有效。

第二篇最佳學生論文頒發(fā)給了來自美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

論文鏈接：https://arxiv.org/abs/2311.18803

代碼地址：https://imageomics.github.io/bioclip/

作者：Samuel Stevens, Jiaman (Lisa) Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee (Luke) Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su

論文介紹：自然界圖像的豐富性為生物信息學提供了寶貴數(shù)據(jù)源。盡管針對特定任務(wù)的計算方法和工具不斷涌現(xiàn)，但它們通常不易適應(yīng)新問題或擴展到不同背景和數(shù)據(jù)集。為應(yīng)對這一挑戰(zhàn)，本文創(chuàng)建了 TreeOfLife-10M 數(shù)據(jù)集，這是迄今為止最大和最多樣化的生物圖像數(shù)據(jù)集。BioCLIP 模型基于生命樹構(gòu)建，利用 TreeOfLife-10M 的多樣化生物圖像和結(jié)構(gòu)化知識，展現(xiàn)出在細粒度生物分類任務(wù)中的卓越性能，顯著超越現(xiàn)有基線方法，其內(nèi)在評估揭示了 BioCLIP 的強泛化能力。

其他獎項

本屆黃煦濤紀念獎由 Andrea Vedaldi 獲得。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

Andrea Vedaldi 是牛津大學計算機視覺和機器學習教授，也是 VGG（視覺幾何）組的成員。他的研究重點在于開發(fā)計算機視覺和機器學習方法，以自動理解圖像和視頻內(nèi)容。此外，他還在 2012 年至 2023 年期間擔任 Facebook AI Research（FAIR）的研究科學家，并在2023年成為 Meta AI 的研究科學家。

圖像視頻生成占領(lǐng)C位

從近期喬治亞理工學院計算機學院（College of Computing, Georgia Institute of Technology）對 CVPR 2024 錄用數(shù)據(jù)的統(tǒng)計分析來看，論文主要涵蓋36個主題領(lǐng)域，排名前十的主題分別是：圖像和視頻合成與生成，三維視覺，人體行為識別，視覺、語言與語言推理，底層視覺，識別（分類、檢測、檢索），遷移學習與多模態(tài)學習。

其中，除了自動駕駛與三維視覺這兩位熱點?？屯猓衲昱旁谑孜坏年P(guān)鍵詞是圖像和視頻合成與生成（Image and video synthesis and generation），總計有 329 篇論文，成為了今年 CVPR 最火的研究主題。

熱門主題從去年的擴散模型（Diffusion models）轉(zhuǎn)變?yōu)榻衲甑膱D像和視頻合成與生成，也同 Sora 在春節(jié)打響的開門炮遙相呼應(yīng)。

在被 CVPR 接收的圖像和視頻合成與生成相關(guān)論文中，有不少過去幾個月令人驚艷的新科研成果或產(chǎn)品，比如谷歌 DeepMind 和研究院發(fā)布的 Instruct-Imagen。

Instruct-Imagen 是一個能夠處理異構(gòu)圖像生成任務(wù)并在未見過的任務(wù)上泛化的模型。有趣的是，谷歌團隊引入了多模態(tài)指令生成圖像的任務(wù)表示，以精確地表達一系列生成意圖，并使用自然語言將不同的模態(tài)（例如文本、邊緣、風格、主題等）融合起來，使得豐富的生成意圖可以在統(tǒng)一的格式中標準化。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

華東理工大學提出的 DisenDiff 注意校準機制也被選為 Oral 文章，他們的工作旨在解決現(xiàn)有的文本到圖像（T2I）模型在個性化定制時無法保持視覺一致性和概念交叉影響的問題。

該方法通過引入與類別綁定的學習型修飾符來捕捉多個概念的屬性，并在交叉注意力操作激活后分離和加強類別，以確保概念的全面性和獨立性。此外，通過抑制不同類別的注意力激活來減少概念間的相互影響。

實驗結(jié)果表明，DisenDiff 在定性和定量評估中均優(yōu)于現(xiàn)有技術(shù)，并能與 LoRA 和修復(fù)管道兼容，提供更豐富的交互體驗。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

擴散模型在當下可以說主導了圖像生成這個領(lǐng)域，也對于大數(shù)據(jù)集展現(xiàn)出了強大的縮放性，由 NVIDIA 和 Aalto University 的研究人員撰寫的《Analyzing and Improving the Training Dynamics of Diffusion Models》，關(guān)注點在于改進擴散模型的訓練動態(tài)。

該篇研究者在不改變 high-level 架構(gòu)的前提下，識別和糾正了流行的 ADM 擴散模型中的幾個訓練方面不均勻的原因。把 ImageNet 512×512 圖像生成任務(wù)的 FID 由原來的 2.41 降低到了 1.81，這是一個衡量生成圖像質(zhì)量的重要指標，將生成質(zhì)量和模型復(fù)雜度變得可視化。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

研究者還提出了一種在訓練完成后設(shè)置EMA參數(shù)的方法，允許在不增加多次訓練成本的情況下精確調(diào)整EMA長度，并揭示了其與網(wǎng)絡(luò)架構(gòu)、訓練時間和引導的驚人交互作用。

這些突破性的研究，預(yù)示著人工智能在圖像生成領(lǐng)域，正在以前所未有的速度重塑藝術(shù)創(chuàng)作和視覺上內(nèi)容生產(chǎn)的邊界。

值得一提的是，今年恰好是生成對抗網(wǎng)絡(luò)（GANs）誕生的十周年。2014年，Ian Goodfellow 等人提出了深度學習領(lǐng)域的此項里程碑技術(shù)，不僅開辟了生成式模型的新領(lǐng)域，而且對無監(jiān)督學習產(chǎn)生了深遠影響。

視覺基礎(chǔ)模型點燃現(xiàn)場

基于 Transformer，以及受到語言大模型的啟發(fā)，計算機視覺領(lǐng)域在 2023 年以來對視覺基礎(chǔ)模型（VFM）的研究熱情高漲。

視覺基礎(chǔ)模型 (VFM)，一般在特定的領(lǐng)域，像圖像分類、目標檢測和圖像生成等眾多下游任務(wù)中表現(xiàn)突出。例如，多模態(tài) CLIP 模型擅長零樣本視覺語言理解，自監(jiān)督學習模型DINOv2 擅長語義分割，自監(jiān)督學習方法SAM 擅長開放詞匯實例分割。

CVPR 2024 共有 123 個 workshop 與 24 場 tutorial，在這個年度盛會的現(xiàn)場，AI 科技評論觀察到：盡管視覺基礎(chǔ)模型的相關(guān)工作在被接收論文數(shù)量中的占比不大，但超過 10 場研討會以視覺基礎(chǔ)模型為主題，開展了學習和應(yīng)用視覺基礎(chǔ)模型最前沿方法的討論。

比如 6 月 17 日舉行的第二屆基礎(chǔ)模型研討會上，與會者分享了視覺基礎(chǔ)模型和大語言模型的理論洞察、高效架構(gòu)設(shè)計以及卷積和圖混合網(wǎng)絡(luò)設(shè)計的研究，并探討了在圖像和視頻生成、不同監(jiān)督學習設(shè)置、多模態(tài)模型等，還討論了如何將基礎(chǔ)模型的前沿研究成果應(yīng)用于醫(yī)療、地球科學、遙感、生物、農(nóng)業(yè)和氣候科學等多個領(lǐng)域，以彌合研究與實際應(yīng)用之間的差距。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

在「視覺基礎(chǔ)模型最新進展」的分享會中，嘉賓們討論了用于多模態(tài)理解和生成的視覺基礎(chǔ)模型，基準測試和評估視覺基礎(chǔ)模型，以及基于視覺基礎(chǔ)模型的智能體和其他高級系統(tǒng)。

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

分享嘉賓：Tiktok-Chunyuan Li

自 2020 年引入視覺 Transformers（ViT）以來，計算機視覺界見證了基于 Transformer 的計算機視覺模型的爆炸性增長，其應(yīng)用范圍從圖像分類到密集預(yù)測（如目標檢測、分割）、視頻、自監(jiān)督學習、3D和多模態(tài)學習。

因此，CVPR 2024 中的第三屆視覺 Transformer 研討會將會議重點放在了為視覺任務(wù)設(shè)計 Transformer 模型的機遇和其開放性挑戰(zhàn)之中。

機器遺忘（Machine Unlearning，也稱遺忘學習）對基礎(chǔ)模型的重要性同樣不言而喻，專注于從預(yù)訓練模型中剔除那些不再需要的數(shù)據(jù)，如個人隱私信息或違反法規(guī)的數(shù)據(jù)，并確保模型繼續(xù)發(fā)揮其應(yīng)有的功能而不受影響，因此 CVPR 2024 中也有研討會集中討論視覺基礎(chǔ)模型中機器遺忘的運用。

而 3D 基礎(chǔ)模型的發(fā)展正成為自然語言處理和 2D 視覺之后的又一場技術(shù)革命，預(yù)示著在 3D 內(nèi)容創(chuàng)作、AR/VR、機器人技術(shù)和自動駕駛等領(lǐng)域的廣泛應(yīng)用前景。CVPR 2024 的研討會還邀請了 3D 視覺領(lǐng)域的專家，共同探討 3D 基礎(chǔ)模型的構(gòu)建，包括數(shù)據(jù)集的選擇、模型應(yīng)針對的3D任務(wù)、架構(gòu)共識以及潛在應(yīng)用。

此外，基礎(chǔ)模型還被視為構(gòu)建更通用自主系統(tǒng)的新路徑，因其能夠從大量數(shù)據(jù)中學習并泛化到新任務(wù)。CVPR 2024 中有研討會關(guān)注自主系統(tǒng)，探究基礎(chǔ)模型對自主代理的潛力，與會者們認為未來在于可解釋的、端到端的模型，這些模型能夠理解世界并泛化到未訪問的環(huán)境中。

CVPR 2024 的現(xiàn)場中還有研討會探討了對抗性機器學習的最新進展和挑戰(zhàn)，重點關(guān)注基礎(chǔ)模型的魯棒性，該 workshop 還組織了一場針對基礎(chǔ)模型的對抗性攻擊挑戰(zhàn)。

有的研討會則聚焦于醫(yī)學成像領(lǐng)域基礎(chǔ)模型的集成和應(yīng)用，討論涵蓋了各種醫(yī)學數(shù)據(jù)的最新技術(shù)，如超聲心動圖、眼底、病理學和放射學，以及在臨床環(huán)境中使用基礎(chǔ)模型的實際挑戰(zhàn)。

寫在最后

兩天前，Runway 時隔一年推出 Gen-3 Alpha，宣布視頻生成賽道王者歸來。在 CVPR 2024 的現(xiàn)場，AI 科技評論也聽到了關(guān)于 GPT-5 或于 3 個月后發(fā)布的消息，業(yè)內(nèi)對其推理能力與多模態(tài)能力更是報以期待。

那么，計算機視覺還有哪些熱點會是未來趨勢？圖像、視頻生成與視覺基礎(chǔ)模型的下一步發(fā)展在哪里？3D 視覺、自動駕駛等往屆「花旦」又有何新動態(tài)？機器人與具身智能有無新亮點？

讓我們一起期待，CVPR 2024 的精彩仍在繼續(xù)。

本文雷峰網(wǎng)(公眾號：雷峰網(wǎng))作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢，歡迎添加交流，互通有無。雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

賴文昕

資深編輯

關(guān)注具身智能。

發(fā)私信

當月熱門文章

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文

超 1.2 萬人參加 CVPR 2024，谷歌研究院獲得最佳論文