丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

本文作者: 賴文昕 2024-06-20 14:40
導語:導語:視覺基礎模型與文生視頻成為 CVPR 2024 兩大熱點。

作者:賴文昕 馬蕊蕾

編輯:陳彩嫻

北京時間今天凌晨,美國西雅圖正在召開的計算機視覺盛會 CVPR 2024 正式公布了最佳論文等獎項。今年共有 2 篇論文獲得了這份全球最重要的計算機視覺領域的大獎,團隊成員分別來自谷歌研究院、加州大學圣地亞哥分校、南加州大學、劍橋大學及布蘭迪斯大學。

本周(6.17-6.21),第四十一屆國際計算機視覺與模式識別會議(CVPR)在美國西雅圖拉開帷幕。根據(jù)CVPR官方的最新公告,CVPR 2024已經(jīng)成為該會議歷史上規(guī)模最大、參與人數(shù)最多的一屆,截止6月19日,現(xiàn)場參會人數(shù)已超過一萬兩千人。

作為計算機視覺乃至人工智能領域最具學術影響力的三大頂會之一,第一屆 CVPR 會議要追溯到1983年美國華盛頓,自此每一年都會吸引全球的計算機研究者和行業(yè)領袖匯聚一堂,共同探討計算機視覺領域最新的科學進展和產(chǎn)業(yè)成果。

作為領先的計算機視覺盛會,會議每年都會錄用當前視覺領域的最新研究。早在2月27日,CVPR 官網(wǎng)就公布了今年的論文接收結果:CVPR 2024 共有 35691 位注冊作者,11532 篇提交論文,其中 2719 篇被接收,錄用率為 23.6%。

與之相比,CVPR 2023 共有 9155 篇論文被提交,2359 篇論文被接收,錄用率為 25.8%。今年的論文數(shù)量提高了20.6%,創(chuàng)下新高,而錄用率降低了 2.2%。另外,hightlights 和 Oral 兩種類型的論文展示分別有 324 篇(占2.81%)和 90 篇(占0.78%)論文獲選,由此可見,本屆會議的熱度、競爭難度與入選獲獎的含金量都有所上升。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文


CVPR 2024 頒獎環(huán)節(jié)

入圍 CVPR 2024 決賽圈的最佳論文有24篇,相比去年多了12篇。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

AI 科技評論梳理了候選論文的基本情況:

從地理位置上來看,位列前三的國家依次為美國、中國和德國;從研究領域來看,主要聚焦在視覺與圖形、單視圖 3D 重建以及圖像與視頻合成等;從產(chǎn)業(yè)界來看,有三家機構入選,分別是 NAVER Cloud AI、Google Research 以及 NVIDIA;從學術界來看,高校依舊是研究的主要推動力,其中,國內(nèi)入選的高校有北京大學、上海交通大學、中山大學和深圳大學。


最佳論文

本屆 CVPR 總共評選出 2 篇最佳論文。

第一篇最佳論文屬于谷歌研究院團隊的《Generative Image Dynamics 》。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

論文鏈接:https://arxiv.org/pdf/2309.07906

代碼地址:http://generative-dynamics.github.io/

作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski

論文介紹:本文通過從真實視頻中提取自然振蕩動態(tài)的運動軌跡來學習圖像空間中的場景運動先驗。該方法利用傅里葉域?qū)﹂L期運動進行建模,通過單圖像預測頻譜體積,進而生成整個視頻的運動紋理,可應用于將靜態(tài)圖像轉化為循環(huán)視頻,或通過圖像空間模態(tài)基實現(xiàn)用戶與真實圖像中對象的交互,模擬其動態(tài)。

第二篇最佳論文頒給了由加州大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學及布蘭迪斯大學 5 所機構共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation 》。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

論文鏈接:https://arxiv.org/pdf/2312.10240

代碼地址:https://github.com/google-research/google-research/tree/master/richhf_18k

作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

論文介紹:許多生成的圖像仍然存在諸如不真實性、與文本描述不一致以及審美質(zhì)量低等問題。本文通過選擇高質(zhì)量的訓練數(shù)據(jù)進行微調(diào)來改進生成模型,或者通過創(chuàng)建帶有預測熱圖的掩模來修復問題區(qū)域。值得注意的是,這些改進可以推廣到用于收集人類反饋數(shù)據(jù)的圖像之外的模型(Muse)。

最佳學生論文

今年的最佳學生論文同樣有 2 篇工作獲選。

第一篇頒發(fā)給了來自德國圖賓根大學、圖賓根 AI 中心、上??萍即髮W及布拉格捷克技術大學共同發(fā)表的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。值得注意的是,該篇論文的三位華人作者都是上??萍即髮W在讀或畢業(yè)的碩士、博士生。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

論文鏈接:https://arxiv.org/pdf/2311.16493

代碼地址:https://github.com/autonomousvision/mip-splatting

作者:Zehao Yu , Anpei Chen, Binbin Huang , Torsten Sattler , Andreas Geiger

論文介紹:3D高斯點染技術在新視角合成方面取得了高保真度和效率的成果,但在改變采樣率時會出現(xiàn)偽影。為解決該問題,本文引入了基于最大采樣頻率的 3D 平滑濾波器,限制了高斯基元的大小,消除了放大時的高頻偽影。同時,用 2D Mip 濾波器替代 2D 膨脹,模擬 2D 盒濾波器,減輕了混疊和膨脹問題。評估結果顯示,在單尺度訓練和多尺度測試下,該方法有效。

第二篇最佳學生論文頒發(fā)給了來自美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

論文鏈接:https://arxiv.org/abs/2311.18803

代碼地址:https://imageomics.github.io/bioclip/

作者:Samuel Stevens, Jiaman (Lisa) Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee (Luke) Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su

論文介紹:自然界圖像的豐富性為生物信息學提供了寶貴數(shù)據(jù)源。盡管針對特定任務的計算方法和工具不斷涌現(xiàn),但它們通常不易適應新問題或擴展到不同背景和數(shù)據(jù)集。為應對這一挑戰(zhàn),本文創(chuàng)建了 TreeOfLife-10M 數(shù)據(jù)集,這是迄今為止最大和最多樣化的生物圖像數(shù)據(jù)集。BioCLIP 模型基于生命樹構建,利用 TreeOfLife-10M 的多樣化生物圖像和結構化知識,展現(xiàn)出在細粒度生物分類任務中的卓越性能,顯著超越現(xiàn)有基線方法,其內(nèi)在評估揭示了 BioCLIP 的強泛化能力。

其他獎項

本屆黃煦濤紀念獎由 Andrea Vedaldi 獲得。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

Andrea Vedaldi 是牛津大學計算機視覺和機器學習教授,也是 VGG(視覺幾何)組的成員。他的研究重點在于開發(fā)計算機視覺和機器學習方法,以自動理解圖像和視頻內(nèi)容。此外,他還在 2012 年至 2023 年期間擔任 Facebook AI Research(FAIR)的研究科學家,并在2023年成為 Meta AI 的研究科學家。


圖像視頻生成占領C位

從近期喬治亞理工學院計算機學院(College of Computing, Georgia Institute of Technology)對 CVPR 2024 錄用數(shù)據(jù)的統(tǒng)計分析來看,論文主要涵蓋36個主題領域,排名前十的主題分別是:圖像和視頻合成與生成,三維視覺,人體行為識別,視覺、語言與語言推理,底層視覺,識別(分類、檢測、檢索),遷移學習與多模態(tài)學習。

其中,除了自動駕駛與三維視覺這兩位熱點??屯?,今年排在首位的關鍵詞是圖像和視頻合成與生成(Image and video synthesis and generation),總計有 329 篇論文,成為了今年 CVPR 最火的研究主題。

熱門主題從去年的擴散模型(Diffusion models)轉變?yōu)榻衲甑膱D像和視頻合成與生成,也同 Sora 在春節(jié)打響的開門炮遙相呼應。

在被 CVPR 接收的圖像和視頻合成與生成相關論文中,有不少過去幾個月令人驚艷的新科研成果或產(chǎn)品,比如谷歌 DeepMind 和研究院發(fā)布的 Instruct-Imagen。

Instruct-Imagen 是一個能夠處理異構圖像生成任務并在未見過的任務上泛化的模型。有趣的是,谷歌團隊引入了多模態(tài)指令生成圖像的任務表示,以精確地表達一系列生成意圖,并使用自然語言將不同的模態(tài)(例如文本、邊緣、風格、主題等)融合起來,使得豐富的生成意圖可以在統(tǒng)一的格式中標準化。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

華東理工大學提出的 DisenDiff 注意校準機制也被選為 Oral 文章,他們的工作旨在解決現(xiàn)有的文本到圖像(T2I)模型在個性化定制時無法保持視覺一致性和概念交叉影響的問題。

該方法通過引入與類別綁定的學習型修飾符來捕捉多個概念的屬性,并在交叉注意力操作激活后分離和加強類別,以確保概念的全面性和獨立性。此外,通過抑制不同類別的注意力激活來減少概念間的相互影響。

實驗結果表明,DisenDiff 在定性和定量評估中均優(yōu)于現(xiàn)有技術,并能與 LoRA 和修復管道兼容,提供更豐富的交互體驗。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

擴散模型在當下可以說主導了圖像生成這個領域,也對于大數(shù)據(jù)集展現(xiàn)出了強大的縮放性,由 NVIDIA 和 Aalto University 的研究人員撰寫的《Analyzing and Improving the Training Dynamics of Diffusion Models》,關注點在于改進擴散模型的訓練動態(tài)。

該篇研究者在不改變 high-level 架構的前提下,識別和糾正了流行的 ADM 擴散模型中的幾個訓練方面不均勻的原因。把 ImageNet 512×512 圖像生成任務的 FID 由原來的 2.41 降低到了 1.81,這是一個衡量生成圖像質(zhì)量的重要指標,將生成質(zhì)量和模型復雜度變得可視化。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

研究者還提出了一種在訓練完成后設置EMA參數(shù)的方法,允許在不增加多次訓練成本的情況下精確調(diào)整EMA長度,并揭示了其與網(wǎng)絡架構、訓練時間和引導的驚人交互作用。

這些突破性的研究,預示著人工智能在圖像生成領域,正在以前所未有的速度重塑藝術創(chuàng)作和視覺上內(nèi)容生產(chǎn)的邊界。

值得一提的是,今年恰好是生成對抗網(wǎng)絡(GANs)誕生的十周年。2014年,Ian Goodfellow 等人提出了深度學習領域的此項里程碑技術,不僅開辟了生成式模型的新領域,而且對無監(jiān)督學習產(chǎn)生了深遠影響。


視覺基礎模型點燃現(xiàn)場

基于 Transformer,以及受到語言大模型的啟發(fā),計算機視覺領域在 2023 年以來對視覺基礎模型(VFM)的研究熱情高漲。

視覺基礎模型 (VFM),一般在特定的領域,像圖像分類、目標檢測和圖像生成等眾多下游任務中表現(xiàn)突出。例如,多模態(tài) CLIP 模型擅長零樣本視覺語言理解,自監(jiān)督學習模型DINOv2 擅長語義分割,自監(jiān)督學習方法SAM 擅長開放詞匯實例分割。

CVPR 2024 共有 123 個 workshop 與 24 場 tutorial,在這個年度盛會的現(xiàn)場,AI 科技評論觀察到:盡管視覺基礎模型的相關工作在被接收論文數(shù)量中的占比不大,但超過 10 場研討會以視覺基礎模型為主題,開展了學習和應用視覺基礎模型最前沿方法的討論。

比如 6 月 17 日舉行的第二屆基礎模型研討會上,與會者分享了視覺基礎模型和大語言模型的理論洞察、高效架構設計以及卷積和圖混合網(wǎng)絡設計的研究,并探討了在圖像和視頻生成、不同監(jiān)督學習設置、多模態(tài)模型等,還討論了如何將基礎模型的前沿研究成果應用于醫(yī)療、地球科學、遙感、生物、農(nóng)業(yè)和氣候科學等多個領域,以彌合研究與實際應用之間的差距。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

在「視覺基礎模型最新進展」的分享會中,嘉賓們討論了用于多模態(tài)理解和生成的視覺基礎模型,基準測試和評估視覺基礎模型,以及基于視覺基礎模型的智能體和其他高級系統(tǒng)。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

分享嘉賓:Tiktok-Chunyuan Li

自 2020 年引入視覺 Transformers(ViT)以來,計算機視覺界見證了基于 Transformer 的計算機視覺模型的爆炸性增長,其應用范圍從圖像分類到密集預測(如目標檢測、分割)、視頻、自監(jiān)督學習、3D和多模態(tài)學習。

因此,CVPR 2024 中的第三屆視覺 Transformer 研討會將會議重點放在了為視覺任務設計 Transformer 模型的機遇和其開放性挑戰(zhàn)之中。

機器遺忘(Machine Unlearning,也稱遺忘學習)對基礎模型的重要性同樣不言而喻,專注于從預訓練模型中剔除那些不再需要的數(shù)據(jù),如個人隱私信息或違反法規(guī)的數(shù)據(jù),并確保模型繼續(xù)發(fā)揮其應有的功能而不受影響,因此 CVPR 2024 中也有研討會集中討論視覺基礎模型中機器遺忘的運用。

而 3D 基礎模型的發(fā)展正成為自然語言處理和 2D 視覺之后的又一場技術革命,預示著在 3D 內(nèi)容創(chuàng)作、AR/VR、機器人技術和自動駕駛等領域的廣泛應用前景。CVPR 2024 的研討會還邀請了 3D 視覺領域的專家,共同探討 3D 基礎模型的構建,包括數(shù)據(jù)集的選擇、模型應針對的3D任務、架構共識以及潛在應用。

此外,基礎模型還被視為構建更通用自主系統(tǒng)的新路徑,因其能夠從大量數(shù)據(jù)中學習并泛化到新任務。CVPR 2024 中有研討會關注自主系統(tǒng),探究基礎模型對自主代理的潛力,與會者們認為未來在于可解釋的、端到端的模型,這些模型能夠理解世界并泛化到未訪問的環(huán)境中。

CVPR 2024 的現(xiàn)場中還有研討會探討了對抗性機器學習的最新進展和挑戰(zhàn),重點關注基礎模型的魯棒性,該 workshop 還組織了一場針對基礎模型的對抗性攻擊挑戰(zhàn)。

有的研討會則聚焦于醫(yī)學成像領域基礎模型的集成和應用,討論涵蓋了各種醫(yī)學數(shù)據(jù)的最新技術,如超聲心動圖、眼底、病理學和放射學,以及在臨床環(huán)境中使用基礎模型的實際挑戰(zhàn)。


寫在最后

兩天前,Runway 時隔一年推出 Gen-3 Alpha,宣布視頻生成賽道王者歸來。在 CVPR 2024 的現(xiàn)場,AI 科技評論也聽到了關于 GPT-5 或于 3 個月后發(fā)布的消息,業(yè)內(nèi)對其推理能力與多模態(tài)能力更是報以期待。

那么,計算機視覺還有哪些熱點會是未來趨勢?圖像、視頻生成與視覺基礎模型的下一步發(fā)展在哪里?3D 視覺、自動駕駛等往屆「花旦」又有何新動態(tài)?機器人與具身智能有無新亮點?

讓我們一起期待,CVPR 2024 的精彩仍在繼續(xù)。


本文雷峰網(wǎng)作者 anna042023 將持續(xù)關注AI大模型領域的人事、企業(yè)、商業(yè)應用以及行業(yè)發(fā)展趨勢,歡迎添加交流,互通有無。雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

超 1.2 萬人參加 CVPR 2024,谷歌研究院獲得最佳論文

分享:
相關文章

資深編輯

關注具身智能。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說