0
本文作者: 曉楠 | 2024-06-24 18:56 |
2024 年美國時(shí)間 6 月 17 日至 21 日,IEEE 國際計(jì)算機(jī)視覺與模式識別會議(CVPR)在美國西雅圖召開。
如大家預(yù)料,視覺 Foundation Model 成為今年 CVPR 除自動駕駛、3D 視覺等傳統(tǒng)研究課題以外的核心會議主題。
此外,由于會議召開前后,國內(nèi)快手「可靈」開放圖生視頻功能火爆出圈、Runway 時(shí)隔一年推出新模型 Gen-3 Alpha,文生視頻也成為 CVPR 2024 的一大熱詞。
今年, CVPR 的兩篇最佳論文都頒給了 AIGC。從論文接收數(shù)量的角度看,圖像和視頻合成與生成(Image and video synthesis and generation)以329 篇論文成功占據(jù)榜首。而文生視頻也屬于視覺 Foundation Model 的研究討論范疇。
事實(shí)上,F(xiàn)oundation Model 在人工智能領(lǐng)域的最早出圈就是在計(jì)算機(jī)視覺領(lǐng)域。
2021 年 8 月,斯坦福大學(xué)百位學(xué)者聯(lián)名發(fā)表 Foundation Model 綜述,作者隊(duì)列里就有多位計(jì)算機(jī)視覺領(lǐng)域的翹楚,如李飛飛、Percy Liang 等。但OpenAI 憑借一己之力,在自然語言處理領(lǐng)域的 Foundation Model 上率先彎道超車,通過堆參數(shù)量與拼算力,將語言大模型做到極致,語言基座模型的風(fēng)頭也在 2023 年一度蓋過了視覺基座模型。
然而,由于 Sora 與可靈等工作的炫麗效果,CV 領(lǐng)域內(nèi)關(guān)于視覺「Foundation Model」的話題又重回牌桌。
在 CVPR 2024 的大會現(xiàn)場,AI 科技評論走訪了多位從事過視覺基座模型的研究者,試圖求解在現(xiàn)階段領(lǐng)域內(nèi)的專家人士如何看待「Foundation Model」。
我們發(fā)現(xiàn):
1.視覺 Foundation Model 的研究思路也借鑒 OpenAI 的路線,將下一步重要突破放在如預(yù)測下一個(gè) visual token、擴(kuò)大算力規(guī)模等思路上;
2.不止一位研究者認(rèn)為,無論是語言還是視覺,F(xiàn)oundation Model 的概念崛起后,AI 已經(jīng)從一個(gè)開放的研究問題變成了一條實(shí)實(shí)在在的「工業(yè)生產(chǎn)線」,研究員的目標(biāo)只有兩個(gè)——「搞數(shù)據(jù)」與「搞算力」;
3.「多模態(tài)」成為視覺基礎(chǔ)模型研究的一門顯學(xué),但視覺與語言兩派的合作通道仍未有效建立。
除了 Foundation Model,我們也訪談了自動駕駛、3D 視覺領(lǐng)域的相關(guān)人士。我們也發(fā)現(xiàn),諸如 CVPR 等從論文接收截止到會議召開時(shí)間長度跨越半年的學(xué)術(shù)會議,或許已不再適用于跟蹤如今變化萬象、日新月異的研究成果。
當(dāng) AI 研究中工業(yè)界與產(chǎn)業(yè)界的隔閡越來越小、融合越來越多時(shí),哪怕是一個(gè)傳統(tǒng)的學(xué)術(shù)會議也要有跟上時(shí)代潮流的意識。
「Foundation Model」的瓶頸與突破
事實(shí)上,基于 Transformer 開發(fā)通用的視覺基礎(chǔ)模型并不是 2023 年 ChatGPT 火起來后才有的研究思路。
國外從微軟 Swin Tranformer 到谷歌 ViT,再到國內(nèi)上海人工智能實(shí)驗(yàn)室的「書生」(Intern)系列,都很早開始了通用視覺智能的探索。只不過與 BERT 被 GPT-3 碾壓的命運(yùn)一樣,它們都被后來出現(xiàn)的 Sora 光芒掩蓋;同時(shí),由于 Sora 的技術(shù)路徑獨(dú)辟蹊徑,也開始學(xué)習(xí) Sora、借鑒 Sora。
在今年的 CVPR 上,上海人工智能實(shí)驗(yàn)室的通用視覺團(tuán)隊(duì)(OpenGVLab)展示了他們最新的視覺多模態(tài)基礎(chǔ)模型研究成果 InternVL-1.5。該工作憑借強(qiáng)大的視覺編碼器 InternViT-6B、高動態(tài)分辨率,以及高質(zhì)量雙語數(shù)據(jù)集,在業(yè)內(nèi)廣受追捧。CMU、面壁智能等國內(nèi)外的多個(gè)開源對比數(shù)據(jù)也表示,InternVL 的效果名列前茅:
上海人工智能實(shí)驗(yàn)室OpenGVLab「書生」多模態(tài)大模型團(tuán)隊(duì)認(rèn)為,視覺基礎(chǔ)模型區(qū)別于以往工作的一個(gè)直接體現(xiàn)是多模態(tài)對話系統(tǒng)的構(gòu)建。
InternVL-26B 的研究始于 2023 年 3 月。此前,視覺基礎(chǔ)模型的相關(guān)研究代表工作是 OpenAI 在 2021 年發(fā)表的CLIP?!窩LIP 作為古早的視覺基礎(chǔ)模型,通過與 BERT 對齊,使 ViT 獲得一定程度的語言表征對齊能力,但參數(shù)量只有 300 M 左右,規(guī)模太小,且對齊的對象不是 LLM。(多模態(tài)對話系統(tǒng)的構(gòu)造)必須使用更多訓(xùn)練數(shù)據(jù)才能進(jìn)行表征對齊。」
這啟發(fā)了上海 AI Lab 團(tuán)隊(duì)開始研究 InternVL。他們的目標(biāo)是在保持基礎(chǔ)模型強(qiáng)大性和多功能性的前提下,將其作為對話系統(tǒng)的 backbone,既支持圖像檢測、分割,也能夠像 CLIP 支持多模態(tài)任務(wù),例如圖文檢索。最開始是研究了一個(gè) 6+7 的 13B 模型(即 InternVL-Chat-V1.2),但由于在對話系統(tǒng)的實(shí)際應(yīng)用中表現(xiàn)一般,又投入大量精力優(yōu)化對話功能,又得出了一個(gè) 26B 模型,即風(fēng)靡一時(shí)的 InternVL-Chat-V1.5。
從 InternVL-1.5 技術(shù)報(bào)告得知,視覺基礎(chǔ)模型研究的三個(gè)關(guān)鍵點(diǎn)是:
一,視覺模型必須接駁能力與之相媲美的語言模型。比如,他們一開始的 7B 語言模型無法充分發(fā)揮 6B 視覺模型的優(yōu)勢,但在他們將語言模型的規(guī)模擴(kuò)大到 20B 后,問題得到了大幅改善。InternVL-Chat-V1.5 采用的是書生·浦語的 20B 模型,使模型具備了強(qiáng)大的中文識別能力;二是要適配高分辨率;三是要采用高質(zhì)量數(shù)據(jù)集。
在今年的 CVPR 上,GPT-4o 團(tuán)隊(duì)作者首次公開分享了背后的技術(shù)路線:GPT-4o 的文字轉(zhuǎn)圖像采用了 DALL·E 路線,文字轉(zhuǎn)文字是 GPT,文字轉(zhuǎn)語音是 TTS。InternVL 研究員評價(jià),GPT-4o 注重不同模型間的跨模態(tài)轉(zhuǎn)化,但 InternVL 的路線是專注于同一個(gè)模型上不同模態(tài)的輸入與文本理解的輸出。OpenAI 路線并不是所有視覺Foundation Model 研究的權(quán)威路線。
目前領(lǐng)域內(nèi)有一種聲音認(rèn)為,視覺基礎(chǔ)模型應(yīng)具備更強(qiáng)的離散化特性,即各個(gè)模態(tài)(包括視覺、語音和3D輸入)都轉(zhuǎn)換為離散表示、而非高維向量,并將其存儲在同一框架下,解耦對外感知側(cè)模型和 LLM 大腦模型,如此一來,多模態(tài)更加統(tǒng)一,訓(xùn)練更加獨(dú)立,不用再關(guān)注視覺模型是否傳梯度。
對此,研究員認(rèn)為,「這是對原生多模態(tài)支持的一種嘗試,便于進(jìn)行端到端的訓(xùn)練和跨模態(tài)能力的支持。離散壓縮可能會損失一些細(xì)微但關(guān)鍵的信息,此技術(shù)路線還有很多關(guān)鍵問題有待探索?!?/p>
針對視覺基礎(chǔ)模型的瓶頸與突破方向,思謀科技研究員、香港中文大學(xué) DV Lab 實(shí)驗(yàn)室成員張?jiān)莱恳蔡岢隽讼嗨频目捶ā?/p>
他認(rèn)為,目前視覺基礎(chǔ)模型的難點(diǎn)主要在于大規(guī)模高質(zhì)量數(shù)據(jù)如何收集和助力大規(guī)模的訓(xùn)練。不僅如此,視覺基礎(chǔ)模型如何跳出模型輸出語言的限制,支持原生多模態(tài)(如GPT-4o)也是接下來值得思考與研究的問題。
據(jù)雷峰網(wǎng)了解,目前 DV Lab 自研的視覺基座 Mini-Gemini 在開源社區(qū)引起了廣泛的關(guān)注和反響,一度保持 SOTA 的位置,獲得了 3k+ 的 stars。在今年的 CVPR 上,賈佳亞 DV Lab 團(tuán)隊(duì)的 LISA 模型、Video-P2P 等工作也獲得了高度評價(jià)。
而南洋理工大學(xué)副教授張含望則認(rèn)為,在視覺基礎(chǔ)模型的研究中,大家經(jīng)常忽視“理解任務(wù)”和“生成”任務(wù)本質(zhì)是互斥的問題:前者是要讓大模型丟掉視覺信息,而后者是讓大模型盡可能保留視覺信息。然而,在語言大模型當(dāng)中,這種互斥現(xiàn)象確從來沒存在過。
張教授認(rèn)為,癥結(jié)就在于目前visual token 只是簡單地把視覺信號“分塊”,這種塊狀的空間序列和語言的“遞歸結(jié)構(gòu)”是有本質(zhì)區(qū)別?!溉绻话褕D片或是視頻變成遞歸序列 token 的話,是無法接入大語言模型的,而大語言模型是一個(gè)很重要的推理機(jī)器。但目前這一塊,從行業(yè)來看,還沒有特別好的研究成果出現(xiàn),未來值得加大投入研究力度?!?/p>
圖注:「理解」與「生成」的區(qū)別,來自南洋理工大學(xué)張含望教授的分享
此外,不止一位研究者認(rèn)為,無論是語言還是視覺,F(xiàn)oundation Model 的概念崛起后,AI 已經(jīng)從一個(gè)開放的研究問題變成了一條實(shí)實(shí)在在的「工業(yè)生產(chǎn)線」,研究員的目標(biāo)只有兩個(gè)——「搞數(shù)據(jù)」與「搞算力」。
接近 OpenAI 的知情人士也稱,一開始沖著OpenAI 的 AGI 光環(huán)加入的頂級高校博士畢業(yè)生在加入研究后,也發(fā)生自己在實(shí)際研究中也更多扮演著螺絲釘般的角色,比如花大量的時(shí)間處理數(shù)據(jù)。一句逐漸在 OpenAI 內(nèi)部成為經(jīng)典的 Slogan 是:
There is no magic。
自動駕駛、端側(cè) AI
自動駕駛在今年的 CVPR 上占據(jù)了非常重要的位置,將語言大模型落地到自動駕駛是特色。
其中,核心就在于如何把大模型放到自動駕駛的場景中,因?yàn)轳{駛需要理解環(huán)境、預(yù)測下一個(gè)時(shí)刻該如何前行,遇到邊緣場景(corner case)的時(shí)候能否確保安全性等,這些都是自動駕駛領(lǐng)域接下來要重點(diǎn)研究的方向。
今年自動駕駛的一個(gè)探索趨勢就是,大語言模型為自動駕駛端到端技術(shù)的算法和infra提供了新的思路和解決方案。以仿真平臺為例,之前的仿真平臺,多半是以計(jì)算機(jī)圖形學(xué)的能力去做固定引擎,從而生成仿真平臺,今年就有多家公司通過生成式AI的方式去做仿真平臺。
CVPR 2024 自動駕駛國際挑戰(zhàn)賽是業(yè)界和學(xué)界都關(guān)注的重要賽事。該比賽由上海人工智能實(shí)驗(yàn)室聯(lián)合清華大學(xué)、圖賓根大學(xué)、美團(tuán)等國內(nèi)外高校和科技企業(yè)共同舉辦,圍繞當(dāng)前自動駕駛領(lǐng)域的前沿技術(shù)、實(shí)踐落地場景難題等共設(shè)置了 7 大賽道,吸引了全球近 500 支隊(duì)伍參賽。
挑戰(zhàn)賽要求參賽者開發(fā)一個(gè)端到端的 AV 模型,使用 nuPlan 數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)傳感器數(shù)據(jù)生成行駛軌跡。據(jù) AI 科技評論了解,端到端自動駕駛是今年 7 大賽道中競爭最為激烈的賽道之一,冠軍來自于英偉達(dá)聯(lián)合復(fù)旦大學(xué)的自動駕駛算法參賽團(tuán)隊(duì),亞軍則是來自中國的零一汽車自動駕駛研發(fā)團(tuán)隊(duì)。
英偉達(dá)的研究人員告訴雷峰網(wǎng),L2++ 級別的端到端自動駕駛,其能力主要體現(xiàn)于兩大板塊,分別是 Planning 和 Percetion。
在自動駕駛領(lǐng)域中非常重要的多模態(tài)數(shù)據(jù)集 nuScenes,其中有 93% 的數(shù)據(jù)只是包含直行在內(nèi)的簡單駕駛場景,天然無法實(shí)現(xiàn)工業(yè)界產(chǎn)品級別的自動駕駛。這些場景多為自動跟車、自動泊車,以及靜態(tài)環(huán)境信息,如交通標(biāo)志、道路標(biāo)示線、交通燈位置等。
Perception 是自動駕駛系統(tǒng)中的感知部分,負(fù)責(zé)通過各種傳感器來感知周圍環(huán)境的能力。它相當(dāng)于自動駕駛車輛的“眼睛”,為系統(tǒng)提供關(guān)于道路、車輛、行人、障礙物等元素的信息。而 Planning 模塊相當(dāng)于自動駕駛系統(tǒng)中的“大腦”,負(fù)責(zé)決策和規(guī)劃車輛的行駛路徑。它接收來自上游模塊(如地圖、導(dǎo)航、感知、預(yù)測)的信息,并在當(dāng)前周期內(nèi)進(jìn)行思考并做出判斷。
英偉達(dá)團(tuán)隊(duì)告訴雷峰網(wǎng)(公眾號:雷峰網(wǎng)),他們所作出的創(chuàng)新在于,在邊緣場景的數(shù)據(jù)量不足夠的情況下,使用基于規(guī)則的專家(rule-based expert)作為教師,將規(guī)則知識蒸餾給神經(jīng)網(wǎng)絡(luò)規(guī)劃器?!拔覀冋J(rèn)為,即便在數(shù)據(jù)量足夠多的情況下,這一方法也將使得神經(jīng)網(wǎng)絡(luò)規(guī)劃器變得更具有解釋性?!?/p>
除了這些熱門話題,在 CVPR 現(xiàn)場,還有很多廠商帶來了亮眼的技術(shù)與產(chǎn)品,蘋果就是其中一家。
從去年開始,蘋果對大模型的投入力度肉眼可見地加大,尤其是生成式人工智能(GenAI)。雖然本身并不是一家 AI 能力特別強(qiáng)大的公司,但不懈的努力追趕后,蘋果已然成功從一個(gè)三流水平的 AI 玩家擠進(jìn)了二流水平戰(zhàn)隊(duì)。
今年 3 月,蘋果正式發(fā)布多模態(tài) LLM 系列模型,并在論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,通過構(gòu)建大模型 MM1,闡述了多模態(tài)大模型預(yù)訓(xùn)練的方法、分析和見解,引起大眾圍觀。
此次在 CVPR 大會上,論文的作者之一 Zhe Gan 現(xiàn)身大會論壇,系統(tǒng)介紹了蘋果在更好地進(jìn)行多模態(tài)大模型預(yù)訓(xùn)練所做的最新研究進(jìn)展。他表示,大規(guī)模且與任務(wù)相關(guān)的數(shù)據(jù)對于訓(xùn)練高性能模型非常重要,因此,著重分析了如何通過基于模型的過濾和更多樣化的數(shù)據(jù)源,來獲得高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)。
據(jù) Zhe Gan 介紹,在實(shí)驗(yàn)中,他們使用 45% 有字幕描述圖像、45% 交錯(cuò)圖像文本和 10% 的純文本數(shù)據(jù)混合,作為預(yù)訓(xùn)練的數(shù)據(jù)混合,并為了評估,在各種字幕和 VQA 數(shù)據(jù)集使用 zero-shot (0-shot)和 few-shot (4-shot 和 8-shot)。
實(shí)驗(yàn)結(jié)果表明,交錯(cuò)數(shù)據(jù)對于 few-shot 和純文本性能至關(guān)重要,而字幕數(shù)據(jù)提高了 zero-shot 性能;純文本數(shù)據(jù)有助于提高 few-shot 和純文本性能;精心混合圖像和文本數(shù)據(jù)可以實(shí)現(xiàn)最佳多模態(tài)性能,同時(shí)保持強(qiáng)大的文本理解能力;合成數(shù)據(jù)有助于 few-shot 學(xué)習(xí)。
另外,Zhe Gan 表示,對于當(dāng)前熱門的 MoE 架構(gòu)來說,可以在保持激活參數(shù)不變的情況下擴(kuò)大模型總參數(shù)量,他們正在研究如何為多模態(tài)大模型設(shè)計(jì)更好的 MoE 架構(gòu)。
寫在最后
今年的 CVPR 是一場別開生面的盛會。
很多參會人員都向雷峰網(wǎng)表示,相較于往年,今年 CVPR 的 AIGC 元素異常濃厚,新技術(shù)、新產(chǎn)品接連涌現(xiàn),讓人印象深刻。但也有一些學(xué)者認(rèn)為,還應(yīng)該有更多更新的技術(shù)出現(xiàn)。
香港中文大學(xué)深圳(CUHKSZ)助理教授韓曉光參加完此次 CVPR 之后,認(rèn)為 CVPR 的論文投稿時(shí)可以考慮設(shè)置兩條軌道,一個(gè)是工程軌道,以效果作為動機(jī)驅(qū)動點(diǎn),一個(gè)是研究軌道,專門以好奇心為驅(qū)動。兩條軌道都應(yīng)該需要有最佳論文獎(jiǎng)項(xiàng),Sora 是他心里工程軌道的最佳研究,而今年的「Generative Image Dynamics」則滿足了他對最佳研究論文的想象。
「一直思考 CV 的未來是什么景象,斗膽預(yù)測(或者是一種希望)未來將 from ‘virtual’ to ‘physical’,可能以各種不同的形式。」韓曉光說道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。