0
本文作者: 賴文昕 | 2024-03-07 15:13 |
作者:賴文昕
編輯:陳彩嫻
自3天前Sora發(fā)布以來,由圖靈獎得主、Meta首席科學(xué)家Yann LeCun提出的“世界模型”又一次引起了廣泛關(guān)注。
“世界模型”作為Sora的一大核心亮點,被OpenAI寫在技術(shù)報告中。但Sora是否真的如Open AI所說,是一個世界模型,卻引起了行業(yè)內(nèi)的爭論。
在Yann LeCun的愿景中,世界模型是一個能夠?qū)W習世界如何運作的內(nèi)在規(guī)律的內(nèi)部模型,可以更快速地學(xué)習,為完成復(fù)雜任務(wù)做出計劃,并且隨時應(yīng)對不熟悉的新情況,所以它很有可能克服目前限制最先進的AI系統(tǒng)發(fā)展的難關(guān)。
而在這場爭論持續(xù)之際, UC Berkeley(加州大學(xué)伯克利分校)發(fā)布了一項名為“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。
值得一提的是,兩位華人學(xué)者Hao Liu和Wilson Yan為共同一作,指導(dǎo)老師是吳恩達開門大弟子、伯克利人工智能實驗室主任Pieter Abbeel與計算機副教授Matei Zaharia。兩位教授的谷歌學(xué)術(shù)引用次數(shù)均十分耀眼,分別高達13.8萬次與7.4萬次。
論文鏈接:https://arxiv.org/pdf/2402.08268.pdf
為了應(yīng)對由于內(nèi)存限制、計算復(fù)雜性和數(shù)據(jù)集有等重大挑戰(zhàn),這個團隊構(gòu)建了一個由不同視頻和書籍組成的大型數(shù)據(jù)集,以Hao Liu先前提出的RingAttention技術(shù)為基礎(chǔ),對長序列進行可伸縮訓(xùn)練,并將上下文大小從4K逐漸增加到100萬tokens,一次可以分析1小時長度的視頻。
100萬token,1小時長視頻,它還開源
大模型的發(fā)展進程快得令人驚嘆,但是仍存在不少技術(shù)痛點。比如,目前的語言模型無法理解世界上某些難以用語言描述的問題,且難以處理復(fù)雜冗長的任務(wù)。
針對這個難題,該團隊提出了“Large World Model(LWM)”,因為視頻序列能提供語言和靜態(tài)圖像中沒有的、有價值的時間信息,這使得它們對于語言的聯(lián)合建模具有特別作用。這樣的模型可以更好地理解人類文本知識和物理世界,從而實現(xiàn)更廣泛的人工智能能力來幫助人類。
這個“大世界模型”是否確如其名呢?
在研究報告的開篇,團隊便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對比結(jié)果:將長達1小時的油管視頻輸入并根據(jù)視頻內(nèi)容細節(jié)提問后,只有LWM能提供準確的答復(fù)。
而除了能讀懂理解長視頻外,LWM在超長文本任務(wù)的表現(xiàn)同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實。 針對Gemini Pro 和 GPT-4各自的最大上下文長度(32K 和 128K)進行單針檢索比較時,LWM在各個指標上的表現(xiàn)均大幅領(lǐng)先。
團隊對LWM的研究成果作出了以下總結(jié):
該研究在長視頻和語言序列上訓(xùn)練了一個擁有極大上下文尺寸的 transformers 模型,從而設(shè)立了新的檢索任務(wù)和長視頻理解方面的標桿。
為了克服視覺 - 語言訓(xùn)練帶來的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長度的序列、損失加權(quán)以平衡語言和視覺、以及使用模型生成的問答數(shù)據(jù)來處理長序列對話。
通過 RingAttention、掩碼序列打包等方法,可以訓(xùn)練數(shù)百萬長度的多模態(tài)序列。
完全開源 7B 參數(shù)系列模型,其能夠處理超過 100 萬 token 的長文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。
分階段的漸進式訓(xùn)練,模型能力逐步升級
是什么訓(xùn)練方法讓LWM具備如此亮眼的能力呢?
LWM的訓(xùn)練步驟主要分為兩個階段:第一階段是學(xué)習長上下文語言模型(Learning Long-Context Language Models),第二階段是學(xué)習長上下文視覺-語言模型(Learning Long-Context Vision-Language Models)。
第一階段時,團隊將研究重點分為了上下文擴展、訓(xùn)練步驟、聊天微調(diào)和語言結(jié)果評估四個部分。
在上下文擴展中,他們使用RingAttention技術(shù),通過分塊計算和序列并行,理論上可以擴展到無限上下文,僅受限于可用設(shè)備數(shù)量。
RingAttention作為一個環(huán)形結(jié)構(gòu)來組織blocks,這樣每個block只需要與其相鄰的block進行通信、交換信息,此結(jié)構(gòu)能夠大大減少通信開銷。
分塊計算則是將長序列分割成多個較小的blocks,每個block包含固定數(shù)量的tokens。這樣,模型只需要計算每個block內(nèi)的注意力權(quán)重,而不是整個序列。
在訓(xùn)練過程中,序列并行的方法可以并行處理多個block,每個block由不同的GPU處理,使模型能在多個設(shè)備上同時處理序列的不同部分,從而提高了訓(xùn)練效率。
同時,由于RingAttention 支持漸進式訓(xùn)練,讓模型可以從處理較短的序列開始,然后逐步增加序列長度。于是團隊就采用了漸進式訓(xùn)練方法,從32K tokens開始,逐步增加到1M tokens,以有效擴展上下文大小。這意味著此方法有助于模型逐步學(xué)習處理更長序列的能力,同時保持訓(xùn)練效率。
到了訓(xùn)練步驟的部分,團隊會初始化模型參數(shù),然后逐步增加上下文長度,分為32K、128K、256K、512K和1M tokens共5個階段,且在每個階段,會使用不同版本的Books3數(shù)據(jù)集進行訓(xùn)練,這些數(shù)據(jù)集經(jīng)過過濾,以適應(yīng)當前的上下文長度。
針對聊天微調(diào),團隊構(gòu)建了模型生成的問答數(shù)據(jù)集,通過將文檔分割成固定大小的block,然后使用短上下文語言模型生成問題和答案對。而在長上下文長度(如32K tokens)下,則是通過連接相鄰的block和在序列末尾添加相關(guān)的問答對來構(gòu)建單個32K tokens的示例。
在第一階段的最后,團隊對于LWM的語言能力進行了單針檢索、多針檢索、多文本評估和聊天評估。
值得一提的是,此研究還對比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text(從 32K 到 1M)的語言能力。 評估涵蓋了各種語言任務(wù),證明擴大上下文大小不會影響短上下文任務(wù)的性能。結(jié)果表明,LWM在32K 到 1M長度下各任務(wù)中表現(xiàn)得同樣好,甚至更好。
這一證據(jù)表明上下文擴展不存在負面影響,突顯了模型適應(yīng)不同任務(wù)要求而不會在較短上下文中損失效率的能力。
在完成語言模型的訓(xùn)練后,團隊開啟了他們的第二階段——學(xué)習長上下文視覺-語言模型。在此階段中,團隊也將研究工作分為三個板塊,即視覺架構(gòu)修改、訓(xùn)練步驟和評估結(jié)果。
對于視覺架構(gòu)修改,他們使用了預(yù)訓(xùn)練的VQGAN將圖像和視頻幀轉(zhuǎn)換為離散tokens,并且引入新的tokens來區(qū)分文本生成的結(jié)束和視覺生成的開始,以及視頻幀的結(jié)束。
而在訓(xùn)練步驟中,團隊從LWM-Text-1M文本模型開始初始化,然后在大量結(jié)合文本-圖像和文本-視頻數(shù)據(jù)上進行漸進式訓(xùn)練。他們分別在1K、8K、32K、128K和1M tokens的序列長度上進行訓(xùn)練,同樣地,每個階段都是從先前的較短序列長度階段初始化。
在最終的評估結(jié)果上,團隊在長視頻理解、圖像理解和短視頻理解等任務(wù)上評估了LWM的模型性能并展示了其在處理長視頻和圖像生成方面的優(yōu)秀能力。
結(jié)語
Sora在2024年拉響了大模型比拼的第一槍,使得文生視頻技術(shù)躍為時下焦點,也讓“世界模型”變得似乎不再遙不可及。
在應(yīng)對長文本、視頻甚至是多模態(tài)技術(shù)時,世界模型對物理世界規(guī)律的理解與應(yīng)用,或?qū)⒊蔀楦骷掖竽P瓦x手能否在角逐中取勝的關(guān)鍵。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))AI 科技評論將持續(xù)關(guān)注大模型領(lǐng)域動態(tài),歡迎添加anna042023,交流認知,互通有無
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。