0
Scaling Law 或?qū)⒔K結(jié)——這是最近備受熱議的話題之一。該討論最初源自于哈佛大學(xué)一篇名為《Scaling Laws for Precision》的論文,其研究表明當(dāng)下的語言模型在大量數(shù)據(jù)上經(jīng)歷了過度訓(xùn)練,繼續(xù)疊加更多的預(yù)訓(xùn)練數(shù)據(jù)可能會產(chǎn)生副作用。
這釋放的信號是:在自然語言處理領(lǐng)域, Scaling Law 目光所及地到達(dá)瓶頸,單純依靠增加模型規(guī)模和數(shù)據(jù)量來提升性能的方法也許不再有效,低精度的訓(xùn)練和推理正在使模型性能提升的邊際效益遞減。
Scaling Law 在 NLP 的路上確實展現(xiàn)出了「即將到頭」的前兆,但這并不意味著其末日真的來臨。在多模態(tài)模型領(lǐng)域,由于多模態(tài)數(shù)據(jù)包含圖像、視頻、音頻等多種類型,在信息豐富度、處理方法、應(yīng)用領(lǐng)域方面均較為復(fù)雜,難以達(dá)到較大的訓(xùn)練規(guī)模體量,因此 Scaling Law 尚沒有被真真切切地驗證過。
然而,清華系大模型公司生數(shù)科技最新發(fā)布的 Vidu1.5 表明,多模態(tài)領(lǐng)域的 Scaling Law 才剛剛起步。通過持續(xù)的 Scaling Up , Vidu 1.5 已經(jīng)來到了「奇點」時刻,涌現(xiàn)出了「上下文能力」,能夠理解記憶所輸入的多主體信息,并表現(xiàn)出對復(fù)雜主體更精準(zhǔn)的控制能力。無論是細(xì)節(jié)豐富的角色還是復(fù)雜的物體,通過上傳不同角度下的三張圖片,Vidu 1.5 能保證單主體形象的高度一致。
Vidu 1.5 除了能對單個主體進(jìn)行精確控制,也實現(xiàn)了多主體之間的一致性。用戶可以上傳包含人物角色、道具物體、環(huán)境背景等多種元素的圖像,Vidu能夠?qū)⑦@些元素?zé)o縫的融合到一起,并實現(xiàn)自然交互。
Vidu 在主體一致性方面取得種種突破,不僅是 Scaling Law 法則在發(fā)揮作用,根本原因在于其所采用的無微調(diào)、大一統(tǒng)的技術(shù)架構(gòu)方案。當(dāng)前的視頻模型為了實現(xiàn)一致性,大多是采用在預(yù)訓(xùn)練的基礎(chǔ)上再針對單個任務(wù)進(jìn)行微調(diào)的 LoRA 方案,而 Vidu 的底層模型跳出業(yè)界主流方案,做出了開拓性的改變。
無獨有偶,回顧大語言模型的發(fā)展歷程,會發(fā)現(xiàn)從 GPT-2 到 GPT-3.5 發(fā)生質(zhì)變的標(biāo)志,也是實現(xiàn)了從預(yù)訓(xùn)練+特定任務(wù)微調(diào)的方式到整體統(tǒng)一框架的突破??梢哉f,Vidu 1.5的推出,開啟了多模態(tài)大模型的 GPT-3.5 時刻。
Sora 自年初發(fā)布之后,再無其他迭代的新版本,其他家的視頻生成創(chuàng)業(yè)團(tuán)隊也仿佛沒了錨定的方向,大多是在 DiT 架構(gòu)上進(jìn)行些衍生性工作。對于這一現(xiàn)象,生數(shù)科技 CTO 鮑凡則表示:我們不會在 Sora 劃定好的路線上去追趕,而是從一開始就在走自己的路,瞄準(zhǔn)通用多模態(tài)大模型的目標(biāo),去實現(xiàn)相應(yīng)的能力。
從早于 Sora 發(fā)布全球首個基于 Diffusion 的 Transformer 架構(gòu)U-ViT,到首次實現(xiàn)用統(tǒng)一的架構(gòu)處理泛化任務(wù),生數(shù)有的不僅是先發(fā)優(yōu)勢,更是持續(xù)突破的能力。Vidu 和業(yè)界其他的視頻生成模型相比,已經(jīng)初步形成技術(shù)代差。
一、重新設(shè)計一個「底層架構(gòu)」
實現(xiàn)主體一致性,是視頻模型領(lǐng)域一塊難啃的骨頭。「這就好比,你知道發(fā)動機(jī)對于一輛汽車來講很重要,也知道如果發(fā)動機(jī)有質(zhì)的改變,那么汽車的性能也會隨之提升,但就是很難造出來一臺好的發(fā)動機(jī)?!辊U凡告訴 AI 科技評論。
包括 Sora 在內(nèi),國內(nèi)外的視頻模型都沒有在主體一致性方面有所突破。目前有涉足的是國內(nèi)的一家大廠,僅局限于實現(xiàn)人臉一致性的控制,難以保證細(xì)節(jié)、衣服、造型等細(xì)節(jié),而且采用的是LoRA微調(diào)方案。
Vidu 在主體一致性方面的成果也并非一蹴而就。2024 年 7 月底, Vidu 上線之初就主打解決一致性問題,并能夠較好地實現(xiàn)面部一致的控制;9月份全球首發(fā)「主體參照」功能,把對單主體的控制從面部拓展到整個單主體的形象上;11 月上線的 Vidu 1.5 則進(jìn)一步提升,可以對單主體的不同視角進(jìn)行高度精準(zhǔn)控制,同時攻破多主體控制的難題。
也就是說,Vidu 在 7 月份上線之時就完成了很多視頻生成模型當(dāng)下正在攻克的事情。
從技術(shù)方案上看,其他家都還囿于預(yù)訓(xùn)練+LoRA 微調(diào)的方案,這種路線雖然成熟但也存在諸多缺點,諸如因數(shù)據(jù)構(gòu)造繁瑣而需要較長的訓(xùn)練時間、易產(chǎn)生過擬合從而遺忘大量原有知識、無法捕捉細(xì)節(jié)導(dǎo)致特征不精準(zhǔn)。生數(shù)則秉承通用性的理念,通過統(tǒng)一的底層模型技術(shù)架構(gòu)去完成,因此不需要單獨再去進(jìn)行數(shù)據(jù)的收集、標(biāo)注、微調(diào),只需要1到3張圖就能輸出高質(zhì)量視頻。
對比大語言模型的技術(shù)演進(jìn)路線會發(fā)現(xiàn),Vidu 有和大語言模型一致的設(shè)計哲學(xué):類似于大語言模型用一個 Transformer 去處理所有的輸入和輸出 tokens,Vidu 作為視頻模型也會將所有問題都統(tǒng)一成視覺輸入、視覺輸出的 patches;在此基礎(chǔ)上,再統(tǒng)一架構(gòu),Vidu 也像 大語言模型一樣采用單個網(wǎng)絡(luò)統(tǒng)一建模變長的輸入和輸出。
「統(tǒng)一問題形式」是通用模型的起點。更難的地方在于統(tǒng)一架構(gòu),現(xiàn)在 Vidu 已經(jīng)在最初的 U-ViT 上做了一些顛覆性的設(shè)計,和 Sora 的 DiT 架構(gòu)產(chǎn)生了本質(zhì)區(qū)別,在架構(gòu)上做到更統(tǒng)一。鮑凡坦言,開發(fā)這一架構(gòu)的難度不亞于從頭設(shè)計出一個 Transformer。
大一統(tǒng)架構(gòu)的前身要追溯到 2022 年 9 月,彼時尚在清華大學(xué)朱軍教授的課題組讀博的鮑凡就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文,提出U-ViT 架構(gòu),比 Sora 的 DiT 架構(gòu)提早了兩個月,將 DiT 拒稿的 CVPR2023 卻收錄了 U-ViT。
2023年3月,朱軍教授課題組再次發(fā)布了一項 Unidiffuser 的工作,Unidiffuser 與同階段的 Stable Difussion 1.5 效果基本持平,展示了在視覺任務(wù)下的優(yōu)異能力,更重要是,Unidifuser擴(kuò)展性更強(qiáng),能基于一個底層模型完成圖文之間的任意生成。簡單來講,除了單向的文生圖,還能實現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。之后,而 OpenAI 則是將 DiT 應(yīng)用于視頻任務(wù),生數(shù)作為初創(chuàng)團(tuán)隊則是先將 U-ViT 應(yīng)用于圖像任務(wù),從算力集群規(guī)模要求更小的任務(wù)入手進(jìn)行驗證。
2024 年 4 月,生數(shù)的底層模型架構(gòu)開始在 U-ViT 架構(gòu)上做出改變,使得團(tuán)隊率先推出自研視頻大模型Vidu,然后這種突破也一直持續(xù)著,在7月份正式全球上線的時候,Vidu 在人臉一致性問題上成功地實現(xiàn)了驗證。直到本次 Vidu1.5 版本的發(fā)布,基于這一架構(gòu)之上的 Scaling Up 讓多模態(tài)模型看到了「奇點」。
回顧大語言模型發(fā)展過程,GPT-2 的核心思想是在預(yù)訓(xùn)練階段讓模型通過海量的文本數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),不依賴于特定的任務(wù);在預(yù)訓(xùn)練之后,GPT-2 使用特定領(lǐng)域的標(biāo)注數(shù)據(jù)對模型進(jìn)行細(xì)化調(diào)整,使其能夠更好地適應(yīng)特定任務(wù)或應(yīng)用場景。但到 GPT-3.5 的階段,不再采用預(yù)訓(xùn)練加特定任務(wù)微調(diào)的模式,只需一個更簡單高效的統(tǒng)一架構(gòu)能夠去支持多種文本任務(wù),模型已經(jīng)出現(xiàn)了強(qiáng)大的泛化能力。
類似于從 GPT-2 到 GPT-3.5 ,實現(xiàn)了從預(yù)訓(xùn)練加特定任務(wù)微調(diào)到統(tǒng)一通用的技術(shù)架構(gòu),Vidu 1.5的推出,讓視頻模型正在經(jīng)歷 GPT-3.5 時刻。也就是說,其他家的視頻模型還在 GPT-2 預(yù)訓(xùn)練+微調(diào)的階段,生數(shù)的 Vidu 已經(jīng)到了 GPT-3.5 的階段。
二、視覺上下文時代的智能涌現(xiàn)
統(tǒng)一高效的底層技術(shù)架構(gòu)是 Vidu 的根本所在,但其目前呈現(xiàn)的綜合表現(xiàn)不僅是技術(shù)架構(gòu)使然,更與視頻模型的數(shù)據(jù)工程密不可分。
在人物特寫畫面中,Vidu 1.5 能夠確保人物面部的特征細(xì)節(jié)和動態(tài)表情變化自然流暢,不會出現(xiàn)面部僵硬或失真的現(xiàn)象。該視頻中,小女孩的表情能實現(xiàn)從高興到悲傷的變化十分自然。鮑凡告訴 AI 科技評論,數(shù)據(jù)對這些細(xì)節(jié)方面的精心調(diào)控非常重要。
隨著高質(zhì)量數(shù)據(jù)的一同Scaling Up ,鮑凡坦言,在底層的視頻生成模型上也看到了類似于大語言模型的智能涌現(xiàn)。比如 Vidu1.5 能融合不同主體,將角色 A 的正面與角色 B 的反面無縫融合以創(chuàng)造出全新的角色,這是之前沒有預(yù)料到的能力。
除此之外, Vidu1.5 的智能涌現(xiàn)還可以從模型上下文能力提升、記憶能力增強(qiáng)來窺探一二,這體現(xiàn)在對視頻中角色、道具、場景的統(tǒng)一控制。
這一現(xiàn)象的關(guān)鍵是解決了「多圖靈活輸入」的問題,類似于語言模型提升了窗口長度。在與聊天機(jī)器人對話的過程中,先通過提示詞給出一個角色設(shè)定,之后 Chatbot 就能以這個角色的口吻進(jìn)行交互對話,這說明語言模型不僅僅處理單一的文本輸入信息,而是通過關(guān)聯(lián)前后的文本、識別語句之間的關(guān)系,生成連貫且符合情境的回答或內(nèi)容。
同樣的,給視頻模型一個主體照片作為 prompt,那么在下文中無論繼續(xù)給出什么新指令,都能生出上文照片中主體相關(guān)的視頻。可見,視頻模型要想更穩(wěn)定地生成一致主體,也需要理解前后輸入的、相關(guān)聯(lián)的文字或圖片信息,進(jìn)而根據(jù)這些信息生成一致、連貫且有邏輯的內(nèi)容。
實際上,從單主體一致性到多主體一致性提升的難度也在于上下文長度。在幾個月之前的單主體架構(gòu)的設(shè)計上,就已經(jīng)兼容現(xiàn)在的多主體一致的架構(gòu),而多主體一致相比單主體一致需要更長的上下文長度,從而解決理解更多輸入組合的關(guān)鍵問題。
接下來,生數(shù)的主攻方向依然會沿著上下文能力這一主線去迭代?!敢曨l模型上下文能力提升后有很大的想象空間。」鮑凡說道。他進(jìn)一步解釋,在模型中輸入幾段王家衛(wèi)的電影切片,就可以生成一系列具有王家衛(wèi)攝影技巧的視頻片段;喂給模型一些經(jīng)典打斗動作的視頻,就能生出打斗技巧精妙、打戲畫面精良的視頻。
Vidu 在上下文能力方面的迭代也有自己的節(jié)奏:從初期僅能參考單一主體的面部特征,到現(xiàn)在能參考多個主體,之后預(yù)期可以實現(xiàn)參考拍攝技巧、運(yùn)鏡、調(diào)度更因素。在這個過程中,參考對象從具體到抽象,要求和難度逐漸提升。
因為目前還沒有針對視頻模型上下文能力的開源解決方案,所以它并不會像大語言模型一樣,在一家做好 PMF 之后,其他家迅速跟上。從這一角度上來說,Vidu1.5 形成了自己的技術(shù)壁壘。
三、不止 Sora 一種答案
「無微調(diào)、大一統(tǒng)的技術(shù)架構(gòu)被生數(shù)設(shè)計出來,視頻模型的智能涌現(xiàn)先在 Vidu 上得以驗證——這些是必然事件?!辊U凡說道?!敢驗槲覀儓F(tuán)隊成立之初的愿景,就是去做通用的多模態(tài)模型。」
生數(shù)科技從來沒有走過單一的、針對具體任務(wù)進(jìn)行微調(diào)的方案,這與統(tǒng)一高效的架構(gòu)是相悖的。這也意味著,通用多模態(tài)模型是生數(shù)的基因所在。
年初 Sora 剛發(fā)布之時,各視頻生成創(chuàng)業(yè)團(tuán)隊都在「大秀肌肉」,競爭一度十分激烈。然而行至年終,整個行業(yè)有些顯得「后勁不足」,初創(chuàng)公司的進(jìn)展鮮有較大突破。然而生數(shù)科技卻在自己的路線上「精雕細(xì)琢」,不僅有規(guī)律地提升模型通用性,也不忽略鏡頭感、動態(tài)程度等視頻畫面細(xì)節(jié)。
Vidu 1.5 在基礎(chǔ)模型層面便具備了對鏡頭運(yùn)動的理解能力,能夠生成如推拉搖移+順/逆時針融合的復(fù)雜鏡頭,畫面擁有較高表現(xiàn)力和流暢度。比如,輸入提示詞:模特拍攝,她被鮮花簇?fù)碇?,光線明亮且自然,鏡頭順時針旋轉(zhuǎn)推進(jìn)拍攝,得到如下畫面。
在動態(tài)性方面,Vidu1.5 生成的視頻動作幅度大且自然,同時新上線了動態(tài)控制功能,能準(zhǔn)確的控制畫面整體的動態(tài)程度。
描述詞:一個戰(zhàn)士拿著槍在戰(zhàn)場奔襲,大動態(tài)
除了視頻能力外,Vidu 也在規(guī)劃和布局 4D 模型、音頻等更多模態(tài)。其中,基于視頻模型衍生出來的4D 模型,未來能夠?qū)σ曨l實現(xiàn)諸如「調(diào)整 6 度」的更加精確運(yùn)鏡控制。鮑凡表示,目前的初期階段,團(tuán)隊會先單獨驗證多模態(tài)模型中的各個子領(lǐng)域,最后會整合在通用多模態(tài)大模型中。
生數(shù)技術(shù)優(yōu)勢的愈發(fā)凸顯,也給了其在國內(nèi)視頻模型競爭中的底氣。但擺在其前面的挑戰(zhàn),還有快手、字節(jié)等大廠壓倒性的資源優(yōu)勢。對此,鮑凡回復(fù):當(dāng)目標(biāo)足夠明確,并且做出的東西真正能夠解決行業(yè)問題的時候,我們朝這個方向持續(xù)前進(jìn),最終結(jié)果總會是正確的。
對標(biāo)世界范圍內(nèi)領(lǐng)先的 Sora,會發(fā)現(xiàn)生數(shù)與 Sora 的關(guān)注點并不相同。生數(shù)科技的定位是通用多模態(tài)大模型,而 Sora 更主張做世界模擬器,希望真實的模擬物理世界。雖然世界模擬器是多模態(tài)大模型的一個子問題,但生數(shù)的通用多模態(tài)大模型會強(qiáng)調(diào)解決更多實際問題。
生數(shù)并不會完全對標(biāo) Sora,更不會跟在 Sora 之后亦步亦趨。Vidu 證明了:視頻模型不只于 Sora 這一個答案。雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。