0
一個優(yōu)秀的多模態(tài)視頻生成大模型永遠是一套復雜的系統(tǒng)級工程,它包括但不限于:跨模態(tài)理解與對齊能力,時序一致性的控制能力,精細化的編輯和修正能力,以及高效計算和成本控制的能力等。這讓它看起來總像是一個巨頭的游戲:字節(jié)、快手,谷歌、OpenAI,他們手握著深如湖海的現(xiàn)金,寬似江河的流量動員能力。
不過在這條巨龍扎堆的賽道上,有三兩個身影站出來做點新東西。MiniMax大概就是其中跑得最前,聲音最響亮的團隊之一。二十多天前,谷歌最新推出的Veo3,被許多產(chǎn)業(yè)觀察者稱作視頻生成劃時代的產(chǎn)品;而二十天后,在又一個萬籟俱靜的618里,MiniMax發(fā)布了新一代Hailuo 02,給視頻生成大模型領(lǐng)域增添了一些實打?qū)嵉摹岸嗫旌檬 薄?/p>
Artificial Analysis視頻模型評測榜顯示,Hailuo 02視頻模型甫一推出,其ELO得分大幅度超過谷歌 Veo 3 和快手的 Kling 2.0,成為了全球排名第二的視頻生成模型。
一些用戶對Hailuo 02的評價是“更具電影感”,其中很重要的原因是Hailuo 02擁有了更好的復雜場景與運動呈現(xiàn)的能力,也被認為是目前全球唯一能夠?qū)崿F(xiàn)此類極限物理運動視頻效果的模型。
復雜的運動鏡頭,可以帶來很好的情節(jié)張力,讓觀眾迅速被鏡頭抓住而進入場景,往往出現(xiàn)在電影制作中最核心的高潮情節(jié)中。但相關(guān)場景的生成,對于模型的時空一致性要求非常高。稍有不慎,模型很容易發(fā)生丟失細節(jié)、違反物理規(guī)律,甚至穿模的情況。
比如在“馬躍起,落地奔跑”這么一段簡單的prompt測試中,模型需要讓馬和人保持一致性的身體姿態(tài),才可以給觀眾傳達出真實感。這種一致性不是簡單的姿勢同步,而是要呈現(xiàn)符合物理規(guī)律的力的傳遞中的層次感。
Hailuo 02很好地處理了每一個細節(jié)的物理關(guān)系,不僅是人與馬的姿態(tài)協(xié)同,包括馬尾、馬鬃毛和人的頭發(fā)飛揚都很有真實感。
Hailuo 02
相比之下,對標的測試模型便出現(xiàn)“馬淺跳,但人高飛”的情況,起跳過程也完全發(fā)生在了障礙物以外。
可靈2.1大師版
類似的場景還有“hellokitty打網(wǎng)球”,大量的模型在這個prompt測試詞上翻了大車。
海螺基本能實現(xiàn)球拍與球之間的互動:
Hailuo 02
但有些對標測試模型則出現(xiàn)了“精靈球”的情況,有點像哈利波特的場景,球很有自己的想法:
vidu
同樣的球與拍之間出現(xiàn)了神秘磁場:
luma
大變活“球”:
即夢:視頻3.0 pro
而對世界物理規(guī)律具體而微的理解,只是復雜動作的難點之一。在一些快速移動的運動中,往往會面臨背景的快速變化。相比于人的動作,背景視野的大范圍移動意味著模型優(yōu)秀的空間感知能力。
其中最典型的莫過于滑雪運動:鏡頭固定在快速變化的人體動作的同時,雪景可能隨著人的拍攝角度和速度移動而不斷遷移,場地本身則會隨著雪橇板的移動而掀起雪浪、留下移動軌跡。
Hailuo 02基本重建了滑雪場的環(huán)境視覺效果,滑雪板會留下仿真的雪痕,雪浪飛舞的方向與大小也隨著動作和軌跡的變化而變化。
Hailuo 02
相比之下,同類模型的雪道缺乏動態(tài),在快速移動收尾時,雪橇板會在高速運動中,出現(xiàn)從雙腳“脫落”的穿?,F(xiàn)象。
可靈2.1大師版
如果你看完了以上兩段雪場視頻,或許會發(fā)現(xiàn),在第二段視頻中,鏡頭其實是沒有保持一致性的。其整個5秒視頻,總計是由一段3秒和一段2秒的視頻組合起來的,畫面從近景切換到全景,從而達到某種類似蒙太奇的視覺效果。
這其實是由于“跨幀連貫性”是長期困擾視頻生成模型的痛點,視頻的連續(xù)畫面每增加一秒,對于時序一致性的處理難度便會幾何級地提升,更遑論保持長鏡頭、高強度的運動畫面中的畫面穩(wěn)定。
這也是為何,絕大部分的大模型視頻長度都被設(shè)計在10秒以內(nèi),同時在10秒的選項之外,還會給出能力更穩(wěn)健、成本更友好的5秒選項。
但一些快速的運動軌跡,意味著模型必須在短時間內(nèi)產(chǎn)生大量的動作與物體交互,這些高強度交互,相當于在有限時間內(nèi)快速提高了保持視頻時序一致性的難度。因此即便一些交互看起來并不復雜,但一旦頻次超過閾值,模型也可能會擺爛。
例如在經(jīng)典的拋多個小球的雜技場景里,Hailuo 02演示了很穩(wěn)定的鏡頭表現(xiàn)。畫面中六個小球的大小和顏色雖然都很相似,但觀眾依然可以分辨出每一個小球的運行軌跡,其中絕大部分的小球也在運動中保持了穩(wěn)定的形態(tài)。
提示詞:畫面中人物快速拋接球體,彩帶飄動落下,人物不停拋接球體——
Hailuo 02
但在測試的對標模型demo中,除了在一開始沒有識別到初始圖中的“雜耍”場景意圖外,大量的球體和彩帶交互,也出現(xiàn)了明顯的“吞球”現(xiàn)象,不斷有球體消失和生成,場面顯得非常混亂。
可靈2.1大師版
如上,優(yōu)秀的復雜運動鏡頭呈現(xiàn),背后是一整套模型的體驗優(yōu)化——它除了有強大的物理渲染能力外,還需要模型能夠熟悉世界的物理規(guī)律呈現(xiàn)方式,有很好的跨幀連貫性。
但相比于以上的技術(shù)優(yōu)化,模型對畫面和語言意圖的理解,或許是讓畫面得以更加符合觀眾直覺的更核心的能力。
如果再回到騎馬和拋接球兩個場景,我們會發(fā)現(xiàn),理解第一幀畫面的意圖是整個圖生視頻中最關(guān)鍵的一環(huán):模型需要知道,馬術(shù)前面有障礙物,其實是暗示讓馬越過障礙;而黑色領(lǐng)結(jié)+白色T恤的拋接球者,很可能是暗示雜技表演的場景。
除了畫面理解外,大模型對動作的理解也需要更加符合人類的直覺。以一個很簡單的測試prompt詞,“運動幅度,中等”。中等是個模糊的概念,不同模型對“中等”的理解不盡相同,Hailuo 02 基本能做到脖子等大關(guān)節(jié)的移動,基本符合人對畫面與prompt的直覺。
而在對標測試模型中,一些模型則出現(xiàn)了只有臉部活動的情況,顯然與人類直覺并不匹配。
vidu
或者只搖動鏡頭,雖然畫面實現(xiàn)了“中等”的“運動”,但人其實幾乎不動。
luma
測試demo中一個比較極端的案例是,提示詞:動畫風格,畫面中人物騎車穿越小鎮(zhèn)狹窄街道,鏡頭穩(wěn)定地側(cè)拍她向前移動,背景快速拉動——
Hailuo 02很好地還原提示詞與第一幀畫面中的“導演意圖”,給出了人物與生活環(huán)境的關(guān)系特寫,甚至能通過一秒鐘的人臉大側(cè)寫呈現(xiàn)出了日本動漫中常見的人物積極情緒。
Hailuo 02
在其他對標測試模型中,模型似乎錯誤地把前進對象理解成了“背景”,導致出現(xiàn)了詭異的自行車倒退的情況,而人物狀態(tài)則完全隱匿在視頻中。
可靈2.1大師版
MiniMax創(chuàng)始人閆俊杰曾多次在接受采訪中表示,多模態(tài)是AGI擴散的最佳途徑,因為絕大部分人的輸入和輸出其實都是多模態(tài)的。與此同時,越來越多的從業(yè)者也開始將多模態(tài)作為大模型理解世界物理規(guī)則的方式。從這個角度而言,Hailuo 02的升級不止是視頻能力的迭代,也是MiniMax基礎(chǔ)模型智能對世界理解力的提升。
據(jù)了解,MiniMax 這次的 Hailuo 02 和 01 其實是兩代截然不同的產(chǎn)品,其中最核心的變量是 Hailuo 02 幾乎完全重建了模型的底層架構(gòu),推出了 Noise-aware Compute Redistribution(NCR)。
NCR將超長視頻token根據(jù)噪聲水平進行有規(guī)劃的壓縮,構(gòu)成不同難度的“去噪目標”,并配合精心設(shè)計的噪聲調(diào)度體系,用統(tǒng)一的模型進行聯(lián)合學習。MiniMax這套新架構(gòu)一方面大幅提高訓練推理效率,另一方面也有效幫助模型擴展。
據(jù)官方披露,在同等的參數(shù)量級下,新架構(gòu)使海螺的訓練和推理效率提升了2.5倍。
這意味著在同等成本的考量下,MiniMax 可以采用更大的參數(shù)來推高模型的表現(xiàn)力。最終,MiniMax 將 Hailuo 02 的總模型參數(shù)規(guī)模推高了三倍、數(shù)據(jù)量提升了四倍。而更大的模型參數(shù)又為推理提供了優(yōu)化的空間。于是我們看到了一個細節(jié)能力更好、意圖識別更強的視頻模型。
此外在評分表現(xiàn)中,Hailuo02也擁有SOTA的“指令遵循”的能力表現(xiàn):其在復雜指令 prompt 響應率能做到 85%,超越所有同行。這也解釋了為什么在剛才幾個 demo 案例對比中,無論是什么類型視頻生成,Hailuo 02 能更好地還原和實現(xiàn) prompt 的意圖。
而能夠?qū)崿F(xiàn)SOTA的底層支持,便是像 NCR 等一系列效率工具所提供的智能冗余,讓模型有能力去很好完善推理能力,從而更好去理解世界和生成世界。于是,我們才有了今天唯一能生成電影機復雜運動場景的“Hailuo 02”。
如果說,效率讓模型能力上限更多元、更綜合地提升,讓 AI 模型更加貼近世界;那么效率所帶來的更低價格,永遠是讓世界貼近 AI 模型的最有效、最屢試不爽的手段之一。
高效的模型能力,意味著相同的預算、同級別的視頻能力,Hailuo 02可以支持更長更多的視頻生成。
根據(jù) MiniMax 的官方測算,Hailuo 02 的成本在第一梯隊的視頻生成模型中保持了明顯的優(yōu)勢。尤其是在 1080P 高清視頻的輸出中,Hailuo 02 比 Seedance 領(lǐng)先了整整一個身位,而相比同期發(fā)布的Google Veo3,海螺的價格約為后者的1/9。
這其實與不同公司的技術(shù)審美分野有關(guān):
有些公司追求的是智能上限,用極限的資源做極限的事情,而 MiniMax 從 DAY ONE 開始就是一家“奔赴世界”的公司,它的目標是“Intelligence with Everyone”,從一開始就注定了它的技術(shù)審美是面向所有人的,模型迭代自然也要為普通人和普通創(chuàng)作者服務。
與之對應的,海螺作為視頻模型,它的技術(shù)初心也是“Accessible to Everyone”,即希望讓用戶都能用到上限最高、成本最低的模型。
接下來,海螺還將繼續(xù)“卷”下去。根據(jù)官方表態(tài),Hailuo 02 接下來將繼續(xù)在以下幾個方面更快速更新:
生成速度提升
更好的偏好對齊,抽卡率 / 穩(wěn)定性提高
T2V / I2V 之外的高階功能的實現(xiàn)
視頻生成大模型沒有完美的產(chǎn)品,但 Hailuo 02 已經(jīng)是一個足夠酷炫、也足夠親民的產(chǎn)品,而 AI 也正在不斷接近它完成“復雜運動”、理解“復雜世界”的使命。
(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
(作者微信:hai2023zi)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。