實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

本文作者：林杰鑫

2024-09-27 17:55

導語：OpenAI搭好戲臺，主角卻是字節(jié)跳動。

過去3個月中國廠商在AI視頻賽道已經殺瘋了。從快手可靈到Minimax海螺AI、生數科技Vidu、智譜清影，每個AI視頻產品的發(fā)布都在全球范圍內獲得廣泛認可。并且由于Sora的超長期貨行為，在看到中國AI視頻生成模型的效果之后，外國人直呼“We don't need Sora anymore.”，并在過去幾個月一直想方設法拿中國手機號注冊體驗國內的AI產品。雷峰網(公眾號：雷峰網)

但更多的網友則是期待字節(jié)的視頻生成模型，因為早在去年11月，字節(jié)的項目Make Pixels Dance就展示字節(jié)具備了解決長AI視頻中角色一致性難以保持的問題。所以我也看到很多外網網友的另一個問題“Where is ByteDacne?”。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

而就在9.24火山引擎AI創(chuàng)新巡展深圳站上，火山引擎一口氣發(fā)布了個視頻生成模型PixelDance和Seaweed模型。兄弟們感受下這個絲滑的運鏡和轉場，10秒鐘時間從跟隨一個女人走進人群，然后女人轉身鏡頭跟著右旋然后改變焦距變到另一個場景。這種效果相較于現在的AI只能說是斷層式的領先。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

外網看了視頻的人，直接確認了，很可怕，但我沒有中國手機號。（PS：是不是可以考慮模仿一下那些搞Gpt的人，反向輸出一波？）當然這次咱們也很幸運拿到了測試資格，測試前我先總結了所有AI視頻產品都會有的問題：

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

其他AI視頻生成效果展示

1、語義理解差。不管提示詞寫的多認真，產品會抽風亂生成，這問題體現在人物動作、畫面風格、運鏡、天氣、各種補充細節(jié)上。而且一些國外產品由于語種的問題，就算我們用翻譯軟件也很難達到原生語種的水平。比如上面這個想讓鏡頭上抬，人物抬頭看向天空，AI直接給來一手人頭氣球。提示詞寫的像情書一樣深情，寄給AI之后換來的卻是一坨大的。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

其他AI視頻生成效果展示

2、一致性差，用AI進行影視創(chuàng)作的小伙伴都會面臨這個問題，一個6秒的視頻如果涉及到鏡頭切換或者高速運動，那么畫面內容必定變形甚至出現國足行為，要把球踢出去鏡頭一轉球像磁鐵一樣吸到腳上要進自家球門。

所以這次豆包·視頻生成模型的測試我會重點關照這些問題，能按照需求生成視頻是AI視頻能服務專業(yè)影視創(chuàng)作者的基礎條件。同時拉上可靈、Minimax、老玩家Runway以及LUMA，看看是先發(fā)者保持優(yōu)勢還是后來者登基為王。

空間理解測試

提示詞：膠片質感，下雨天，四周堆滿垃圾的小巷里，鏡頭拍攝一只橘貓轉身走向巷子深處，雨水倒映它的身體。

英文提示詞：Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.

上面提示詞雖短。但測試點卻有4個：1、畫面是膠片風格；2、場景是堆滿垃圾的小巷。3、橘貓轉身走向巷子需要AI反推出貓一開始是面對鏡頭的然后轉身走；4、雨水要能倒映貓和場景。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

首先是豆包·視頻生成模型的作品。我只能說完成度太高了，我只生成了一遍，就覺得OK了。有種當年Sora剛出現的震撼感。貓在水里的倒影、腳步踩過水面泛起的漣漪....甚至走到盡頭垃圾堆有起伏，貓腳落地點都抬高了，說明AI在生成的時候甚至注意到了地形?。?！

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

對比一下這是用可靈1.5高畫質模式生成的，可靈的動態(tài)天氣也很厲害，但問題就出在這個膠片質感用力過猛，貓都變成飽和度戰(zhàn)士了。而且貓在加速跑時尾巴出現一下變長一下變短的情況。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

再看一下Minimax的海螺AI，我覺得海螺的畫面觀感比可靈好很多，膠片質感也到位。但是很可惜，沒有理解到貓轉身這個動作。

接下來看下國際服選手LUMA和Runway的表現。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

LUMA怎么說呢，這種畫面放到網上，大家可能會說很驚艷。但如果用來影視創(chuàng)作那絕對是不合格的。場景沒按要求生成、貓也沒轉身走到巷子深處，貓臉甚至還是糊的.......只能說，拉得很徹底......

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

Runway也拉了，這雨下得怕是膠水，貓腳完全動不了，甚至貓還學會了中國的川劇變臉！

在這次空間理解測試中，豆包·視頻生成模型是毋庸置疑的第一。不管是隱藏測試點貓面向鏡頭然后轉身，還是水面的物理反射、按照提示詞對場景的搭建能力都屬于斷層式第一?？伸`貓尾巴變形了，但其他要求也是完美執(zhí)行能排第二。第三名是Minimax，場景還原到位，但貓這個演員不怎么配合演出，生成了3次都不配合。至于LUMA和Runway，不知道是不是訓練了什么詭異素材，貓的臉都很抽象。

特效電影測試

提示詞：深夜的巷子漂浮著濃煙，地面污水橫流，許多老鼠走來走去，鏡頭逐漸推進到一個雪人戴著禮帽坐在垃圾桶上仰頭喝啤酒，隨后扔掉啤酒瓶。鏡頭特寫啤酒瓶在地面上滾動，老鼠向四周逃竄。

英文提示詞：There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.

測試點：復雜的場景，兩次鏡頭變化高度考驗場景一致性，現實和3D動畫的畫風融合（這種一般在影視中要做特效，很燒錢。）

這次我不打算先放豆包了，太欺負人，咱先看看其他幾家表現。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

首先是可靈，這里我用的是1.5的模型，花錢了就是不一樣，畫質肉眼可見的高清。先說完成項：場景完成度到位，濃霧、水、老鼠、鏡頭推進。加分項：畫質不錯?？鄯猪棧喝宋餂]有坐在垃圾桶上，沒有仰頭喝酒、扔酒瓶的操作，鏡頭沒特寫扔酒瓶。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

接下來是海螺AI，海螺這個鏡頭我挺喜歡的，先從老鼠和濃霧開始有大片的感覺。結果他鏡頭是后移不是推進。這雪人估計造他的女媧不算用心。而且也沒有仰頭喝酒，雖然扔了酒瓶但沒有執(zhí)行酒瓶在地面滾動嚇跑老鼠的鏡頭特寫。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

好了看完國內組，再看看國際組的表現，Runway表現還是持續(xù)拉胯，感覺文生視頻這塊算是沒救了。老鼠沒老鼠，水也沒有水，要求讓雪人穿衣服也只戴了個帽子，更重要的是鏡頭完全沒動.......

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

LUMA這波的表現畫面中只有鏡頭和煙霧在動，老鼠和雪人感覺只是手辦擺件。在影視創(chuàng)作中又是一條廢片。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

最后是豆包·視頻生成模型，這畫面第一眼觀感就是通透而且所有要求都做到了，濃霧、老鼠、雪人的動作和服裝甚至是鏡頭推進的要求也完成了。最重要的是，兄弟真來了個鏡頭特寫切換到酒瓶丟到地面上。這個片段我真的反復看了很多遍，就是雪人隨手一扔然后畫面絲滑切換到酒瓶落地。酒瓶跟手里那個一模一樣，地面場景跟開頭場景一模一樣，丟到地上還高清化了。而且地上那些雪我估計是雪人老哥留下的，顆粒分明?。?/p>

好了這一場評分我只能說.....豆包·視頻生成模型再次斷層式第一，我現在是真沒心思寫文章。以前被其他AI封印的靈感都爆發(fā)了，只想趕緊寫完文章然后再去搞一波。當然本場排名依然是中國隊領先。繼可靈炸場之后，字節(jié)干了件更大的事——掀桌?。?！

上面雪人喝啤酒動畫意味著豆包·視頻生成模型在動畫教育也能大展拳腳。于是我又生成了一個毛氈動畫風格的短片。提示詞：夜晚森林中的篝火派對，穿著超人服裝的小豬在打碟，其他小動物跟著節(jié)奏一起搖擺。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

我發(fā)現畫面中總共14只動物，居然都是同一時間做動作，他們是真的有自己的節(jié)奏?。?！也就是關于AI視頻進行多角色動作控制的難題，已經被豆包·視頻生成模型完美解決

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

我也在官方的demo中看到了這種多只綿羊一起跑的畫面，也就是說如果有小伙伴要做古裝戰(zhàn)爭片，以后生成什么千軍萬馬過大江的畫面，豆包·視頻生成模型也完全能勝任！

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

而剛剛扔酒瓶后切換鏡頭后的一致性，我相信所有影視愛好者都會瘋狂。因為像這種從身上掏鑰匙開車的連續(xù)畫面以往AI想都不用想，最多就是分成幾個視頻生成。而現在，豆包表示不好意思，一鏡到底！

對決Sora

說了這么多，還是要跟Sora對線一波。小編在之前就有聊過Sora為啥遲遲不上線的原因。這里簡單總結下問題，然后進行測試，看看豆包·視頻生成模型能否解決Sora暴露出來的問題。

這個氣球男孩的短片大家肯定都很熟悉，是影視團隊shykids借助Sora耗時2周制作的。但團隊后來爆料視頻最終成品跟原定的劇本完全不符合。問題可以總結為：角色一致性差、語義理解差。核心原因是因為Sora只支持文生視頻。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

比如在廣場奔跑這個鏡頭，文字要求的是，黃色氣球人穿著正裝從廣場左邊跑向右邊，生成的卻是，頭頂紙袋的人追紅色氣球?；蛘咭粋€通靈的衣服拉著氣球裸奔。跟要求的運動方向和畫面內容完全不符。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

再比如人臉和玩滑板畫面，AI會在氣球上印人臉，甚至直接讓人頂著氣球玩。而且AI對很多東西都有刻板印象，比如氣球一定要被線拉著導致他們后期要用AE處理。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

并且生成素材很花時間，3~20秒的畫面通常要10到20分鐘來生成，團隊至少生成了300多個片段，花上50多小時，再用Topaz工具提升畫面分辨率。最終得到的素材總時長約1.2小時，卻只能做出80秒的短片。另一個問題就是Sora很喜歡生成慢動作視頻，很多視頻看起來都是0.5倍速播放。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

而Sora表現出來的問題，像廣場中氣球人不理解空間位置亂跑。豆包·視頻生成模型已經解決，像這只小貓咪，叫他轉身走，人家就轉身走。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

角色特征的問題，人家甚至能在10秒時間內360度無死角展示主角外觀，同時還完成了場景的切換和鏡頭的變焦。這能力在目前我看到的Sora生成的影片中還沒見過！

總結

其實字節(jié)這次表現可以說是在我意料之中。因為從Sora還沒發(fā)布之前，字節(jié)就一直加碼AI視頻技術領域的研究。文章開頭我也講了5月份的時候，字節(jié)的視頻生成模型研究就已經征服了外網網友。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

至于現在各大平臺最近才上線的運動畫筆功能，其實字節(jié)2月份的時候就已經研究出來了，項目名為Boximator。通過框選目標AI會智能識別不同主題，甚至讓狗和球產生逼真互動。

再往回追溯你會發(fā)現，去年11月份，人家的“Make Pixels Dance”項目就已經能生成3分鐘時長的北極熊冒險視頻。所以字節(jié)這一波登場看似驚艷實則合理。反觀Sora的現狀我也不好評價，給我最大的感覺就是一把火點燃了AI視頻，然后由于產品沒開發(fā)完整把自己憋死了......

最后說一下，豆包·視頻生成模型也是 DiT 架構，跟Sora是同類型的技術。其實說開了就是擴散模型和Transformer相結合，在2023年的計算機視覺會議上因“缺少創(chuàng)新性”而遭到拒絕。因為剛出來的時候很多人不看好用這個架構做視頻生成模型，入門門檻太高了。

為什么說 DiT 架構入門門檻高？因為首先需要廠商有自己的語言大模型，然后借助大模型的能力來輔助指導擴散模型生成視頻。講人話就是，你在用豆包·視頻生成模型，其實豆包語言大模型也參與了工作，它是一個翻譯官的角色負責把你的內容優(yōu)化成視頻生成模型更容易理解的話。這樣子生成的畫面才更符合用戶提示詞的要求。

實測字節(jié)豆包·視頻生成模型：Sora畫的餅被實現了......

這也是為什么后來國內的幾個AI視頻廠商在語義理解方面壓著國外打，甚至于Runway gen3直接放棄文生視頻只做圖生視頻了，因為他們沒怎么做大模型相關研發(fā)。

當然，像豆包·視頻生成模型這么離譜的能力，其深層次原因還是在于團隊研發(fā)新的擴散模型訓練方法，保證一致性多鏡頭生成的穩(wěn)定性，同時深度優(yōu)化Transformer結構提升視頻生成的泛化能力。簡單說就是所有的技術都是定制化的。才有了現在10秒講一個完整故事，分鏡多、可控主題多、一致性還穩(wěn)定的超能力。

字節(jié)的這波爆發(fā)并不意味徹底壓垮Sora，因為OpenAI的大模型底子還在，Dall·E 的底子也還在，不過要是OpenAI的產品繼續(xù)難產，那Sora要穩(wěn)坐AI視頻這個王位恐怕不行。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

林杰鑫

編輯

發(fā)私信

當月熱門文章