0
本文作者: 林杰鑫 | 2024-09-27 17:55 |
過去3個月中國廠商在AI視頻賽道已經(jīng)殺瘋了。從快手可靈到Minimax海螺AI、生數(shù)科技Vidu、智譜清影,每個AI視頻產(chǎn)品的發(fā)布都在全球范圍內(nèi)獲得廣泛認(rèn)可。并且由于Sora的超長期貨行為,在看到中國AI視頻生成模型的效果之后,外國人直呼“We don't need Sora anymore.”,并在過去幾個月一直想方設(shè)法拿中國手機(jī)號注冊體驗國內(nèi)的AI產(chǎn)品。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
但更多的網(wǎng)友則是期待字節(jié)的視頻生成模型,因為早在去年11月,字節(jié)的項目Make Pixels Dance就展示字節(jié)具備了解決長AI視頻中角色一致性難以保持的問題。所以我也看到很多外網(wǎng)網(wǎng)友的另一個問題“Where is ByteDacne?”。
而就在9.24火山引擎AI創(chuàng)新巡展深圳站上,火山引擎一口氣發(fā)布了個視頻生成模型PixelDance和Seaweed模型。兄弟們感受下這個絲滑的運鏡和轉(zhuǎn)場,10秒鐘時間從跟隨一個女人走進(jìn)人群,然后女人轉(zhuǎn)身鏡頭跟著右旋然后改變焦距變到另一個場景。這種效果相較于現(xiàn)在的AI只能說是斷層式的領(lǐng)先。
外網(wǎng)看了視頻的人,直接確認(rèn)了,很可怕,但我沒有中國手機(jī)號。(PS:是不是可以考慮模仿一下那些搞Gpt的人,反向輸出一波?)當(dāng)然這次咱們也很幸運拿到了測試資格,測試前我先總結(jié)了所有AI視頻產(chǎn)品都會有的問題:
其他AI視頻生成效果展示
1、語義理解差。不管提示詞寫的多認(rèn)真,產(chǎn)品會抽風(fēng)亂生成,這問題體現(xiàn)在 人物動作、畫面風(fēng)格、運鏡、天氣、各種補(bǔ)充細(xì)節(jié)上。而且一些國外產(chǎn)品由于語種的問題,就算我們用翻譯軟件也很難達(dá)到原生語種的水平。比如上面這個想讓鏡頭上抬,人物抬頭看向天空,AI直接給來一手人頭氣球。提示詞寫的像情書一樣深情,寄給AI之后換來的卻是一坨大的。
其他AI視頻生成效果展示
2、一致性差,用AI進(jìn)行影視創(chuàng)作的小伙伴都會面臨這個問題,一個6秒的視頻如果涉及到鏡頭切換或者高速運動,那么畫面內(nèi)容必定變形甚至出現(xiàn)國足行為,要把球踢出去鏡頭一轉(zhuǎn)球像磁鐵一樣吸到腳上要進(jìn)自家球門。
所以這次豆包·視頻生成模型的測試我會重點關(guān)照這些問題,能按照需求生成視頻是AI視頻能服務(wù)專業(yè)影視創(chuàng)作者的基礎(chǔ)條件。同時拉上可靈、Minimax、老玩家Runway以及LUMA,看看是先發(fā)者保持優(yōu)勢還是后來者登基為王。
提示詞:膠片質(zhì)感,下雨天,四周堆滿垃圾的小巷里,鏡頭拍攝一只橘貓轉(zhuǎn)身走向巷子深處,雨水倒映它的身體。
英文提示詞:Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.
上面提示詞雖短。但測試點卻有4個:1、畫面是膠片風(fēng)格;2、場景是堆滿垃圾的小巷。3、橘貓轉(zhuǎn)身走向巷子需要AI反推出貓一開始是面對鏡頭的然后轉(zhuǎn)身走;4、雨水要能倒映貓和場景。
首先是豆包·視頻生成模型的作品。我只能說完成度太高了,我只生成了一遍,就覺得OK了。有種當(dāng)年Sora剛出現(xiàn)的震撼感。貓在水里的倒影、腳步踩過水面泛起的漣漪....甚至走到盡頭垃圾堆有起伏,貓腳落地點都抬高了,說明AI在生成的時候甚至注意到了地形?。?!
對比一下這是用可靈1.5高畫質(zhì)模式生成的,可靈的動態(tài)天氣也很厲害,但問題就出在這個膠片質(zhì)感用力過猛,貓都變成飽和度戰(zhàn)士了。而且貓在加速跑時尾巴出現(xiàn)一下變長一下變短的情況。
再看一下Minimax的海螺AI,我覺得海螺的畫面觀感比可靈好很多,膠片質(zhì)感也到位。但是很可惜,沒有理解到貓轉(zhuǎn)身這個動作。
接下來看下國際服選手LUMA和Runway的表現(xiàn)。
LUMA怎么說呢,這種畫面放到網(wǎng)上,大家可能會說很驚艷。但如果用來影視創(chuàng)作那絕對是不合格的。場景沒按要求生成、貓也沒轉(zhuǎn)身走到巷子深處,貓臉甚至還是糊的.......只能說,拉得很徹底......
Runway也拉了,這雨下得怕是膠水,貓腳完全動不了,甚至貓還學(xué)會了中國的川劇變臉!
在這次空間理解測試中,豆包·視頻生成模型是毋庸置疑的第一。不管是隱藏測試點貓面向鏡頭然后轉(zhuǎn)身,還是水面的物理反射、按照提示詞對場景的搭建能力都屬于斷層式第一??伸`貓尾巴變形了,但其他要求也是完美執(zhí)行能排第二。第三名是Minimax,場景還原到位,但貓這個演員不怎么配合演出,生成了3次都不配合。至于LUMA和Runway,不知道是不是訓(xùn)練了什么詭異素材,貓的臉都很抽象。
提示詞:深夜的巷子漂浮著濃煙,地面污水橫流,許多老鼠走來走去,鏡頭逐漸推進(jìn)到一個雪人戴著禮帽坐在垃圾桶上仰頭喝啤酒,隨后扔掉啤酒瓶。鏡頭特寫啤酒瓶在地面上滾動,老鼠向四周逃竄。
英文提示詞:There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.
測試點:復(fù)雜的場景,兩次鏡頭變化高度考驗場景一致性,現(xiàn)實和3D動畫的畫風(fēng)融合(這種一般在影視中要做特效,很燒錢。)
這次我不打算先放豆包了,太欺負(fù)人,咱先看看其他幾家表現(xiàn)。
首先是可靈,這里我用的是1.5的模型,花錢了就是不一樣,畫質(zhì)肉眼可見的高清。先說完成項:場景完成度到位,濃霧、水、老鼠、鏡頭推進(jìn)。加分項:畫質(zhì)不錯。扣分項:人物沒有坐在垃圾桶上,沒有仰頭喝酒、扔酒瓶的操作,鏡頭沒特寫扔酒瓶。
接下來是海螺AI,海螺這個鏡頭我挺喜歡的,先從老鼠和濃霧開始有大片的感覺。結(jié)果他鏡頭是后移不是推進(jìn)。這雪人估計造他的女媧不算用心。而且也沒有仰頭喝酒,雖然扔了酒瓶但沒有執(zhí)行酒瓶在地面滾動嚇跑老鼠的鏡頭特寫。
好了看完國內(nèi)組,再看看國際組的表現(xiàn),Runway表現(xiàn)還是持續(xù)拉胯,感覺文生視頻這塊算是沒救了。老鼠沒老鼠,水也沒有水,要求讓雪人穿衣服也只戴了個帽子,更重要的是鏡頭完全沒動.......
LUMA這波的表現(xiàn)畫面中只有鏡頭和煙霧在動,老鼠和雪人感覺只是手辦擺件。在影視創(chuàng)作中又是一條廢片。
最后是豆包·視頻生成模型,這畫面第一眼觀感就是通透而且所有要求都做到了,濃霧、老鼠、雪人的動作和服裝甚至是鏡頭推進(jìn)的要求也完成了。最重要的是,兄弟真來了個鏡頭特寫切換到酒瓶丟到地面上。這個片段我真的反復(fù)看了很多遍,就是雪人隨手一扔然后畫面絲滑切換到酒瓶落地。酒瓶跟手里那個一模一樣,地面場景跟開頭場景一模一樣,丟到地上還高清化了。而且地上那些雪我估計是雪人老哥留下的,顆粒分明?。?/p>
好了這一場評分我只能說.....豆包·視頻生成模型再次斷層式第一,我現(xiàn)在是真沒心思寫文章。以前被其他AI封印的靈感都爆發(fā)了,只想趕緊寫完文章然后再去搞一波。當(dāng)然本場排名依然是中國隊領(lǐng)先。繼可靈炸場之后,字節(jié)干了件更大的事——掀桌?。?!
上面雪人喝啤酒動畫意味著豆包·視頻生成模型在動畫教育也能大展拳腳。于是我又生成了一個毛氈動畫風(fēng)格的短片。提示詞:夜晚森林中的篝火派對,穿著超人服裝的小豬在打碟,其他小動物跟著節(jié)奏一起搖擺。
我發(fā)現(xiàn)畫面中總共14只動物,居然都是同一時間做動作,他們是真的有自己的節(jié)奏?。?!也就是關(guān)于AI視頻進(jìn)行多角色動作控制的難題,已經(jīng)被豆包·視頻生成模型完美解決
我也在官方的demo中看到了這種多只綿羊一起跑的畫面,也就是說如果有小伙伴要做古裝戰(zhàn)爭片,以后生成什么千軍萬馬過大江的畫面,豆包·視頻生成模型也完全能勝任!
而剛剛?cè)泳破亢笄袚Q鏡頭后的一致性,我相信所有影視愛好者都會瘋狂。因為像這種從身上掏鑰匙開車的連續(xù)畫面以往AI想都不用想,最多就是分成幾個視頻生成。而現(xiàn)在,豆包表示不好意思,一鏡到底!
說了這么多,還是要跟Sora對線一波。小編在之前就有聊過Sora為啥遲遲不上線的原因。這里簡單總結(jié)下問題,然后進(jìn)行測試,看看豆包·視頻生成模型能否解決Sora暴露出來的問題。
這個氣球男孩的短片大家肯定都很熟悉,是影視團(tuán)隊shykids借助Sora耗時2周制作的。但團(tuán)隊后來爆料視頻最終成品跟原定的劇本完全不符合。問題可以總結(jié)為:角色一致性差、語義理解差。核心原因是因為Sora只支持文生視頻。
比如在廣場奔跑這個鏡頭,文字要求的是,黃色氣球人穿著正裝從廣場左邊跑向右邊,生成的卻是,頭頂紙袋的人追紅色氣球?;蛘咭粋€通靈的衣服拉著氣球裸奔。跟要求的運動方向和畫面內(nèi)容完全不符。
再比如人臉和玩滑板畫面,AI會在氣球上印人臉,甚至直接讓人頂著氣球玩。而且AI對很多東西都有刻板印象,比如氣球一定要被線拉著導(dǎo)致他們后期要用AE處理。
并且生成素材很花時間,3~20秒的畫面通常要10到20分鐘來生成,團(tuán)隊至少生成了300多個片段,花上50多小時,再用Topaz工具提升畫面分辨率。最終得到的素材總時長約1.2小時,卻只能做出80秒的短片。另一個問題就是Sora很喜歡生成慢動作視頻,很多視頻看起來都是0.5倍速播放。
而Sora表現(xiàn)出來的問題,像廣場中氣球人不理解空間位置亂跑。豆包·視頻生成模型已經(jīng)解決,像這只小貓咪,叫他轉(zhuǎn)身走,人家就轉(zhuǎn)身走。
角色特征的問題,人家甚至能在10秒時間內(nèi)360度無死角展示主角外觀,同時還完成了場景的切換和鏡頭的變焦。這能力在目前我看到的Sora生成的影片中還沒見過!
其實字節(jié)這次表現(xiàn)可以說是在我意料之中。因為從Sora還沒發(fā)布之前,字節(jié)就一直加碼AI視頻技術(shù)領(lǐng)域的研究。文章開頭我也講了5月份的時候,字節(jié)的視頻生成模型研究就已經(jīng)征服了外網(wǎng)網(wǎng)友。
至于現(xiàn)在各大平臺最近才上線的運動畫筆功能,其實字節(jié)2月份的時候就已經(jīng)研究出來了,項目名為Boximator。通過框選目標(biāo)AI會智能識別不同主題,甚至讓狗和球產(chǎn)生逼真互動。
再往回追溯你會發(fā)現(xiàn),去年11月份,人家的“Make Pixels Dance”項目就已經(jīng)能生成3分鐘時長的北極熊冒險視頻。所以字節(jié)這一波登場看似驚艷實則合理。反觀Sora的現(xiàn)狀我也不好評價,給我最大的感覺就是一把火點燃了AI視頻,然后由于產(chǎn)品沒開發(fā)完整把自己憋死了......
最后說一下,豆包·視頻生成模型也是 DiT 架構(gòu),跟Sora是同類型的技術(shù)。其實說開了就是擴(kuò)散模型和Transformer相結(jié)合,在2023年的計算機(jī)視覺會議上因“缺少創(chuàng)新性”而遭到拒絕。因為剛出來的時候很多人不看好用這個架構(gòu)做視頻生成模型,入門門檻太高了。
為什么說 DiT 架構(gòu)入門門檻高?因為首先需要廠商有自己的語言大模型,然后借助大模型的能力來輔助指導(dǎo)擴(kuò)散模型生成視頻。講人話就是,你在用豆包·視頻生成模型,其實豆包語言大模型也參與了工作,它是一個翻譯官的角色負(fù)責(zé)把你的內(nèi)容優(yōu)化成視頻生成模型更容易理解的話。這樣子生成的畫面才更符合用戶提示詞的要求。
這也是為什么后來國內(nèi)的幾個AI視頻廠商在語義理解方面壓著國外打,甚至于Runway gen3直接放棄文生視頻只做圖生視頻了,因為他們沒怎么做大模型相關(guān)研發(fā)。
當(dāng)然,像豆包·視頻生成模型這么離譜的能力,其深層次原因還是在于團(tuán)隊研發(fā)新的擴(kuò)散模型訓(xùn)練方法,保證一致性多鏡頭生成的穩(wěn)定性,同時深度優(yōu)化Transformer結(jié)構(gòu)提升視頻生成的泛化能力。簡單說就是所有的技術(shù)都是定制化的。才有了現(xiàn)在10秒講一個完整故事,分鏡多、可控主題多、一致性還穩(wěn)定的超能力。
字節(jié)的這波爆發(fā)并不意味徹底壓垮Sora,因為OpenAI的大模型底子還在,Dall·E 的底子也還在,不過要是OpenAI的產(chǎn)品繼續(xù)難產(chǎn),那Sora要穩(wěn)坐AI視頻這個王位恐怕不行。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。