0
本文作者: 林杰鑫 | 2024-09-27 17:55 |
過(guò)去3個(gè)月中國(guó)廠商在AI視頻賽道已經(jīng)殺瘋了。從快手可靈到Minimax海螺AI、生數(shù)科技Vidu、智譜清影,每個(gè)AI視頻產(chǎn)品的發(fā)布都在全球范圍內(nèi)獲得廣泛認(rèn)可。并且由于Sora的超長(zhǎng)期貨行為,在看到中國(guó)AI視頻生成模型的效果之后,外國(guó)人直呼“We don't need Sora anymore.”,并在過(guò)去幾個(gè)月一直想方設(shè)法拿中國(guó)手機(jī)號(hào)注冊(cè)體驗(yàn)國(guó)內(nèi)的AI產(chǎn)品。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
但更多的網(wǎng)友則是期待字節(jié)的視頻生成模型,因?yàn)樵缭谌ツ?1月,字節(jié)的項(xiàng)目Make Pixels Dance就展示字節(jié)具備了解決長(zhǎng)AI視頻中角色一致性難以保持的問(wèn)題。所以我也看到很多外網(wǎng)網(wǎng)友的另一個(gè)問(wèn)題“Where is ByteDacne?”。
而就在9.24火山引擎AI創(chuàng)新巡展深圳站上,火山引擎一口氣發(fā)布了個(gè)視頻生成模型PixelDance和Seaweed模型。兄弟們感受下這個(gè)絲滑的運(yùn)鏡和轉(zhuǎn)場(chǎng),10秒鐘時(shí)間從跟隨一個(gè)女人走進(jìn)人群,然后女人轉(zhuǎn)身鏡頭跟著右旋然后改變焦距變到另一個(gè)場(chǎng)景。這種效果相較于現(xiàn)在的AI只能說(shuō)是斷層式的領(lǐng)先。
外網(wǎng)看了視頻的人,直接確認(rèn)了,很可怕,但我沒有中國(guó)手機(jī)號(hào)。(PS:是不是可以考慮模仿一下那些搞Gpt的人,反向輸出一波?)當(dāng)然這次咱們也很幸運(yùn)拿到了測(cè)試資格,測(cè)試前我先總結(jié)了所有AI視頻產(chǎn)品都會(huì)有的問(wèn)題:
其他AI視頻生成效果展示
1、語(yǔ)義理解差。不管提示詞寫的多認(rèn)真,產(chǎn)品會(huì)抽風(fēng)亂生成,這問(wèn)題體現(xiàn)在 人物動(dòng)作、畫面風(fēng)格、運(yùn)鏡、天氣、各種補(bǔ)充細(xì)節(jié)上。而且一些國(guó)外產(chǎn)品由于語(yǔ)種的問(wèn)題,就算我們用翻譯軟件也很難達(dá)到原生語(yǔ)種的水平。比如上面這個(gè)想讓鏡頭上抬,人物抬頭看向天空,AI直接給來(lái)一手人頭氣球。提示詞寫的像情書一樣深情,寄給AI之后換來(lái)的卻是一坨大的。
其他AI視頻生成效果展示
2、一致性差,用AI進(jìn)行影視創(chuàng)作的小伙伴都會(huì)面臨這個(gè)問(wèn)題,一個(gè)6秒的視頻如果涉及到鏡頭切換或者高速運(yùn)動(dòng),那么畫面內(nèi)容必定變形甚至出現(xiàn)國(guó)足行為,要把球踢出去鏡頭一轉(zhuǎn)球像磁鐵一樣吸到腳上要進(jìn)自家球門。
所以這次豆包·視頻生成模型的測(cè)試我會(huì)重點(diǎn)關(guān)照這些問(wèn)題,能按照需求生成視頻是AI視頻能服務(wù)專業(yè)影視創(chuàng)作者的基礎(chǔ)條件。同時(shí)拉上可靈、Minimax、老玩家Runway以及LUMA,看看是先發(fā)者保持優(yōu)勢(shì)還是后來(lái)者登基為王。
提示詞:膠片質(zhì)感,下雨天,四周堆滿垃圾的小巷里,鏡頭拍攝一只橘貓轉(zhuǎn)身走向巷子深處,雨水倒映它的身體。
英文提示詞:Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.
上面提示詞雖短。但測(cè)試點(diǎn)卻有4個(gè):1、畫面是膠片風(fēng)格;2、場(chǎng)景是堆滿垃圾的小巷。3、橘貓轉(zhuǎn)身走向巷子需要AI反推出貓一開始是面對(duì)鏡頭的然后轉(zhuǎn)身走;4、雨水要能倒映貓和場(chǎng)景。
首先是豆包·視頻生成模型的作品。我只能說(shuō)完成度太高了,我只生成了一遍,就覺得OK了。有種當(dāng)年Sora剛出現(xiàn)的震撼感。貓?jiān)谒锏牡褂?、腳步踩過(guò)水面泛起的漣漪....甚至走到盡頭垃圾堆有起伏,貓腳落地點(diǎn)都抬高了,說(shuō)明AI在生成的時(shí)候甚至注意到了地形?。?!
對(duì)比一下這是用可靈1.5高畫質(zhì)模式生成的,可靈的動(dòng)態(tài)天氣也很厲害,但問(wèn)題就出在這個(gè)膠片質(zhì)感用力過(guò)猛,貓都變成飽和度戰(zhàn)士了。而且貓?jiān)诩铀倥軙r(shí)尾巴出現(xiàn)一下變長(zhǎng)一下變短的情況。
再看一下Minimax的海螺AI,我覺得海螺的畫面觀感比可靈好很多,膠片質(zhì)感也到位。但是很可惜,沒有理解到貓轉(zhuǎn)身這個(gè)動(dòng)作。
接下來(lái)看下國(guó)際服選手LUMA和Runway的表現(xiàn)。
LUMA怎么說(shuō)呢,這種畫面放到網(wǎng)上,大家可能會(huì)說(shuō)很驚艷。但如果用來(lái)影視創(chuàng)作那絕對(duì)是不合格的。場(chǎng)景沒按要求生成、貓也沒轉(zhuǎn)身走到巷子深處,貓臉甚至還是糊的.......只能說(shuō),拉得很徹底......
Runway也拉了,這雨下得怕是膠水,貓腳完全動(dòng)不了,甚至貓還學(xué)會(huì)了中國(guó)的川劇變臉!
在這次空間理解測(cè)試中,豆包·視頻生成模型是毋庸置疑的第一。不管是隱藏測(cè)試點(diǎn)貓面向鏡頭然后轉(zhuǎn)身,還是水面的物理反射、按照提示詞對(duì)場(chǎng)景的搭建能力都屬于斷層式第一。可靈貓尾巴變形了,但其他要求也是完美執(zhí)行能排第二。第三名是Minimax,場(chǎng)景還原到位,但貓這個(gè)演員不怎么配合演出,生成了3次都不配合。至于LUMA和Runway,不知道是不是訓(xùn)練了什么詭異素材,貓的臉都很抽象。
提示詞:深夜的巷子漂浮著濃煙,地面污水橫流,許多老鼠走來(lái)走去,鏡頭逐漸推進(jìn)到一個(gè)雪人戴著禮帽坐在垃圾桶上仰頭喝啤酒,隨后扔掉啤酒瓶。鏡頭特寫啤酒瓶在地面上滾動(dòng),老鼠向四周逃竄。
英文提示詞:There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.
測(cè)試點(diǎn):復(fù)雜的場(chǎng)景,兩次鏡頭變化高度考驗(yàn)場(chǎng)景一致性,現(xiàn)實(shí)和3D動(dòng)畫的畫風(fēng)融合(這種一般在影視中要做特效,很燒錢。)
這次我不打算先放豆包了,太欺負(fù)人,咱先看看其他幾家表現(xiàn)。
首先是可靈,這里我用的是1.5的模型,花錢了就是不一樣,畫質(zhì)肉眼可見的高清。先說(shuō)完成項(xiàng):場(chǎng)景完成度到位,濃霧、水、老鼠、鏡頭推進(jìn)。加分項(xiàng):畫質(zhì)不錯(cuò)??鄯猪?xiàng):人物沒有坐在垃圾桶上,沒有仰頭喝酒、扔酒瓶的操作,鏡頭沒特寫扔酒瓶。
接下來(lái)是海螺AI,海螺這個(gè)鏡頭我挺喜歡的,先從老鼠和濃霧開始有大片的感覺。結(jié)果他鏡頭是后移不是推進(jìn)。這雪人估計(jì)造他的女媧不算用心。而且也沒有仰頭喝酒,雖然扔了酒瓶但沒有執(zhí)行酒瓶在地面滾動(dòng)嚇跑老鼠的鏡頭特寫。
好了看完國(guó)內(nèi)組,再看看國(guó)際組的表現(xiàn),Runway表現(xiàn)還是持續(xù)拉胯,感覺文生視頻這塊算是沒救了。老鼠沒老鼠,水也沒有水,要求讓雪人穿衣服也只戴了個(gè)帽子,更重要的是鏡頭完全沒動(dòng).......
LUMA這波的表現(xiàn)畫面中只有鏡頭和煙霧在動(dòng),老鼠和雪人感覺只是手辦擺件。在影視創(chuàng)作中又是一條廢片。
最后是豆包·視頻生成模型,這畫面第一眼觀感就是通透而且所有要求都做到了,濃霧、老鼠、雪人的動(dòng)作和服裝甚至是鏡頭推進(jìn)的要求也完成了。最重要的是,兄弟真來(lái)了個(gè)鏡頭特寫切換到酒瓶丟到地面上。這個(gè)片段我真的反復(fù)看了很多遍,就是雪人隨手一扔然后畫面絲滑切換到酒瓶落地。酒瓶跟手里那個(gè)一模一樣,地面場(chǎng)景跟開頭場(chǎng)景一模一樣,丟到地上還高清化了。而且地上那些雪我估計(jì)是雪人老哥留下的,顆粒分明??!
好了這一場(chǎng)評(píng)分我只能說(shuō).....豆包·視頻生成模型再次斷層式第一,我現(xiàn)在是真沒心思寫文章。以前被其他AI封印的靈感都爆發(fā)了,只想趕緊寫完文章然后再去搞一波。當(dāng)然本場(chǎng)排名依然是中國(guó)隊(duì)領(lǐng)先。繼可靈炸場(chǎng)之后,字節(jié)干了件更大的事——掀桌?。?!
上面雪人喝啤酒動(dòng)畫意味著豆包·視頻生成模型在動(dòng)畫教育也能大展拳腳。于是我又生成了一個(gè)毛氈動(dòng)畫風(fēng)格的短片。提示詞:夜晚森林中的篝火派對(duì),穿著超人服裝的小豬在打碟,其他小動(dòng)物跟著節(jié)奏一起搖擺。
我發(fā)現(xiàn)畫面中總共14只動(dòng)物,居然都是同一時(shí)間做動(dòng)作,他們是真的有自己的節(jié)奏!??!也就是關(guān)于AI視頻進(jìn)行多角色動(dòng)作控制的難題,已經(jīng)被豆包·視頻生成模型完美解決
我也在官方的demo中看到了這種多只綿羊一起跑的畫面,也就是說(shuō)如果有小伙伴要做古裝戰(zhàn)爭(zhēng)片,以后生成什么千軍萬(wàn)馬過(guò)大江的畫面,豆包·視頻生成模型也完全能勝任!
而剛剛?cè)泳破亢笄袚Q鏡頭后的一致性,我相信所有影視愛好者都會(huì)瘋狂。因?yàn)橄襁@種從身上掏鑰匙開車的連續(xù)畫面以往AI想都不用想,最多就是分成幾個(gè)視頻生成。而現(xiàn)在,豆包表示不好意思,一鏡到底!
說(shuō)了這么多,還是要跟Sora對(duì)線一波。小編在之前就有聊過(guò)Sora為啥遲遲不上線的原因。這里簡(jiǎn)單總結(jié)下問(wèn)題,然后進(jìn)行測(cè)試,看看豆包·視頻生成模型能否解決Sora暴露出來(lái)的問(wèn)題。
這個(gè)氣球男孩的短片大家肯定都很熟悉,是影視團(tuán)隊(duì)shykids借助Sora耗時(shí)2周制作的。但團(tuán)隊(duì)后來(lái)爆料視頻最終成品跟原定的劇本完全不符合。問(wèn)題可以總結(jié)為:角色一致性差、語(yǔ)義理解差。核心原因是因?yàn)镾ora只支持文生視頻。
比如在廣場(chǎng)奔跑這個(gè)鏡頭,文字要求的是,黃色氣球人穿著正裝從廣場(chǎng)左邊跑向右邊,生成的卻是,頭頂紙袋的人追紅色氣球?;蛘咭粋€(gè)通靈的衣服拉著氣球裸奔。跟要求的運(yùn)動(dòng)方向和畫面內(nèi)容完全不符。
再比如人臉和玩滑板畫面,AI會(huì)在氣球上印人臉,甚至直接讓人頂著氣球玩。而且AI對(duì)很多東西都有刻板印象,比如氣球一定要被線拉著導(dǎo)致他們后期要用AE處理。
并且生成素材很花時(shí)間,3~20秒的畫面通常要10到20分鐘來(lái)生成,團(tuán)隊(duì)至少生成了300多個(gè)片段,花上50多小時(shí),再用Topaz工具提升畫面分辨率。最終得到的素材總時(shí)長(zhǎng)約1.2小時(shí),卻只能做出80秒的短片。另一個(gè)問(wèn)題就是Sora很喜歡生成慢動(dòng)作視頻,很多視頻看起來(lái)都是0.5倍速播放。
而Sora表現(xiàn)出來(lái)的問(wèn)題,像廣場(chǎng)中氣球人不理解空間位置亂跑。豆包·視頻生成模型已經(jīng)解決,像這只小貓咪,叫他轉(zhuǎn)身走,人家就轉(zhuǎn)身走。
角色特征的問(wèn)題,人家甚至能在10秒時(shí)間內(nèi)360度無(wú)死角展示主角外觀,同時(shí)還完成了場(chǎng)景的切換和鏡頭的變焦。這能力在目前我看到的Sora生成的影片中還沒見過(guò)!
其實(shí)字節(jié)這次表現(xiàn)可以說(shuō)是在我意料之中。因?yàn)閺腟ora還沒發(fā)布之前,字節(jié)就一直加碼AI視頻技術(shù)領(lǐng)域的研究。文章開頭我也講了5月份的時(shí)候,字節(jié)的視頻生成模型研究就已經(jīng)征服了外網(wǎng)網(wǎng)友。
至于現(xiàn)在各大平臺(tái)最近才上線的運(yùn)動(dòng)畫筆功能,其實(shí)字節(jié)2月份的時(shí)候就已經(jīng)研究出來(lái)了,項(xiàng)目名為Boximator。通過(guò)框選目標(biāo)AI會(huì)智能識(shí)別不同主題,甚至讓狗和球產(chǎn)生逼真互動(dòng)。
再往回追溯你會(huì)發(fā)現(xiàn),去年11月份,人家的“Make Pixels Dance”項(xiàng)目就已經(jīng)能生成3分鐘時(shí)長(zhǎng)的北極熊冒險(xiǎn)視頻。所以字節(jié)這一波登場(chǎng)看似驚艷實(shí)則合理。反觀Sora的現(xiàn)狀我也不好評(píng)價(jià),給我最大的感覺就是一把火點(diǎn)燃了AI視頻,然后由于產(chǎn)品沒開發(fā)完整把自己憋死了......
最后說(shuō)一下,豆包·視頻生成模型也是 DiT 架構(gòu),跟Sora是同類型的技術(shù)。其實(shí)說(shuō)開了就是擴(kuò)散模型和Transformer相結(jié)合,在2023年的計(jì)算機(jī)視覺會(huì)議上因“缺少創(chuàng)新性”而遭到拒絕。因?yàn)閯偝鰜?lái)的時(shí)候很多人不看好用這個(gè)架構(gòu)做視頻生成模型,入門門檻太高了。
為什么說(shuō) DiT 架構(gòu)入門門檻高?因?yàn)槭紫刃枰獜S商有自己的語(yǔ)言大模型,然后借助大模型的能力來(lái)輔助指導(dǎo)擴(kuò)散模型生成視頻。講人話就是,你在用豆包·視頻生成模型,其實(shí)豆包語(yǔ)言大模型也參與了工作,它是一個(gè)翻譯官的角色負(fù)責(zé)把你的內(nèi)容優(yōu)化成視頻生成模型更容易理解的話。這樣子生成的畫面才更符合用戶提示詞的要求。
這也是為什么后來(lái)國(guó)內(nèi)的幾個(gè)AI視頻廠商在語(yǔ)義理解方面壓著國(guó)外打,甚至于Runway gen3直接放棄文生視頻只做圖生視頻了,因?yàn)樗麄儧]怎么做大模型相關(guān)研發(fā)。
當(dāng)然,像豆包·視頻生成模型這么離譜的能力,其深層次原因還是在于團(tuán)隊(duì)研發(fā)新的擴(kuò)散模型訓(xùn)練方法,保證一致性多鏡頭生成的穩(wěn)定性,同時(shí)深度優(yōu)化Transformer結(jié)構(gòu)提升視頻生成的泛化能力。簡(jiǎn)單說(shuō)就是所有的技術(shù)都是定制化的。才有了現(xiàn)在10秒講一個(gè)完整故事,分鏡多、可控主題多、一致性還穩(wěn)定的超能力。
字節(jié)的這波爆發(fā)并不意味徹底壓垮Sora,因?yàn)镺penAI的大模型底子還在,Dall·E 的底子也還在,不過(guò)要是OpenAI的產(chǎn)品繼續(xù)難產(chǎn),那Sora要穩(wěn)坐AI視頻這個(gè)王位恐怕不行。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。