丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給林杰鑫
發(fā)送

0

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

本文作者: 林杰鑫 2024-09-27 17:55
導語:OpenAI搭好戲臺,主角卻是字節(jié)跳動。

過去3個月中國廠商在AI視頻賽道已經殺瘋了。從快手可靈到Minimax海螺AI、生數(shù)科技Vidu、智譜清影,每個AI視頻產品的發(fā)布都在全球范圍內獲得廣泛認可。并且由于Sora的超長期貨行為,在看到中國AI視頻生成模型的效果之后,外國人直呼“We don't need Sora anymore.”,并在過去幾個月一直想方設法拿中國手機號注冊體驗國內的AI產品。雷峰網(公眾號:雷峰網)

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

但更多的網友則是期待字節(jié)的視頻生成模型,因為早在去年11月,字節(jié)的項目Make Pixels Dance就展示字節(jié)具備了解決長AI視頻中角色一致性難以保持的問題。所以我也看到很多外網網友的另一個問題“Where is ByteDacne?”。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

而就在9.24火山引擎AI創(chuàng)新巡展深圳站上,火山引擎一口氣發(fā)布了個視頻生成模型PixelDance和Seaweed模型。兄弟們感受下這個絲滑的運鏡和轉場,10秒鐘時間從跟隨一個女人走進人群,然后女人轉身鏡頭跟著右旋然后改變焦距變到另一個場景。這種效果相較于現(xiàn)在的AI只能說是斷層式的領先。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

外網看了視頻的人,直接確認了,很可怕,但我沒有中國手機號。(PS:是不是可以考慮模仿一下那些搞Gpt的人,反向輸出一波?)當然這次咱們也很幸運拿到了測試資格,測試前我先總結了所有AI視頻產品都會有的問題:

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

其他AI視頻生成效果展示

1、語義理解差。不管提示詞寫的多認真,產品會抽風亂生成,這問題體現(xiàn)在 人物動作、畫面風格、運鏡、天氣、各種補充細節(jié)上。而且一些國外產品由于語種的問題,就算我們用翻譯軟件也很難達到原生語種的水平。比如上面這個想讓鏡頭上抬,人物抬頭看向天空,AI直接給來一手人頭氣球。提示詞寫的像情書一樣深情,寄給AI之后換來的卻是一坨大的。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

其他AI視頻生成效果展示

2、一致性差,用AI進行影視創(chuàng)作的小伙伴都會面臨這個問題,一個6秒的視頻如果涉及到鏡頭切換或者高速運動,那么畫面內容必定變形甚至出現(xiàn)國足行為,要把球踢出去鏡頭一轉球像磁鐵一樣吸到腳上要進自家球門。

所以這次豆包·視頻生成模型的測試我會重點關照這些問題,能按照需求生成視頻是AI視頻能服務專業(yè)影視創(chuàng)作者的基礎條件。同時拉上可靈、Minimax、老玩家Runway以及LUMA,看看是先發(fā)者保持優(yōu)勢還是后來者登基為王。

空間理解測試

提示詞:膠片質感,下雨天,四周堆滿垃圾的小巷里,鏡頭拍攝一只橘貓轉身走向巷子深處,雨水倒映它的身體。

英文提示詞:Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.

上面提示詞雖短。但測試點卻有4個:1、畫面是膠片風格;2、場景是堆滿垃圾的小巷。3、橘貓轉身走向巷子需要AI反推出貓一開始是面對鏡頭的然后轉身走;4、雨水要能倒映貓和場景。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

首先是豆包·視頻生成模型的作品。我只能說完成度太高了,我只生成了一遍,就覺得OK了。有種當年Sora剛出現(xiàn)的震撼感。貓在水里的倒影、腳步踩過水面泛起的漣漪....甚至走到盡頭垃圾堆有起伏,貓腳落地點都抬高了,說明AI在生成的時候甚至注意到了地形!?。?/p>

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

對比一下這是用可靈1.5高畫質模式生成的,可靈的動態(tài)天氣也很厲害,但問題就出在這個膠片質感用力過猛,貓都變成飽和度戰(zhàn)士了。而且貓在加速跑時尾巴出現(xiàn)一下變長一下變短的情況。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

再看一下Minimax的海螺AI,我覺得海螺的畫面觀感比可靈好很多,膠片質感也到位。但是很可惜,沒有理解到貓轉身這個動作。

接下來看下國際服選手LUMA和Runway的表現(xiàn)。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

LUMA怎么說呢,這種畫面放到網上,大家可能會說很驚艷。但如果用來影視創(chuàng)作那絕對是不合格的。場景沒按要求生成、貓也沒轉身走到巷子深處,貓臉甚至還是糊的.......只能說,拉得很徹底......

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

Runway也拉了,這雨下得怕是膠水,貓腳完全動不了,甚至貓還學會了中國的川劇變臉!

在這次空間理解測試中,豆包·視頻生成模型是毋庸置疑的第一。不管是隱藏測試點貓面向鏡頭然后轉身,還是水面的物理反射、按照提示詞對場景的搭建能力都屬于斷層式第一??伸`貓尾巴變形了,但其他要求也是完美執(zhí)行能排第二。第三名是Minimax,場景還原到位,但貓這個演員不怎么配合演出,生成了3次都不配合。至于LUMA和Runway,不知道是不是訓練了什么詭異素材,貓的臉都很抽象。

特效電影測試

提示詞:深夜的巷子漂浮著濃煙,地面污水橫流,許多老鼠走來走去,鏡頭逐漸推進到一個雪人戴著禮帽坐在垃圾桶上仰頭喝啤酒,隨后扔掉啤酒瓶。鏡頭特寫啤酒瓶在地面上滾動,老鼠向四周逃竄。

英文提示詞:There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.

測試點:復雜的場景,兩次鏡頭變化高度考驗場景一致性,現(xiàn)實和3D動畫的畫風融合(這種一般在影視中要做特效,很燒錢。)

這次我不打算先放豆包了,太欺負人,咱先看看其他幾家表現(xiàn)。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

首先是可靈,這里我用的是1.5的模型,花錢了就是不一樣,畫質肉眼可見的高清。先說完成項:場景完成度到位,濃霧、水、老鼠、鏡頭推進。加分項:畫質不錯??鄯猪棧喝宋餂]有坐在垃圾桶上,沒有仰頭喝酒、扔酒瓶的操作,鏡頭沒特寫扔酒瓶。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

接下來是海螺AI,海螺這個鏡頭我挺喜歡的,先從老鼠和濃霧開始有大片的感覺。結果他鏡頭是后移不是推進。這雪人估計造他的女媧不算用心。而且也沒有仰頭喝酒,雖然扔了酒瓶但沒有執(zhí)行酒瓶在地面滾動嚇跑老鼠的鏡頭特寫。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

好了看完國內組,再看看國際組的表現(xiàn),Runway表現(xiàn)還是持續(xù)拉胯,感覺文生視頻這塊算是沒救了。老鼠沒老鼠,水也沒有水,要求讓雪人穿衣服也只戴了個帽子,更重要的是鏡頭完全沒動.......

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

LUMA這波的表現(xiàn)畫面中只有鏡頭和煙霧在動,老鼠和雪人感覺只是手辦擺件。在影視創(chuàng)作中又是一條廢片。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

最后是豆包·視頻生成模型,這畫面第一眼觀感就是通透而且所有要求都做到了,濃霧、老鼠、雪人的動作和服裝甚至是鏡頭推進的要求也完成了。最重要的是,兄弟真來了個鏡頭特寫切換到酒瓶丟到地面上。這個片段我真的反復看了很多遍,就是雪人隨手一扔然后畫面絲滑切換到酒瓶落地。酒瓶跟手里那個一模一樣,地面場景跟開頭場景一模一樣,丟到地上還高清化了。而且地上那些雪我估計是雪人老哥留下的,顆粒分明?。?/p>

好了這一場評分我只能說.....豆包·視頻生成模型再次斷層式第一,我現(xiàn)在是真沒心思寫文章。以前被其他AI封印的靈感都爆發(fā)了,只想趕緊寫完文章然后再去搞一波。當然本場排名依然是中國隊領先。繼可靈炸場之后,字節(jié)干了件更大的事——掀桌?。。?/p>

上面雪人喝啤酒動畫意味著豆包·視頻生成模型在動畫教育也能大展拳腳。于是我又生成了一個毛氈動畫風格的短片。提示詞:夜晚森林中的篝火派對,穿著超人服裝的小豬在打碟,其他小動物跟著節(jié)奏一起搖擺。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

我發(fā)現(xiàn)畫面中總共14只動物,居然都是同一時間做動作,他們是真的有自己的節(jié)奏?。?!也就是關于AI視頻進行多角色動作控制的難題,已經被豆包·視頻生成模型完美解決

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

我也在官方的demo中看到了這種多只綿羊一起跑的畫面,也就是說如果有小伙伴要做古裝戰(zhàn)爭片,以后生成什么千軍萬馬過大江的畫面,豆包·視頻生成模型也完全能勝任!

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

而剛剛扔酒瓶后切換鏡頭后的一致性,我相信所有影視愛好者都會瘋狂。因為像這種從身上掏鑰匙開車的連續(xù)畫面以往AI想都不用想,最多就是分成幾個視頻生成。而現(xiàn)在,豆包表示不好意思,一鏡到底!

對決Sora

說了這么多,還是要跟Sora對線一波。小編在之前就有聊過Sora為啥遲遲不上線的原因。這里簡單總結下問題,然后進行測試,看看豆包·視頻生成模型能否解決Sora暴露出來的問題。

這個氣球男孩的短片大家肯定都很熟悉,是影視團隊shykids借助Sora耗時2周制作的。但團隊后來爆料視頻最終成品跟原定的劇本完全不符合。問題可以總結為:角色一致性差、語義理解差。核心原因是因為Sora只支持文生視頻。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

比如在廣場奔跑這個鏡頭,文字要求的是,黃色氣球人穿著正裝從廣場左邊跑向右邊,生成的卻是,頭頂紙袋的人追紅色氣球。或者一個通靈的衣服拉著氣球裸奔。跟要求的運動方向和畫面內容完全不符。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

再比如人臉和玩滑板畫面,AI會在氣球上印人臉,甚至直接讓人頂著氣球玩。而且AI對很多東西都有刻板印象,比如氣球一定要被線拉著導致他們后期要用AE處理。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

并且生成素材很花時間,3~20秒的畫面通常要10到20分鐘來生成,團隊至少生成了300多個片段,花上50多小時,再用Topaz工具提升畫面分辨率。最終得到的素材總時長約1.2小時,卻只能做出80秒的短片。另一個問題就是Sora很喜歡生成慢動作視頻,很多視頻看起來都是0.5倍速播放。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

而Sora表現(xiàn)出來的問題,像廣場中氣球人不理解空間位置亂跑。豆包·視頻生成模型已經解決,像這只小貓咪,叫他轉身走,人家就轉身走。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

角色特征的問題,人家甚至能在10秒時間內360度無死角展示主角外觀,同時還完成了場景的切換和鏡頭的變焦。這能力在目前我看到的Sora生成的影片中還沒見過!

總結

其實字節(jié)這次表現(xiàn)可以說是在我意料之中。因為從Sora還沒發(fā)布之前,字節(jié)就一直加碼AI視頻技術領域的研究。文章開頭我也講了5月份的時候,字節(jié)的視頻生成模型研究就已經征服了外網網友。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

至于現(xiàn)在各大平臺最近才上線的運動畫筆功能,其實字節(jié)2月份的時候就已經研究出來了,項目名為Boximator。通過框選目標AI會智能識別不同主題,甚至讓狗和球產生逼真互動。


再往回追溯你會發(fā)現(xiàn),去年11月份,人家的“Make Pixels Dance”項目就已經能生成3分鐘時長的北極熊冒險視頻。所以字節(jié)這一波登場看似驚艷實則合理。反觀Sora的現(xiàn)狀我也不好評價,給我最大的感覺就是一把火點燃了AI視頻,然后由于產品沒開發(fā)完整把自己憋死了......


最后說一下,豆包·視頻生成模型也是 DiT 架構,跟Sora是同類型的技術。其實說開了就是擴散模型和Transformer相結合,在2023年的計算機視覺會議上因“缺少創(chuàng)新性”而遭到拒絕。因為剛出來的時候很多人不看好用這個架構做視頻生成模型,入門門檻太高了。


為什么說 DiT 架構入門門檻高?因為首先需要廠商有自己的語言大模型,然后借助大模型的能力來輔助指導擴散模型生成視頻。講人話就是,你在用豆包·視頻生成模型,其實豆包語言大模型也參與了工作,它是一個翻譯官的角色負責把你的內容優(yōu)化成視頻生成模型更容易理解的話。這樣子生成的畫面才更符合用戶提示詞的要求。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

這也是為什么后來國內的幾個AI視頻廠商在語義理解方面壓著國外打,甚至于Runway gen3直接放棄文生視頻只做圖生視頻了,因為他們沒怎么做大模型相關研發(fā)。

當然,像豆包·視頻生成模型這么離譜的能力,其深層次原因還是在于團隊研發(fā)新的擴散模型訓練方法,保證一致性多鏡頭生成的穩(wěn)定性,同時深度優(yōu)化Transformer結構提升視頻生成的泛化能力。簡單說就是所有的技術都是定制化的。才有了現(xiàn)在10秒講一個完整故事,分鏡多、可控主題多、一致性還穩(wěn)定的超能力。

字節(jié)的這波爆發(fā)并不意味徹底壓垮Sora,因為OpenAI的大模型底子還在,Dall·E 的底子也還在,不過要是OpenAI的產品繼續(xù)難產,那Sora要穩(wěn)坐AI視頻這個王位恐怕不行。


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

實測字節(jié)豆包·視頻生成模型:Sora畫的餅被實現(xiàn)了......

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說