丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給林杰鑫
發(fā)送

0

在海外,Sora 正在被可靈替代

本文作者: 林杰鑫 2024-07-30 18:36
導(dǎo)語:30天時間,半年前的AI視頻“老玩家”可以拜拜了。

在海外,Sora 正在被可靈替代

從沒想過中國第一個讓國外網(wǎng)友求著開放會員訂閱通道的AI應(yīng)用居然是出自快手。

在海外,Sora 正在被可靈替代

在經(jīng)歷一個多月的狂奔吸引上百萬人排隊內(nèi)測之后快手可靈終于全面開放,最有意思的是直到開放測試之前還有網(wǎng)友表示自己沒排進去內(nèi)測。

在海外,Sora 正在被可靈替代

狗BEE 提示詞:長著小狗身體的蜜蜂在花叢中飛

而在內(nèi)測過程中,中外網(wǎng)友則經(jīng)歷了身份互換,外網(wǎng)用戶也體驗了一把之前國內(nèi)網(wǎng)友求手機號注冊chatgpt的辛酸。好在可靈上周宣布開啟全球測試。網(wǎng)友以為好日子到了,結(jié)果畫風(fēng)如下。

在海外,Sora 正在被可靈替代

運氣好的第一批用戶已經(jīng)開始各種腦洞大開。

在海外,Sora 正在被可靈替代

但大部分外國網(wǎng)友正在經(jīng)歷每個爆款應(yīng)用都會遇到的體驗。內(nèi)測一號難求 → 公測卡在注冊界面 → 成功注冊發(fā)現(xiàn)服務(wù)器過載。感恩快手讓外國網(wǎng)友再次體驗了一次。

在海外,Sora 正在被可靈替代

最有意思的是這些人3小時出不來一條視頻,除了抱怨慢,體驗了視頻生成的效果之后更多的人在說趕快出訂閱計劃,我要花錢!

在海外,Sora 正在被可靈替代

因為有用戶發(fā)現(xiàn)可靈中國版出了訂閱計劃。換算價格后發(fā)現(xiàn)33軟妹幣一個月?lián)Q66個時長5秒的視頻,相當(dāng)于一條視頻只要5毛。這個單價擊穿了之前的價格地板pika(一條視頻8毛)。

在海外,Sora 正在被可靈替代

可靈視頻:熊鷹展翅

當(dāng)然寫這篇文章不止是為了講可靈火,更重要的憑什么是它?AI視頻下半場比賽誰能解決sora之前暴露出來的問題然后更專業(yè)的服務(wù)于影視從業(yè)人員?

在海外,Sora 正在被可靈替代

素材源自網(wǎng)絡(luò)

現(xiàn)在大家看到火的AI視頻形式千篇一律。比如跨越時空擁抱、菌子中毒、人突然變身等等。但我相信大部分人使用工具時,都會發(fā)現(xiàn)AI很難通過言語將我們的腦洞具現(xiàn)化。這也是sora之前暴露出來的問題之一。AI視頻下半場比賽更重要的是誰能服務(wù)影視行業(yè)工作流?

現(xiàn)在我們把pika、LUMA、可靈、智譜清影、愛詩科技pixverse拉一塊同臺PK一下,讓大家直觀感受一下各自的能力。新玩家pk老玩家,究竟是新王登基,還是舊王不朽。


文生視頻語義理解測試


測試將分為兩個板塊,首先進行文生視頻的測試,針對可靈、智譜清影的提示詞將使用中文,其他外文軟件將通過谷歌翻譯后進行。


空間理解測試

中文提示詞:兩只擬人化的狗在擂臺進行拳擊,左邊的狗用黑色的拳套,右邊的狗用紅色的拳套。

英文提示詞:Two anthropomorphic dogs fight in a ring, the one on the left wearing black gloves and the one on the right wearing red gloves.

這道題主要測試AI能否讓左邊的狗是黑色拳套,右邊的狗是紅色拳套,同時兩只狗擬人化的在進行拳擊比賽。

在海外,Sora 正在被可靈替代

從結(jié)果來看可靈強到我要逐幀觀看。短短5秒兩狗進行了3次激烈的攻防戰(zhàn),開頭黑狗迅速低頭躲避黃狗的拳同時出拳反擊被黃狗格擋。之后黑狗前傾準備二次進攻被黃狗抓住破綻,頭都被打歪了(這是物理意義上的受擊反饋,而不是虛空躲空氣,屬于加分項),第三次吸取教訓(xùn)低頭前傾進攻。

在海外,Sora 正在被可靈替代

由于沒有限定視頻風(fēng)格,清影答卷采用了動畫風(fēng)格,但也是左黑右紅并且擬人化打拳擊賽。

在海外,Sora 正在被可靈替代

接下來到愛詩科技pixverse,雖然狗也帶拳套,但顏色出錯....并且兩只狗好像含情脈脈?

在海外,Sora 正在被可靈替代

LUMA倒是做到左黑右紅了,但拳套顏色一直在變....而且說好的兩狗打架,怎么有只狗進化成人了?

在海外,Sora 正在被可靈替代

pika倒是很干脆,擂臺也沒有,拳套也沒有,左邊的狗一直摸右邊狗也不知道圖啥。


接著測試前后理解。

中文提示詞:正面拍攝,長焦,一只倉鼠賣力地蹬著一輛自行車,在倉鼠身后一只很肥的橘貓正在追趕倉鼠。

英文提示詞:Front shot, long focus, a hamster pedaling hard on a bicycle, behind the hamster a very fat orange cat is chasing the hamster.

在海外,Sora 正在被可靈替代

在這個環(huán)節(jié),可靈的貓有種龜兔賽跑的感覺,感覺像是倉鼠在蹬自行車,貓從倉鼠后面路過,倉鼠聞到貓的氣味后有個驚訝的表情,然后開始賣力蹬車。但沒有符合追趕這個設(shè)定,而且這胖橘長得鼠里鼠氣會不會是吃了鴨脖?

在海外,Sora 正在被可靈替代

清影我認為是這一場的MVP,透過畫面就能感覺到倉鼠很賣力蹬車,胖橘追的也很猛,而且畫面還做了虛化的效果,突出倉鼠這個主體。

在海外,Sora 正在被可靈替代

LUMA在這里再次抽風(fēng),正面拍攝的機位沒了,倉鼠已經(jīng)消失不見,橘貓以一種詭異的姿勢趴在自行車上,我就想問這車輪摩擦著貓不會覺得哪里不舒服嗎?

在海外,Sora 正在被可靈替代

pika咋說呢,表現(xiàn)比LUMA好一點,就是兩個主角對了......但也只是對了人,畫面內(nèi)容直接跑題。

在海外,Sora 正在被可靈替代

pixverse這次表現(xiàn)也比LUMA和pika好,至少符合生成需求,就是倉鼠的個頭比貓大了很多,然后畫面用了慢動作看不出緊張刺激的追逐感。


接著是單個主體指定運動方向的測試。


中文提示詞:固定機位,側(cè)面拍攝,一個頭被氣球替代的男人從廣場左邊跑到廣場右邊。

英文提示詞:Fixed position, side shot, a man with his head replaced by a balloon runs from the left to the right of the square.

在海外,Sora 正在被可靈替代

可靈的表現(xiàn)居然爆冷了,前面還分得清楚左右的,到這里卻左右不分,變成從廣場右邊跑到左邊。

在海外,Sora 正在被可靈替代

清影咋說呢.....跟可靈一樣的表現(xiàn),區(qū)別就是可靈用于訓(xùn)練的視頻數(shù)據(jù)估計比清影高清很多,所以對比起來清影略微遜色,但這個問題后面會提到,最重要的還是要符合需求。

在海外,Sora 正在被可靈替代

pixverse倒是理解了從左往右跑,但變成了人物追氣球,這里希望的是一個頭變成氣球的男人。

在海外,Sora 正在被可靈替代

LUMA同樣左右不分,然后還變成人手里拿著氣球。

在海外,Sora 正在被可靈替代

PIKA放棄參賽,要的是側(cè)面固定機位拍攝人從左往右跑,結(jié)果他一直是跟隨機位,人物對著鏡頭跑,生成的人物也不符合要求。
這一輪對比下來,其實可靈、清影還算符合要求,用工具鏡像一下就行,其他的軟件就只能繼續(xù)抽盲盒了。


腦洞能力測試

中文提示詞:正面拍攝,一只熊貓和喜鵲組合而成的鳥類生物站在樹枝上,高速扇動翅膀。

英文提示詞:Front shot, long focus, a hamster pedaling hard on a bicycle, behind the hamster a very fat orange cat is chasing the hamster.

在海外,Sora 正在被可靈替代

這是可靈生成的畫面,我稱之為“熊鷹展翅”,不得不說在這一方面sora不出,可靈獨占鰲頭。

在海外,Sora 正在被可靈替代

清影:大家快看,我長翅膀了,我給大家舞一個。

在海外,Sora 正在被可靈替代

pixverse這一波表現(xiàn)不錯,雖然在轉(zhuǎn)身的時候有一定瑕疵,但至少形象保持住了同時動作也有在執(zhí)行。
在海外,Sora 正在被可靈替代

LUMA咋說呢,其實第一眼觀感不錯,但沒有按照要求高速扇動翅膀。而且它轉(zhuǎn)身的那一刻,像極了會易容術(shù)的女孩卸妝,主打一個轉(zhuǎn)瞬即逝。

在海外,Sora 正在被可靈替代

PIKA生成的畫面我認為沒有偏題,只是鳥的占比比熊貓的占比高,但問題在于沒按要求高速扇動翅膀。


鏡頭運鏡理解

接下來進行運鏡理解測試,眾所周知,不管是文生視頻還是圖生視頻,除了一些軟件有給出運鏡選項,大部分時候要怎么運鏡還是得靠語言描述,而運鏡在工作流中又是相當(dāng)重要的。


中文提示詞:低角度向上推進,一只熊貓坐在墻上彈吉他。

英文提示詞:Thrust upward at a low Angle, a panda sits on the wall playing guitar.

在海外,Sora 正在被可靈替代

可靈這一波雖然是有從低角度向上推進,但缺失了坐在墻上這個細節(jié)。其實我希望的是它能從坐在墻上這句話反推出最開始畫面應(yīng)該是有一面墻,然后隨著鏡頭的位移再出現(xiàn)熊貓彈吉他。

在海外,Sora 正在被可靈替代

這一點清影就完美做到了,但對比可靈來說還是輸在了數(shù)據(jù)集。雖然清影用的是動畫畫風(fēng),但墻面出現(xiàn)了明顯的扭曲。不過如果從工具的角度來看,清影這一波比可靈強,就看后期團隊能不能加強高清數(shù)據(jù)集的投入了。

在海外,Sora 正在被可靈替代

pixverse直接放棄理解,答卷對一半也能拿一半分不是?

在海外,Sora 正在被可靈替代

LUMA:運鏡了,把自己運迷糊了,吉他也不彈了。

在海外,Sora 正在被可靈替代

Pika:放棄參賽是我自愿的。

為什么我在上面強調(diào)工具性的優(yōu)勢要大于數(shù)據(jù)集?因為我相信就像老游戲高清化一樣,數(shù)據(jù)集這種東西肯花時間肯定能有,但如果理解問題出錯了,大模型的幻覺是很難修正的。比如下面的例子,當(dāng)有高清數(shù)據(jù)集時,比拼的就是理解能力。


中文提示詞:低角度向上推進,緩緩抬頭,一只豬突然趴到墻上盯著你。

英文提示詞:Push up at a low Angle, slowly look up, and suddenly a pig is sitting on the wall staring at you.

這一次相較上面的測試加了一個緩緩抬頭,加大運鏡在提示詞中的權(quán)重。

在海外,Sora 正在被可靈替代

結(jié)果可靈只有一只豬趴在墻上咀嚼東西。

在海外,Sora 正在被可靈替代

清影完美詮釋低角度向上推進、緩緩抬頭,一只豬趴在墻上盯著鏡頭。而且清晰度也拉滿了。

在海外,Sora 正在被可靈替代

pixverse雖然生成了豬,但其他需求也沒達標(biāo),挺可惜的,前面的各種前后左右關(guān)系理解還可以的。

在海外,Sora 正在被可靈替代

LUMA這一波硬氣了,確實有鏡頭位移。但只是單純的推進沒有從低角度向上移,而且這頭“豬”也沒趴在墻上。我懷疑LUMA的數(shù)據(jù)集是不是有什么特殊癖好,上面要生成狗他就狗變?nèi)恕_@次要生成豬,就來了一手豬人.....雖然挺自然的就是了....

在海外,Sora 正在被可靈替代

Pika我已經(jīng)默認放棄參加比賽了......在這一關(guān)的測試中,我相信可靈應(yīng)該是綜合能力第一。首先視頻夠高清,左右理解、前后理解都很到位。但智譜新推出的清影我認為潛力不比可靈差,人家輸在了視頻清晰度,而語義理解猶在可靈之上。pixverse表現(xiàn)可以排到第三,比兩個老牌AI視頻好一點。LUMA大家也看到了,在持續(xù)更新了快一年,表現(xiàn)也就那樣,pika直接就是勿cue。所以在AI視頻這個賽道上,國產(chǎn)的軟件已經(jīng)某種意義上比外國的LUMA更適合作為工具。


圖生視頻測試

那既然文生視頻搞不定,我做好圖片用圖生視頻不就行了?我想說AI無法通過語言想象出來的東西,給他一張圖片他也不知道怎么處理。而且運鏡、各種左右前后運動的理解同樣需要語言理解支持。所以圖生視頻還多了一些測試點,那就是AI能否準確識別圖中的東西從而對應(yīng)文字進行視頻生成。

在海外,Sora 正在被可靈替代

中文提示詞:老人吃手里的手機,大口咀嚼。

英文提示詞:The old man ate the phone in his hand and chewed it.

在海外,Sora 正在被可靈替代

這是可靈的表現(xiàn),這里主要測試AI能否準確理解“吃手里的手機”這一動作,即軟件能否找到圖片里手中的手機并往嘴里喂,而不是虛空生成“手”以及“手機”往嘴巴里喂。在海外,Sora 正在被可靈替代

清影的表現(xiàn)比可靈差一些,但還是知道張嘴去啃手里手機的。

在海外,Sora 正在被可靈替代

pixverse生成的是老人在聞手機,一臉痛苦,估計他也知道這東西難以下嘴。但至少知道去靠近手里的手機。

在海外,Sora 正在被可靈替代

LUMA全程痛苦臉看手機,完全跟動作沒關(guān)系。

在海外,Sora 正在被可靈替代

這是pika的表現(xiàn),手沒動,嘴巴好像罵的很難聽,一眼萬年,一言難盡....接下來提高難度。

在海外,Sora 正在被可靈替代

中文提示詞:挖掘機挖地

英文提示詞:Excavator excavation.

大家也看出來了這不是傳統(tǒng)意義上的挖掘機,而是打破了物種生殖隔離的挖掘機,看看AI能不能識別出挖掘機的部分,在不崩壞動物身體的前提下完成動作。

在海外,Sora 正在被可靈替代

可靈的表現(xiàn)還是可以的,包括脖子上機械結(jié)構(gòu)的運動都有展現(xiàn)出來。

在海外,Sora 正在被可靈替代

清影的表現(xiàn)也不錯,就是這挖掘機有點變成抓手了,但好歹是完成了指令動作,同時也有看起來合理的機械運動。

在海外,Sora 正在被可靈替代

pixverse這是把挖斗當(dāng)成嘴了吧,直接把東西“咬”上來的。但至少是在動。

在海外,Sora 正在被可靈替代

LUMA我認為這次的表現(xiàn)最好,因為相較于可靈和清影,長頸鹿本身有了運動,挖掘工作也在同步進行,這樣子讓這個怪異生物體看起來很自然。就是腿消失了一條....

在海外,Sora 正在被可靈替代

pika:我不動我就不會露餡。接著測試多人物中左右辨別能力和表情控制能力。

在海外,Sora 正在被可靈替代

中文提示詞:左邊的女人哭,右邊的女人笑。

英文提示詞:The woman on the left rolls her eyes and the woman on the right laughs.

在海外,Sora 正在被可靈替代

可靈表現(xiàn)不理想,紫薇沒翻白眼,倒是像在說“***,忘刷牙齒了?!?/p>

在海外,Sora 正在被可靈替代

清影的表現(xiàn)也不理想,不過容嬤嬤像是在喊“不~~~~~~~~紫薇!”

在海外,Sora 正在被可靈替代

pixverse:一起來織毛衣啊。

在海外,Sora 正在被可靈替代

LUMA的表現(xiàn)暴露出了一個問題,就是表情控制沒到位,同時由于歐美面孔數(shù)據(jù)過多,人物都變成歐美妝容和五官了。

在海外,Sora 正在被可靈替代

pika:微微動一下,表示盡力了。這一關(guān)中,可靈、清影在圖片物體識別、動作執(zhí)行里表現(xiàn)得相當(dāng)?shù)轿?,其他app的表現(xiàn)只能說是廢片。LUMA長頸鹿挖掘機也可圈可點。不過大家集體倒在左右人物表情控制這一關(guān),全部亂來。LUMA還變成了外國人臉。


sora的問題

測試了那么多,肯定就有小伙伴問了,整這些花里胡哨的干啥?其實上面的測試全是從用sora制作氣球男孩的團隊shykids分享的sora的各種問題作為出發(fā)點進行測試的。


據(jù)他們介紹當(dāng)時團隊已經(jīng)規(guī)劃好氣球男孩的劇本,openAI要求他們2周內(nèi)交出成果。但這個過程卻遇到了大問題。團隊花50個小時(最保守估計)生成三百多個視頻,最終只能在推翻原本大綱的情況下拼湊出80秒的畫面。


有小伙伴好奇,不是有2周嗎?是的,那50個小時之后他們都在用AE修改畫面和Topaz超分畫面。具體地問題有如下:sora只能打字讓AI生成視頻,雖然引入了gpt處理文字,輔助sora理解用戶意圖。但只能勉強在單條視頻保持角色一致性。即使后面用同一段提示詞,得到的視頻畫面也完全不一樣。

在海外,Sora 正在被可靈替代

比如在廣場奔跑這個鏡頭,文字要求的是,黃色氣球人穿著正裝從廣場左邊跑向右邊,生成的卻是,頭頂紙袋的人追紅色氣球?;蛘咭粋€通靈的衣服拉著氣球裸奔。團隊只能通過AE對一個勉強能用的素材進行調(diào)整。

在海外,Sora 正在被可靈替代

再比如人臉和玩滑板畫面,AI會在氣球上印人臉,甚至直接讓人頂著氣球玩。而且由于訓(xùn)練集的原因AI對很多東西都有刻板印象,比如氣球一定要被線拉著導(dǎo)致他們后期要用AE處理。畫面的不確定性導(dǎo)致氣球人這部短片不能按照原定的劇本拍攝,團隊只能邊生成素材邊敲定劇本。整體內(nèi)容方向改為以人的成長經(jīng)歷為軌跡,從小孩到成年的日常生活為主,所以你看到的畫面雖然有主線但基本都是生活碎片。

在海外,Sora 正在被可靈替代

同時生成素材很花時間,sora可以選擇生成3秒到60秒的畫面,但時間越長畫面越不穩(wěn)定。其中3~20秒的畫面通常要10到20分鐘來生成,團隊至少生成了300多個片段,每個片段生成時間按最低的10分鐘算也要花上50小時。因此為了加速制作過程,團隊只要求AI生成480P的畫面,再用Topaz工具提升畫面分辨率。

在海外,Sora 正在被可靈替代

盡管如此,最終得到的素材總時長約1.2小時,經(jīng)過篩選和加工卻只能得到80秒的畫面。另一個問題就是AI很喜歡生成慢動作視頻。盡管提示詞里沒有要求慢動作,很多視頻看起來都是0.5倍速播放,導(dǎo)致團隊要花時間調(diào)整節(jié)奏。

在海外,Sora 正在被可靈替代

AI視頻工具的將來絕對是要走進影視工作者的工作流當(dāng)中,才真正有生存之地。目前來看sora并不具備這種能力,我們所有看到的畫面只是openAI精心篩選的團隊參與。這就像花了幾百萬雇張藝謀的團隊拿蘋果手機拍視頻來證明手機視頻錄制的能力,我不否認蘋果的能力,但真正厲害的還是團隊。

在海外,Sora 正在被可靈替代

同等條件下,可靈、清影甚至是愛詩科技這些明面上中國企業(yè)的后來者,如果去溯源的話你會發(fā)現(xiàn)技術(shù)發(fā)展路線可以追溯到兩三年前,甚至sora同款的DiT技術(shù)我們也是同時期研發(fā)。

在這一次的對比中可以看到老牌的AI視頻工具在近一年的長跑中并沒能保持住領(lǐng)先的優(yōu)勢,反而有種日暮西山的感覺。當(dāng)了半年期貨的sora我認為短時間難以成為外國版可靈,而可靈狂奔一個月已經(jīng)在世界舞臺上成為中國版sora,隨著時間的發(fā)展也許大家需要的不再是sora,而是可靈、清影......雷峰網(wǎng)(公眾號:雷峰網(wǎng))


參考鏈接:

https://x.com/shykids/status/1773392341455253752

https://www.technologyreview.com/2024/03/28/1090266/how-three-filmmakers-created-soras-latest-jaw-dropping-videos/

https://www.tomsguide.com/ai/ai-image-video/remember-the-ballon-head-sora-video-it-wasnt-all-ai-generated-after-all


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

在海外,Sora 正在被可靈替代

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說