0
本文作者: 王悅 | 2024-06-20 15:28 |
在 GPT-4 發(fā)布一年多后,OpenAI 推出 GPT-4o,是有史以來第一個(gè)真正實(shí)現(xiàn)「多模態(tài)輸入—多模態(tài)輸出」的多模態(tài)模型。
GPT-4o 的出現(xiàn)所傳遞的信息是:在底層模型并沒有變得更智能的情況下,能夠跨多種模態(tài)進(jìn)行推理的模型必然是更加通用的。因?yàn)槠洳粌H具備多種功能,還能以不同模態(tài)傳遞知識(shí)。
雖然具備了強(qiáng)大的多模態(tài)能力, 但 GPT-4o 目前只可以接受文本、音頻和圖像/視頻數(shù)據(jù)的任意組合作為輸入,并生成文本、音頻和圖像作為輸出,其中尚未涉及視頻生成這一部分。其實(shí),這也側(cè)面證明了,視頻生成是難啃的一塊骨頭。
即使是主打視頻生成能力的 Sora 在今年發(fā)布后也尚未對外開放使用,其真正的技術(shù)穩(wěn)定性仍然存疑,而國內(nèi)則是處在悶頭追趕 Sora 的技術(shù)研發(fā)期,各文生視頻創(chuàng)業(yè)公司亦是把戰(zhàn)力值加滿,想在短暫的窗口期融到更多的錢來盡快在幾個(gè)月內(nèi)追趕上 Sora 的腳步。
「三個(gè)月內(nèi)對齊到 Sora 的視頻生成效果還是很難的,和 Sora 相比大家都還是在一個(gè)相對低的起跑線上,這樣是個(gè)長期發(fā)力、急不得的事?!瓜愀鄞髮W(xué)教授、歐洲科學(xué)院外籍院士、徐圖智能創(chuàng)始人徐東告訴 AI 科技評論。
AI 2.0 時(shí)代,模型即平臺(tái)、模型即產(chǎn)品。在當(dāng)下技術(shù)無定論、底層模型尚未開源的階段,文生視頻還處在科研和產(chǎn)品中間的位置,沒有出現(xiàn)較為成熟的產(chǎn)品。因此,文生視頻背后的技術(shù)能力就會(huì)起決定性作用,而技術(shù)又跟科研水平強(qiáng)掛鉤,研究成果幾乎就是模型本身。
背靠香港大學(xué),徐東和其它幾位教授和學(xué)生組成的徐圖智能團(tuán)隊(duì)在 Sora 發(fā)布之前就開始采用 DiT 路線來實(shí)現(xiàn)文生視頻。并且,在影響視頻生成時(shí)長的壓縮技術(shù)上,團(tuán)隊(duì)從 2018 年就開始進(jìn)行技術(shù)積累?!缸錾疃纫曨l壓縮算法,就相當(dāng)于在攻克大語言模型的長文本能力。如果沒辦法在時(shí)間和空間層面同時(shí)做好視頻壓縮,那么生成的時(shí)長就無法做到 1 分鐘。」徐東說道。
人類運(yùn)用感官的能力被認(rèn)為是智能的關(guān)鍵部分,而其中眼睛能看到的圖像和視頻則受眾面更廣、傳播性更強(qiáng),相較于文字有更低的接受門檻。因此,視頻能力是多模態(tài)的關(guān)鍵,更是邁向 AGI 的路上不可跳過的一步。
至于最后究竟是大廠、AI 獨(dú)角獸還是文生視頻創(chuàng)業(yè)公司能夠跑出來,還懸而未決。「但做文生視頻最重要的是有信仰,抱著 fomo 的心態(tài)去試水和心懷堅(jiān)定的技術(shù)信仰去研發(fā)是完全不同的兩件事?!剐鞏|說道。
文生視頻這條賽道上,需要有技術(shù)實(shí)力、堅(jiān)定信仰的創(chuàng)業(yè)者穩(wěn)扎穩(wěn)打、長期發(fā)力跑下去。
一、三個(gè)月無法對齊 Sora
AI 科技評論:Sora 出現(xiàn)之前,文生視頻賽道中 Pika、Runway 剛嶄露頭角, Sora 的出現(xiàn)打了大家一個(gè)措手不及,這是否會(huì)使文生視頻創(chuàng)業(yè)者因壓力過大而動(dòng)作變形?
徐東:壓力肯定還是有的,但我覺得還好。因?yàn)槲覍@個(gè)賽道的判斷是,肯定會(huì)有幾家初創(chuàng)公司能活下來,當(dāng)然大廠也認(rèn)為不可 miss 這么大的機(jī)會(huì)所以肯定也會(huì)去做,但未必每家大廠都能做出來。其中可能至少有兩家不同類型的公司能夠活下來,其中一家提供最底層文生視頻技術(shù),另外一家可能更強(qiáng)調(diào)把 community 做好。
文生視頻這個(gè)賽道和大語言模型的賽道是不一樣的,去年一年涌現(xiàn)出上百個(gè)大模型,幾個(gè)月內(nèi)會(huì)定生死,而文生視頻的賽道其實(shí)還挺長的,而且現(xiàn)在專注做文生視頻的公司也不多,所以其實(shí)并不是那么擁擠。
因此,大家目前即使誰有一點(diǎn)領(lǐng)先、誰落后一點(diǎn)都還相對是能接受的,和 Sora 相比大家都還是在一個(gè)相對低的起跑線上,對齊 Sora 是個(gè)長期發(fā)力、急不得的事,不在乎一時(shí)的輸贏,那壓力就沒那么大了。
AI 科技評論:在 Sora 出現(xiàn)之后,行業(yè)內(nèi)有一種說法是想要在半年左右的時(shí)間去追趕上 Sora ,這是可行的嗎?
徐東:老實(shí)講,我覺得 3 個(gè)月對齊Sora還是挺難的。因?yàn)?Sora 消耗的 GPU 資源還是蠻大的。在當(dāng)下創(chuàng)業(yè)公司都沒有融很多錢的時(shí)候,去設(shè)置一個(gè)不太可能完成的目標(biāo),其實(shí)是沒必要的。
還是把心態(tài)放平衡,除非某家有很多資源,那如果在沒有很多資源的情況下,大家就是需要花相當(dāng)長的時(shí)間去把這事逐步地追趕上去,而且最終也不止一家能活下來,所以說也沒必要搞那么大壓力。
并且這個(gè)賽道如果只做到快,也是不行的,沒把數(shù)據(jù)準(zhǔn)備、視頻壓縮、DiT 訓(xùn)練以及架構(gòu)這些工作做扎實(shí)的話,很難做出國內(nèi)的 Sora,不能跨越式發(fā)展。而且 Sora 的技術(shù)報(bào)告也沒有給太多細(xì)節(jié),所以會(huì)有時(shí)間上的試錯(cuò)成本。
AI 科技評論:也就是說做多模態(tài)或者文生視頻,相較于大語言模型,是需要把戰(zhàn)線拉得更長,節(jié)奏沒有大語言模型那么快?
徐東:是的?,F(xiàn)在即使是 Sora 的落地狀況也不是很清楚,可能是由于 Sora 目前還是 ChatGPT 1.0 ,距離ChatGPT 3.5 這種能提高生產(chǎn)力的、可靠性較高的程度還是有差別的。當(dāng)然生成視頻如果只是 for fun, Sora也可能是可以的。但是大家估計(jì)Sora在云端做推理的成本很高,所以條件也不允許免費(fèi)、大范圍無限制地調(diào)用Sora來生成視頻 to C for fun。
AI 科技評論:Sora 發(fā)布以來,現(xiàn)在國內(nèi)有部分廠商也發(fā)布了自家生成的 20 秒視頻,這是不是說明國內(nèi)文生視頻水平很快就能追上 Sora?
徐東:Sora 是甩開了大家至少兩個(gè)身位。雖然很多家能做到10秒以上,但問題是到底有多可靠,無論是 Sora 還是國內(nèi),很少有視頻大模型給大家開放實(shí)測。這背后的問題就是,目前國內(nèi)的文生視頻是否能很可靠地生成 20 秒視頻?是否能做到不需要精挑細(xì)選就能生成一個(gè)可以對外的 demo?這幾天快手「可靈」開放測試,不過網(wǎng)上放出來的生成結(jié)果都還只是5秒的視頻,不知道是否能夠穩(wěn)定地生成其demo中呈現(xiàn)的120s視頻。
AI 科技評論:做視頻AI研究有 20 多年的時(shí)間以來,視頻這一模態(tài)大概經(jīng)歷了什么樣的發(fā)展歷程?
徐東:正如計(jì)算機(jī)視覺可以分為 high level 視覺和 low level 視覺,視頻方向的研究也可以分成 high level 和 low level。前者是做視頻的識(shí)別、檢測、分割、看視頻說話( video to text),后者則是視頻超分、去噪、 視頻生成(text to video)。
在相當(dāng)長一段時(shí)間,視頻動(dòng)作/事件識(shí)別是視頻AI最重要的研究方向。最早做控制環(huán)境下(比如固定攝像頭,簡單背景)對人物動(dòng)作的識(shí)別,后來逐步過渡到2007年左右的時(shí)候,就可以在真實(shí)的、沒有限制的環(huán)境下進(jìn)行動(dòng)作/事件識(shí)別(比如電影視頻里面的動(dòng)作識(shí)別和我們做的新聞視頻里面的事件識(shí)別)。之后到智能手機(jī)拍攝圖像/視頻變得流行以后,就開始做用戶拍攝的personal video(個(gè)人視頻)中的動(dòng)作/事件識(shí)別。
AI 科技評論:最后為什么選擇去做 low level 層面的創(chuàng)業(yè)?
徐東:我早期是做 high level 視覺的,后來深度學(xué)習(xí)火了以后就發(fā)覺做 high level 視覺的人太多了,看 CVPR 的論文,那時(shí)幾乎有 90% 以上的文章都是high level 視覺的,不到 10% 是 low level視覺的論文。而其中大部分做深度學(xué)習(xí)的人并不擅長做視頻壓縮,他們更傾向去做識(shí)別、分割、檢測這種高層任務(wù),于是就想著能不能來做底層視覺,就開始做深度視頻壓縮的研究。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
AI 科技評論:你們團(tuán)隊(duì)解決過多視頻這一模態(tài)的哪些關(guān)鍵問題?
徐東:我們是最早把遷移學(xué)習(xí)引入到做個(gè)人視頻識(shí)別領(lǐng)域的團(tuán)隊(duì)。因?yàn)楫?dāng)時(shí)的一個(gè)難點(diǎn)是缺乏做視頻事件識(shí)別所需要的訓(xùn)練數(shù)據(jù)集,但在 YouTube 上已經(jīng)有一些用戶為自己創(chuàng)作的視頻打上一些關(guān)鍵詞(tag),于是我們在網(wǎng)上下載到這些YouTube視頻作為訓(xùn)練樣本來學(xué)習(xí)分類模型,然后用它來識(shí)別其他用戶自己拍攝的視頻,很自然的就把遷移學(xué)習(xí)引進(jìn)來處理訓(xùn)練 YouTube 視頻和個(gè)人用戶視頻之間分布不一致的問題。這項(xiàng)研究的論文獲了 CVPR 2010 最佳學(xué)生論文獎(jiǎng),期刊版本發(fā)表于T-PAMI 2012(參見如下論文)。
論文鏈接:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9b969e1ef4de098ebc6ba388e1b41aa98ea5df47
由于這個(gè)工作和我們團(tuán)隊(duì)2010年前后一系列的相關(guān)工作,計(jì)算機(jī)視覺領(lǐng)域的研究人員逐步提出了大量針對不同視覺任務(wù)的遷移學(xué)習(xí)方法,最后我和加利福尼亞大學(xué)伯克利分校Trevor Darrell教授,波士頓大學(xué)Kate Saenko教授(當(dāng)時(shí)是Darrell教授的博士后)以及約翰霍普金斯大學(xué)Rama Chellappa等教授一起開創(chuàng)了一個(gè)名為視覺領(lǐng)域自適應(yīng)(Visual Domain Adaptation)的新研究領(lǐng)域。
除此之外,2018 年開始,我們團(tuán)隊(duì)開始做端到端優(yōu)化的深度視頻壓縮網(wǎng)絡(luò)DVC(Deep Video Compression),現(xiàn)在這個(gè)領(lǐng)域的研究人員會(huì)普遍將 DVC 這項(xiàng)工作認(rèn)為是世界上第一個(gè)端到端優(yōu)化的深度視頻壓縮框架。
論文鏈接:https://arxiv.org/pdf/1812.00101
過去做視頻壓縮的方式是人為設(shè)計(jì)新的模塊,來更好的去除視頻數(shù)據(jù)空間和時(shí)間維度上的冗余,這種方式延續(xù)了幾十年。我們做的時(shí)候就把所有的模塊都替換成神經(jīng)網(wǎng)絡(luò)。這時(shí)候面臨的第一個(gè)難題就是沒有可供訓(xùn)練的數(shù)據(jù)集,反復(fù)嘗試以后我們采用了麻省理工團(tuán)隊(duì)收集的數(shù)據(jù)庫Vimeo-90k。麻省理工團(tuán)隊(duì)的成員告訴我們他們收集這個(gè)數(shù)據(jù)集的時(shí)候也沒有意識(shí)到這個(gè)數(shù)據(jù)庫可以被用來做深度視頻壓縮。但是由于我們首先采用了這個(gè)數(shù)據(jù)庫,Vimeo-90k 數(shù)據(jù)集就成了做深度視頻壓縮方向的訓(xùn)練數(shù)據(jù)庫。經(jīng)過幾年的研究,我們在視頻壓縮標(biāo)注數(shù)據(jù)集上的結(jié)果從和20多年前的壓縮標(biāo)準(zhǔn) H.264 相當(dāng)?shù)匠^最新的壓縮標(biāo)準(zhǔn) H.266,在相當(dāng)長的一段時(shí)間內(nèi),我們團(tuán)隊(duì)都是這個(gè)領(lǐng)域在世界范圍內(nèi)最前沿的研究團(tuán)隊(duì)。
AI 科技評論:當(dāng)下文生視頻的發(fā)展處于什么樣的階段?
徐東:其實(shí)當(dāng)下文生視頻還處在科研和產(chǎn)品中間,坦言來講它和產(chǎn)品之間還有不小的距離,研發(fā)的比重會(huì)更多一點(diǎn)。如果技術(shù)已經(jīng)沒有什么發(fā)展空間,大家都準(zhǔn)備做工程化了,這樣的節(jié)點(diǎn)我們肯定沒有優(yōu)勢。但現(xiàn)在是只知道大概的方向,具體細(xì)節(jié)尚未可知,而且說不定未來還需換成另外的技術(shù)路線,這個(gè)時(shí)候科研團(tuán)隊(duì)的優(yōu)勢就體現(xiàn)了出來。這種優(yōu)勢和 0—1 的 research 能力,是即使有錢也買不到的。
AI 科技評論:目前文生視頻創(chuàng)業(yè)團(tuán)隊(duì),一部分是之前大廠出來的業(yè)界大咖,另一部分是高校學(xué)者,兩者各有什么優(yōu)勢?誰更有可能跑出來?
徐東:互聯(lián)網(wǎng)時(shí)代,在視頻領(lǐng)域有現(xiàn)象級的 APP 抖音、快手, 而在學(xué)術(shù)界,高校學(xué)者確實(shí)并不擅長做 APP,也不擅長做工程化太強(qiáng)的東西。即使是在 AI 1.0 時(shí)代,在視頻領(lǐng)域能夠真正落地且對人們的生活方式有實(shí)質(zhì)改變的東西也相當(dāng)比較少,也許只能做一些 tools,但無法真的靠 AI 來做出一家現(xiàn)象級的平臺(tái)型公司。
但是在 AI 2.0 時(shí)代, 做一家平臺(tái)型公司的難度和過去互聯(lián)網(wǎng)時(shí)代是不一樣。AI 2.0 是技術(shù)驅(qū)動(dòng)的團(tuán)隊(duì)更擅長的事,因?yàn)楝F(xiàn)在就是模型即產(chǎn)品、模型即平臺(tái)的時(shí)代,因此模型質(zhì)量就是最關(guān)鍵的因素,而模型質(zhì)量跟科研水平十分掛鉤,幾乎是你的研究成果就是模型。而模型本身又離產(chǎn)品又很近,基本上不需要做太多其他的步驟就是產(chǎn)品。也就是說,做研究的 output 恰好就是產(chǎn)品,這個(gè)時(shí)候教授帶隊(duì)的創(chuàng)業(yè)反而會(huì)有一定優(yōu)勢。
而且可以看到,OpenAI 這幫人中,雖然有工程化能力很強(qiáng)的人,但能夠驅(qū)動(dòng)這個(gè)項(xiàng)目的還是頂尖的 researcher。
二、深度壓縮——對應(yīng) LLM 的長文本能力
AI 科技評論:你認(rèn)為做文生視頻的關(guān)鍵技術(shù)問題是什么?
徐東:對于文生視頻,其實(shí)最難的還不只是 DiT,視頻壓縮也重要。如果做不好時(shí)間和空間這兩個(gè)維度的壓縮你就生成不了長視頻。
壓縮是文生視頻中很關(guān)鍵的步驟,它決定了生成視頻的時(shí)長。在保證同等生成質(zhì)量的情況下,假設(shè)視頻壓縮算法能夠多去除50%的信息冗余,那可能別人能生成10秒的視頻,壓縮效率提高后就能生成 15 秒的視頻。
Pika 和Runway 的問題就是,他們只做了空間維度的壓縮,而沒有做時(shí)空維度同時(shí)的數(shù)據(jù)壓縮,導(dǎo)致模型在訓(xùn)練的時(shí)候也只能用一個(gè)時(shí)長較短的視頻做訓(xùn)練。如果他只能用 4 秒的視頻做訓(xùn)練的話,最終也不能生成一個(gè) 20 秒的視頻。
Sora 目前能把一個(gè)空間分辨率高、時(shí)長也很長的視頻同時(shí)進(jìn)行時(shí)空數(shù)據(jù)壓縮,那這個(gè)視頻的空間時(shí)間維度都變小,在這個(gè)小的空間上再去做 DiT 路線是可行的。DiT路線只是一個(gè)加噪和去噪的過程,它本身只是把文本的信息引入到去噪的過程當(dāng)中,通過把文本信息跟視覺信息有效地融合來實(shí)現(xiàn)文生視頻。因此,用長視頻去訓(xùn)練,推理的時(shí)候也能生成長視頻。更重要的是,完成DiT路線之后,還要經(jīng)過一個(gè) decoder 過程來重建原始高分辨率的視頻,將低分辨率的特征還原到高分辨率的視頻上去。壓縮壓得不好的話,重建視頻的質(zhì)量也有問題,比如出現(xiàn)抖動(dòng)現(xiàn)象。
AI 科技評論:如果用大語言模型做對比的話,深度壓縮相當(dāng)于哪一個(gè)技術(shù)關(guān)鍵點(diǎn)?
徐東:深度視頻壓縮算法,有點(diǎn)相當(dāng)于大語言模型的長文本,大家其實(shí)沒有意識(shí)到它的重要性,其實(shí)它意味著,同等情況下我壓得比你狠,那就一定能做到生成視頻時(shí)長比你長。
AI 科技評論:除了壓縮以外,還有什么關(guān)鍵技術(shù)能拉開各家文生視頻模型的差距?
徐東:更多的在于 DiT 實(shí)現(xiàn)的細(xì)節(jié),其中scaling up非常重要。另外從數(shù)據(jù)角度來講,需要準(zhǔn)備高質(zhì)量的數(shù)據(jù),我們花了一年多的時(shí)間收集數(shù)據(jù),有上億個(gè) video clip。
AI 科技評論:行業(yè)內(nèi)有一種說法是,相比于視頻生成能力,先做好語言生成能力會(huì)更重要,認(rèn)為只做視頻生成模型,不做基礎(chǔ)語言模型的公司會(huì)處于劣勢。你是否認(rèn)同?
徐東:語言能力確實(shí)決定了多模態(tài)能力,多模態(tài)模型肯定要依賴于語言模型,如果語言做不好,多模態(tài)也就做不好。當(dāng)然,語言模型或者多模態(tài)模型對文生視頻模型的一些數(shù)據(jù)準(zhǔn)備工作是有幫助的。
但整體來講,文生視頻主要的 DiT 架構(gòu)和語言大模型的路線不一樣,視頻能力相對會(huì)獨(dú)立一些。我認(rèn)為,視頻能力還是挺重要的,主要是視頻這種載體的受眾面廣,傳播得也很快。雖然目前仍然是語言模型更成熟、離商業(yè)化更近,文生視頻模型離商業(yè)化稍微遠(yuǎn)一點(diǎn)。確實(shí)我們不做語言模型,也不擅長做離商業(yè)化很近的東西,但兩者仍然各有優(yōu)劣,我們擅長做創(chuàng)新科研,這也是我們這種高校科研團(tuán)隊(duì)創(chuàng)業(yè)的原因和存在的理由。
三、視頻模型是原子彈,不是茶葉蛋
AI 科技評論:周鴻祎說過,2023年,看大模型像原子彈,現(xiàn)在再看大模型像茶葉蛋。文生視頻的賽道是否會(huì)出現(xiàn)相同的情況?
徐東:這個(gè)賽道不像大語言模型那樣,能很快融資、變現(xiàn),和大語言模型的發(fā)展路徑其實(shí)是不太一樣的,很大程度上是因?yàn)榇笳Z言模型中有 LLaMA 開源,國內(nèi)進(jìn)行微調(diào)之后會(huì)瞬間涌現(xiàn)上百個(gè)模型。
文生視頻模型落地的節(jié)奏會(huì)更長一些,現(xiàn)在也沒有高質(zhì)量的開源模型,不是隨便做一下就能做出來的。如果沒有高質(zhì)量開源模型的話,它就永遠(yuǎn)還是原子彈,而不是茶葉蛋。
AI 科技評論:現(xiàn)在 MiniMax 等大模型獨(dú)角獸、字節(jié)等互聯(lián)網(wǎng)大廠都在做文生視頻模型,那么專門做文生視頻的創(chuàng)業(yè)公司如何與他們競爭?
徐東:其實(shí)我覺得做文生視頻最重要的是要有信仰的,因?yàn)檫@件事并不是很容易,尤其是在沒有高質(zhì)量開源模型而且 OpenAI 也沒有提供太多技術(shù)細(xì)節(jié)的情況下,技術(shù)還處于研究和產(chǎn)品中間,沒有信仰的團(tuán)隊(duì)很難 All In 做這個(gè)事情,并將其做出來。
對大模型創(chuàng)業(yè)公司來說,如果只是想通過這個(gè)亮點(diǎn)來抬抬估值,估計(jì)是不行的。真的需要去相信它能做出來并且不管多么困難都愿意投入資源去做,真的需要有一個(gè)頂尖人才的團(tuán)隊(duì) All In 去做這件事,并且 All In 之后還有可能打水漂。做個(gè)效果差強(qiáng)人意的模型是可能的,真的做得像 Sora 效果那么好還是很難。
于大廠而言,文生視頻是件 fomo 的事情,所以他們肯定會(huì)做。只不過抱著害怕錯(cuò)過的心態(tài)和堅(jiān)定的技術(shù)信仰去做事是完全不同的,并且大廠要想專門組建一個(gè)頂尖人才的團(tuán)隊(duì)去做這件事情還是很困難的。從側(cè)面也說明了,大廠也給技術(shù)較強(qiáng)的文生視頻創(chuàng)業(yè)公司提供了一些收購的機(jī)會(huì)。
AI 科技評論:什么樣的才是頂尖人才?
徐東:中國的 AI 人才數(shù)量比美國是多的,但從結(jié)果上來看,國內(nèi)在技術(shù)水平上和美國相比可能還是有一定的差距,我猜測主要原因是頂尖人才比較稀缺。至于,怎么衡量是不是頂尖人才?其中很重要的一個(gè)指標(biāo)就是,不能等OpenAI 研究完之后告訴你該做哪個(gè)你就做哪個(gè),而是在 OpenAI 告訴你之前就在做這個(gè)事情,甚至有外界的聲音指責(zé)你做錯(cuò)了,但仍會(huì)一直堅(jiān)持做你相信的。
AI 科技評論:最近 OpenAI 發(fā)布了ChatGPT-4o,這預(yù)示了多模態(tài)大模型的那些趨勢?
徐東:其實(shí) ChatGPT-4o 目前的突破點(diǎn)就是,把語音識(shí)別、文字生成、語音合成這三個(gè)獨(dú)立的模塊給它合并成了一個(gè)模塊。以此為基礎(chǔ),之后從多模態(tài) in 到多模態(tài) out 會(huì)是進(jìn)化的方向,也就是說輸入可以是文字、語音或者圖像/視頻,輸出也可以是語音、文字和圖像。但這個(gè)體系中,還沒有把視頻生成的能力加進(jìn)去,可能是因?yàn)?Sora 本身或者文生視頻還不是很成熟。
AI 科技評論:國內(nèi)距離 ChatGPT-4o 是否有很大差距?
徐東:ChatGPT-4o 里面包括很多工程化的事情,更像是一個(gè)成熟的產(chǎn)品,但他并不是一個(gè)breakthrough。 ChatGPT-4o 包含的這幾個(gè)模塊之前都是相對成熟的,只是各部分之間相對獨(dú)立、語音交互反應(yīng)的延遲又很大,而ChatGPT-4o 則是把對圖像 high level 的理解能力和 low level 的生成能力結(jié)合在一起了,可以把他做成一個(gè)端到端的模型,可以做到較低的時(shí)延,做到實(shí)時(shí)語音聊天。所以,國內(nèi)如果想追的話可能不是那么難。
AI 科技評論:從技術(shù)路線的角度來講,您認(rèn)為 ChatGPT-4o 有什么突破的地方嗎?
徐東:它可能涉及到了路線之爭,ChatGPT-4o 這一點(diǎn)是很厲害的。因?yàn)橹?DALL·E3 系列用的是 Diffusion 模型,但 ChatGPT-4o 是一個(gè)新的端到端訓(xùn)練的Single模型,我們猜測似乎是文生圖部分走回到了最早 DALL·E 的自回歸路線。雖然之前大家會(huì)認(rèn)為 Diffusion 模型效果好,而自回歸路線是 DALL·E 的老路線,但GPT-4o 證明了, 自回歸路線能實(shí)現(xiàn)的結(jié)果也不差,也就是說 Diffusion 路線不一定比自回歸路線好很多,兩者可能是半斤八兩、各有優(yōu)勢。
AI 科技評論:在 2024 年剩下的時(shí)間里,你認(rèn)為文生視頻賽道可見的競爭點(diǎn)是什么?
徐東:得開放出來用,讓各種類型的用戶能測試到,這個(gè)是比較重要的。不能說公開的這一個(gè)效果驚艷的 demo 是從大量的結(jié)果里面挑出來的,不至于說要求百發(fā)百中,但至少抽卡不能抽得太兇,穩(wěn)定性和可控性十分重要。其中,如何提升可控性,即如何更好地按照用戶的意圖來生成視頻,迄今為止任然是一個(gè)非常難的開放課題,這個(gè)問題在圖片領(lǐng)域都沒有被很好的解決。當(dāng)然效率也很重要,因?yàn)槠渲苯記Q定了文生視頻系統(tǒng)的推理成本。
AI 科技評論:文生視頻賽道中,仍處于從技術(shù)到產(chǎn)品的階段,但各廠商也在技術(shù)不是很成熟的階段做出了一些商業(yè)化,這是一種健康的狀態(tài)嗎?
徐東:早點(diǎn)做商業(yè)化還是有必要的,并且目前投資環(huán)境不是很好,不能一直燒投資人的錢。并且盡早做商業(yè)化,有一些數(shù)據(jù)和用戶反饋進(jìn)來后,也有利于模型的迭代,之后別人要是追趕的話也比較難。
AI 科技評論:文生視頻需要哪些條件、發(fā)展到什么程度才可以大范圍 To C?
徐東:具體的時(shí)間點(diǎn)可能很難去預(yù)測,但一個(gè)關(guān)鍵問題會(huì)取決于端側(cè)推理能力的發(fā)展。最開始肯定是 AIPC 的發(fā)展,現(xiàn)在微軟、聯(lián)想、戴爾等 PC 廠商都在做。然后慢慢地考慮高端手機(jī)到中端手機(jī)。除了端側(cè)推理能力的發(fā)展之外,也會(huì)取決于模型壓縮,如何把一個(gè)性能優(yōu)異的模型壓縮后能夠部署在端上。
如果有一天,在能夠把這兩件事做到的基礎(chǔ)上,至少還能生成一個(gè)哪怕分辨率不是那么高、20 秒左右的視頻,那么 To C 這件事就是真的可行的。那時(shí)候可以達(dá)到,對手機(jī)說一段話就能產(chǎn)生一個(gè)視頻,如果不滿意還可以就再接著說一句話進(jìn)行修改,這才真正是「人人都是視頻創(chuàng)作者的時(shí)代」。
AI 科技評論:你認(rèn)為對于文生視頻這個(gè)領(lǐng)域而言, To C 會(huì)早于 To B 嗎?
徐東:走在前面的可能還是 To B,從大 B 的影視公司,到中 B 的游戲工作室、短劇工作室、廣告工作室,再到小 B 的專業(yè)用戶比如 up 主這類,這時(shí)候切實(shí)能為他們的工作降本增效,付費(fèi)意愿自然會(huì)強(qiáng)烈。
如果真的做到 To C,像抖音一樣達(dá)到老人和小朋友隨時(shí)隨地都能用的程度, 一定需要模型的推理都到端上。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。