0
本文作者: 王悅 | 2024-03-13 16:38 |
2023 年 4 月,王長(zhǎng)虎加入了AIGC創(chuàng)業(yè)大軍成立了愛(ài)詩(shī)科技。
在此之前,畢業(yè)于中科大的王長(zhǎng)虎有著 13 年的微軟研究院工作經(jīng)歷。2017 年加入字節(jié)跳動(dòng),在職期間組建了字節(jié) AI Lab 視覺(jué)技術(shù)團(tuán)隊(duì),擔(dān)任集團(tuán)視覺(jué)技術(shù)負(fù)責(zé)人,參與抖音和 TikTok 等產(chǎn)品從 0 到 1 的發(fā)展、搭建字節(jié)跳動(dòng)視覺(jué)算法平臺(tái)和業(yè)務(wù)中臺(tái)、主導(dǎo)字節(jié)跳動(dòng)視覺(jué)大模型從 0 到 1 的建設(shè)。
23年之前,他雖然也考慮過(guò)創(chuàng)業(yè),但時(shí)機(jī)尚不成熟,生成式AI技術(shù)的進(jìn)步還不足以對(duì)社會(huì)產(chǎn)生顛覆性影響,直到 Stable Diffusion、ChatGPT的 出現(xiàn),王長(zhǎng)虎就意識(shí)到新的AI時(shí)代到來(lái)了—— 因?yàn)?nbsp;C 端的用戶(hù)數(shù)說(shuō)明了一切,ChatGPT兩個(gè)月就達(dá)到一億月活,超過(guò)了TikTok的記錄?!高@次創(chuàng)業(yè)是受時(shí)代和內(nèi)心的雙重感召,此刻就是最佳的時(shí)機(jī)?!?/p>
在 2023 年上半年國(guó)內(nèi)市場(chǎng)瘋狂卷大語(yǔ)言模型的背景下,王長(zhǎng)虎堅(jiān)信無(wú)論是過(guò)去、現(xiàn)在、未來(lái),視頻都是最重要的內(nèi)容,AI視頻生成如果能夠做好,一定會(huì)從根本上改變?nèi)藗儎?chuàng)作和消費(fèi)視頻的范式,是個(gè)真正的大機(jī)會(huì)。因此,王長(zhǎng)虎繞開(kāi)了NLP大模型這個(gè)最火的創(chuàng)業(yè)領(lǐng)域,做自己熟悉、感興趣的視覺(jué)大模型。
4 月,王長(zhǎng)虎找到現(xiàn)在的合伙人、之前在光源資本TMT/AI方向負(fù)責(zé)人謝旭璋,并拿到超過(guò)五千萬(wàn)的天使輪融資,隨即宣布成立了新公司「愛(ài)詩(shī)科技」(AIsphere)。6 月,數(shù)名核心人員就位,明確了做視頻生成的方向,7月便開(kāi)始訓(xùn)練大模型。
接下來(lái)半年的時(shí)間里,愛(ài)詩(shī)科技處于從0到1的攻堅(jiān)期,并沒(méi)有什么大動(dòng)作,很少出現(xiàn)在公眾的視野中。
直到 2024 年初,在海外一款名為 PixVerse 的 AI 視頻生成產(chǎn)品短時(shí)間內(nèi)獲得海外用戶(hù)的高度評(píng)價(jià),并有許多優(yōu)秀海外創(chuàng)作者自發(fā)使用PixVerse創(chuàng)作出了高質(zhì)量、高熱度的“大片”。
AI影視探索者閑人一坤用 PixVerse 制作《山海奇鏡》,自1月初發(fā)布后在全網(wǎng)達(dá)到 近百萬(wàn)的播放量。
AI科技評(píng)論獲悉:PixVerse 是 AIsphere(愛(ài)詩(shī)科技)旗下的海外AI視頻生成產(chǎn)品,現(xiàn)已在國(guó)外社區(qū)上線(xiàn),國(guó)內(nèi)產(chǎn)品也即將上線(xiàn)。
AIGC 風(fēng)起云涌,AI視頻生成追夢(mèng)者不斷,王長(zhǎng)虎就是其中之一。
在他看來(lái),盡管生成式AI時(shí)代已經(jīng)到來(lái),但新時(shí)代孕育的機(jī)會(huì)不僅是眼前所能見(jiàn)到和可預(yù)期的,技術(shù)端和用戶(hù)端的共同探索將會(huì)帶來(lái)更大的機(jī)會(huì)和顛覆性改變。
不輸 Pika 的 AI 視頻生成效果
2023 年下半年,AI 視頻生成領(lǐng)域「如火如荼」。
Runway 推出了動(dòng)態(tài)筆刷新功能 Motion Brush,用戶(hù)只需在圖片上輕輕一劃,即可將其轉(zhuǎn)化為動(dòng)態(tài)視頻;
Stability AI 發(fā)布了 Stable Video Diffusion 視頻模型,創(chuàng)作者可根據(jù)需要調(diào)整迭代步數(shù)、重繪幅度等各種參數(shù),以協(xié)助創(chuàng)作者精確掌控畫(huà)面生成過(guò)程;
除此之外, Meta 推出了兩項(xiàng) AI 視頻編輯新功能,Midjourney 也正在著手開(kāi)發(fā)視頻功能;而在開(kāi)源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate 等也在布局 AI 視頻生成賽道。
其中,最出圈的非 Pika 莫屬。Pika 1.0 官方宣傳視頻中,諸多用戶(hù)用「驚艷」來(lái)形容其效果,更有“AI 生成視頻的 ChatGPT 時(shí)刻即將達(dá)來(lái)”的說(shuō)法。
但其實(shí), Pika 創(chuàng)始人孟晨琳曾表示,目前 AI 視頻生成產(chǎn)品處于類(lèi)似 GPT-2 的時(shí)期。
事實(shí)也是如此,AI 視頻生成最大的劣勢(shì),是畫(huà)面的豐富度不夠 —— 在生成的視頻中,更多只能呈現(xiàn)嘴部或局部動(dòng)作,很難整體動(dòng)起來(lái),這也是各家產(chǎn)品嘗試解決的問(wèn)題。
AI科技評(píng)論用同樣的Prompt輸入目前幾款主流產(chǎn)品,嘗試獲得直觀對(duì)比。
從結(jié)果上看,愛(ài)詩(shī)科技生成的視頻不僅扎克伯格的形象更加精準(zhǔn),動(dòng)作也相對(duì)協(xié)調(diào),并且可以人物走起來(lái),畫(huà)面的延伸程度較高。
王長(zhǎng)虎表示,愛(ài)詩(shī)科技希望未來(lái)能夠做到在 15 秒時(shí)長(zhǎng)內(nèi)的視頻中呈現(xiàn)更多的信息量,而非只是讓畫(huà)面主體輕微晃動(dòng)3秒、5秒,讓視頻承載更多有意義的信息,并符合用戶(hù)的期待才是核心的。
并且,清晰度、準(zhǔn)確性等維度也是愛(ài)詩(shī)科技主要的發(fā)力點(diǎn),現(xiàn)可以達(dá)到 4K 的分辨率。
視頻中,貓?朵?的運(yùn)動(dòng)被清晰地體現(xiàn)出來(lái),同時(shí)貓墨鏡中的反射畫(huà)面也隨著動(dòng)作變化。
在這一視頻中,?臉的各個(gè)細(xì)節(jié)得到了還原,頭發(fā)絲也清晰可見(jiàn)。
愛(ài)詩(shī)科技認(rèn)為,做AI視頻生成產(chǎn)品,最重要的,是讓每個(gè)人的簡(jiǎn)單創(chuàng)意都能成為作品。
這也意味著,面對(duì)用戶(hù)五花八門(mén)的 prompt ,只有保持較高的魯棒性、穩(wěn)定輸出精準(zhǔn)畫(huà)面,才算是成功?;谶@樣的優(yōu)先級(jí),自然而然會(huì)影響愛(ài)詩(shī)背后數(shù)據(jù)采集、模型訓(xùn)練、特定功能路線(xiàn)的選擇。
愛(ài)詩(shī)科技從7月開(kāi)始訓(xùn)練模型,經(jīng)過(guò)三四個(gè)月的打磨,產(chǎn)品效果已經(jīng)不輸同為「模型+應(yīng)用」模式的視頻生成產(chǎn)品 Runway 和 Pika 。
「我們想把整個(gè)行業(yè)的標(biāo)準(zhǔn)拉得更高一點(diǎn)。」王長(zhǎng)虎表示。
脫胎于頂尖視覺(jué)團(tuán)隊(duì)的技術(shù)能力
在AIGC時(shí)代,視覺(jué)內(nèi)容也依然會(huì)是最主要的消費(fèi)載體。
回顧過(guò)去,從 PGC 發(fā)展為 UGC 的過(guò)程中,誕生了抖音、快手等現(xiàn)象級(jí)的產(chǎn)品。而今走在從 UGC 跨越到AIGC的路上,勢(shì)必也會(huì)帶來(lái)大量的機(jī)會(huì)。
王長(zhǎng)虎認(rèn)為,UGC 到 AIGC,變的是U和AI,最主要的視覺(jué)難題不盡相同,但系統(tǒng)性地解決視覺(jué)問(wèn)題所需要的核心技術(shù)能力卻一脈相承。
以抖音為代表的短視頻產(chǎn)品舉例,其成功離不開(kāi)一系列視覺(jué)技術(shù)能力:對(duì)于短視頻特效精準(zhǔn)穩(wěn)定的高效生成、對(duì)海量視覺(jué)數(shù)據(jù)的精確清洗和標(biāo)注、對(duì)視頻的低延遲抽幀和安全檢查、對(duì)關(guān)鍵內(nèi)容近乎完美的準(zhǔn)確識(shí)別等。
這一系列技術(shù)支撐了短視頻成為 UGC 時(shí)代的核心媒介,并且成為解決 AIGC 時(shí)代視覺(jué)生成上準(zhǔn)確性、一致性、豐富度等難題的重要基石。
而這些, 正是愛(ài)詩(shī)科技的優(yōu)勢(shì)之一 —— 擁有上一時(shí)代全球頂尖視覺(jué)技術(shù)能力的操盤(pán)經(jīng)驗(yàn),沉淀下了硬核的技術(shù)能力,工程化能力也足夠強(qiáng)?!高@也是我們對(duì)于AI視頻生成這件事的信心來(lái)源?!雇蹰L(zhǎng)虎說(shuō)到。
在抖音、TikTok 這種數(shù)據(jù)量極大、用戶(hù)量極高的產(chǎn)品上,所遇到的每一個(gè)問(wèn)題都是「世界級(jí)」難題。過(guò)去和視頻相關(guān)的數(shù)據(jù)、算法、工程等方方面面問(wèn)題,愛(ài)詩(shī)的團(tuán)隊(duì)都遇到過(guò),并且成功攻克,而這些經(jīng)驗(yàn)?zāi)芰梢栽谝欢ǔ潭壬现苯訌?fù)用。
現(xiàn)在來(lái)看,要想做一個(gè)好的 AI 視頻生成產(chǎn)品,需要下面有一個(gè)基座的、動(dòng)態(tài)的大模型,數(shù)據(jù)是其中重要的方面之一,但數(shù)據(jù)采集并不會(huì)構(gòu)成真正的壁壘,如何做好數(shù)據(jù)的清洗、篩選等數(shù)據(jù)處理能力更加重要。
并且,在資源有限的前提下,并不是所有數(shù)據(jù)都可以用。在強(qiáng)數(shù)據(jù)處理能力的加持下,愛(ài)詩(shī)科技會(huì)通過(guò) AI 能力自動(dòng)找到最優(yōu)質(zhì)的那一部分內(nèi)容,這部分可能只有競(jìng)品模型 1/ 10 的體量。如此一來(lái),就有機(jī)會(huì)用更少的成本、更少的資源,更快地做出更好的模型。
同時(shí),愛(ài)詩(shī)科技的核心團(tuán)隊(duì)曾經(jīng)用AI解決了抖音和TikTok這些國(guó)民級(jí)產(chǎn)品的內(nèi)容安全問(wèn)題,因此也能很大程度增強(qiáng)視頻生成的安全性。不管是用戶(hù)惡意引導(dǎo)生成的違規(guī)數(shù)據(jù),還是大模型初期被灌進(jìn)的臟亂差數(shù)據(jù),愛(ài)詩(shī)科技有能力在海量數(shù)據(jù)里面把這些內(nèi)容識(shí)別出來(lái),降低對(duì)模型質(zhì)量的干擾程度。
除此之外,愛(ài)詩(shī)也關(guān)注視頻生成的可控性問(wèn)題,探索如何把運(yùn)動(dòng)的世界更好地建模,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)中的人體和物體更精準(zhǔn)的控制等 。
另一方面,初創(chuàng)科技企業(yè)算力有限,把有限的資源用到極致,提高效能以減少訓(xùn)練和推理的時(shí)間,就尤為關(guān)鍵 —— 這正是是愛(ài)詩(shī)團(tuán)隊(duì)從過(guò)去的經(jīng)驗(yàn)中打磨出的經(jīng)驗(yàn)和優(yōu)勢(shì)。
王長(zhǎng)虎告訴 AI 科技評(píng)論,在字節(jié),面對(duì)像春節(jié)發(fā)紅包這樣一個(gè)時(shí)間點(diǎn),流量可能是平常的數(shù)十倍甚至上百倍,需要在不添加額外資源的情況下確保服務(wù)器的穩(wěn)定、不能影響用戶(hù)的體驗(yàn),這就需要極強(qiáng)的推理效率和工程架構(gòu)能力。
在字節(jié)期間,王長(zhǎng)虎帶領(lǐng)的團(tuán)隊(duì)支撐了抖音TikTok等數(shù)十個(gè)產(chǎn)品和場(chǎng)景的視頻AI能力。模型訓(xùn)練和推理需要巨大的GPU 資源,更重要的是如何用好這些算力,這其中包括模型增效、模型壓縮等技術(shù)都是至關(guān)重要的。哪怕1% 效率的提升,可能意味著節(jié)省數(shù)百塊GPU。因此,所有技術(shù)都需要做到極致。
映射在現(xiàn)在做視頻生成模型的事情上,這種能力能幫助愛(ài)詩(shī)團(tuán)隊(duì)用更少的資源做出更多的事。比如原來(lái)一個(gè)視頻生成可能要一分鐘,具備這一能力后就可以用更少的時(shí)間完成,這意味著它占用 GPU 的時(shí)間更短,如此一來(lái),同樣的算力可以生成更多的視頻。
「視頻生成并不是像文生圖那樣堆資源和算力就行,在特定的時(shí)間內(nèi),不僅關(guān)乎你的資源有多少,也考驗(yàn)資源受限下如何更好地建模、更好地解決問(wèn)題?!雇蹰L(zhǎng)虎認(rèn)為。
不同于LLM已經(jīng)相對(duì)明確的發(fā)展路徑,AI 視頻生成還停留在技術(shù)突破的階段。面對(duì)諸多的技術(shù)挑戰(zhàn)、更高的用戶(hù)期待,王長(zhǎng)虎表示這也是令?lèi)?ài)詩(shī)團(tuán)隊(duì)興奮的一個(gè)點(diǎn),解決未來(lái)一個(gè)階段的問(wèn)題,視覺(jué)大模型會(huì)有更大、更快的爬坡階段。
對(duì)話(huà)王長(zhǎng)虎
AI 科技評(píng)論:在當(dāng)初創(chuàng)業(yè)的節(jié)點(diǎn)上,為什么選擇做視覺(jué)大模型?
王長(zhǎng)虎:我們開(kāi)始做這件事情的時(shí)候,整個(gè)市場(chǎng)還是很冷的,很多人會(huì)覺(jué)得視頻生成太遙遠(yuǎn)。但由于我們這個(gè)團(tuán)隊(duì)一直在做視頻,所以我們對(duì)視頻生成有一個(gè)自己的認(rèn)知——未來(lái)AI生成視頻會(huì)有一個(gè)快速的發(fā)展和爆發(fā)期。
過(guò)去這半年的發(fā)展其實(shí)是符合我們預(yù)期的,這幾個(gè)月,越來(lái)越多的目光關(guān)注到我們,越來(lái)越多的同行參與進(jìn)來(lái),這印證了我們之前的判斷。
AI 科技評(píng)論:是什么促使你選擇做 AI 視頻生成?
王長(zhǎng)虎:首先,過(guò)去幾年我們是伴隨抖音TikTok這些國(guó)民級(jí)短視頻成長(zhǎng)起來(lái)的,我們對(duì)視頻有深刻認(rèn)知,視頻在過(guò)去、現(xiàn)在和未來(lái),都是最重要的一類(lèi)內(nèi)容,會(huì)帶來(lái)巨大的機(jī)會(huì)??赡苓^(guò)去幾年,并沒(méi)有產(chǎn)生很多圖片類(lèi)的國(guó)民級(jí)產(chǎn)品,但是視頻類(lèi)產(chǎn)品更多,也是耳熟能詳?shù)?。視頻承載的內(nèi)容更豐富,會(huì)帶來(lái)更多的產(chǎn)品想象力,所以我認(rèn)為做視頻是更大的機(jī)會(huì)。
其次,NLP大模型,有chatGPT在前,文生圖大模型,有midjourney在前,所以NLP大模型、文生圖,國(guó)內(nèi)更多是跟隨。而視頻領(lǐng)域,我們看UGC時(shí)代,最有影響力的視頻產(chǎn)品就是抖音和TikTok,是中國(guó)人做出來(lái)的,是領(lǐng)先全球的。因此,視頻生成領(lǐng)域,國(guó)內(nèi)當(dāng)然有機(jī)會(huì)比國(guó)外做的更好,抖音/TT背后的視頻AI技術(shù),很多都是我?guī)е业膱F(tuán)隊(duì)做出來(lái)的,因此我們有天然的優(yōu)勢(shì)。并且,與NLP大模型和文生圖大模型不同,視頻生成還在發(fā)展初期,我們有做成全球最好的視頻生成模型的機(jī)會(huì)。
AI 科技評(píng)論:愛(ài)詩(shī)科技團(tuán)隊(duì)做AI視頻生成有什么優(yōu)勢(shì)?
王長(zhǎng)虎:從根本上來(lái)講,建設(shè)視頻大模型,數(shù)據(jù)、算法和工程能力缺一不可,都有很多問(wèn)題是需要解決。而我們?cè)诮ㄔO(shè)抖音和TikTok的視頻AI能力的時(shí)候,各種各樣的問(wèn)題都遇到過(guò)和解決過(guò),踩過(guò)無(wú)數(shù)的坑,解決過(guò)無(wú)數(shù)的世界難題,我們這個(gè)團(tuán)隊(duì)具備這些能力。
而很多問(wèn)題,我們的同行過(guò)去不一定遇到過(guò),要解決問(wèn)題可能還有不同的解決方案,有很多試錯(cuò)成本,探索也會(huì)有時(shí)間成本,而在當(dāng)前這個(gè)階段,時(shí)間是最重要的。
處理過(guò)抖音和TikTok這些全球范圍內(nèi)最大的短視頻平臺(tái)的多種問(wèn)題后,我們具備了多種能力,像多模態(tài)之間的對(duì)齊、更有效的視頻表征、 多模態(tài)的表征,如何對(duì)視頻的時(shí)空進(jìn)行建模、如何在有限資源情況下把算法做到極致等。這些就是過(guò)去我們一直在做的事情。
做視覺(jué)大模型,本身就不是一個(gè)單點(diǎn),一個(gè)算法,一個(gè) paper 就能搞定的,它是一個(gè)系統(tǒng)工程。我們團(tuán)隊(duì)的核心的成員,處理過(guò)全球最大短視頻產(chǎn)品的每天數(shù)以?xún)|計(jì)的視頻數(shù)據(jù),用視頻AI解決過(guò)抖音TikTok背后無(wú)數(shù)難題,解決過(guò)這些國(guó)民級(jí)產(chǎn)品背后成百上千個(gè)服務(wù)、數(shù)萬(wàn)個(gè)GPU的工程問(wèn)題。而這些能力很多都是做AI視頻生成大模型的基礎(chǔ)。
AI 科技評(píng)論:愛(ài)詩(shī)科技團(tuán)隊(duì)脫胎于國(guó)內(nèi)頂尖的視覺(jué)團(tuán)隊(duì),和過(guò)去相比有哪些進(jìn)步之處?
王長(zhǎng)虎:創(chuàng)業(yè)和在大公司做事是不一樣的,最大的不同,是創(chuàng)業(yè)公司初期資源特別有限,沒(méi)有那么多試錯(cuò)機(jī)會(huì)。而在字節(jié),我們有機(jī)會(huì)從 0 到 1 把事情做成,踩過(guò)很多坑,積累了很多經(jīng)驗(yàn)和能力,這些經(jīng)驗(yàn)和能力對(duì)于初創(chuàng)公司至關(guān)重要。
我們認(rèn)為現(xiàn)在做的事情其實(shí)是一件更大的事情。我個(gè)人經(jīng)歷過(guò)好多時(shí)代,從零幾年那個(gè)時(shí)候的搜索時(shí)代,到之后的深度學(xué)習(xí)的時(shí)代,后來(lái)進(jìn)到字節(jié)之后的UGC 時(shí)代。UGC時(shí)代用戶(hù)生產(chǎn)內(nèi)容的效率比PGC的效率更高,涉及的范圍也更廣,也帶來(lái)了更大的商業(yè)化機(jī)會(huì),抖音、快手等短視頻平臺(tái)應(yīng)運(yùn)而生。
現(xiàn)在的不同之處在于,我們做的是 AI ,它生產(chǎn)內(nèi)容的效率會(huì)更高。可以預(yù)見(jiàn) ,AI 生成視頻很快就會(huì)進(jìn)入快車(chē)道,當(dāng)生成視頻的質(zhì)量足夠好、效率足夠高,那肯定會(huì)再開(kāi)啟一個(gè)新的時(shí)代,那這個(gè)時(shí)代就有巨大的機(jī)會(huì)?,F(xiàn)在很多革命性的產(chǎn)品過(guò)去都是人們所想象不到的, 放在AI視頻這個(gè)賽道上也是同樣的。
對(duì)我們來(lái)說(shuō),這個(gè)時(shí)代會(huì)更加考驗(yàn)我們的創(chuàng)造力 ,不管是模型層面的,還是產(chǎn)品、應(yīng)用層面的。 AI 時(shí)代的這些人,也要像 AI 一樣更快的進(jìn)化,團(tuán)隊(duì)中的每一個(gè)成員都在快速地成長(zhǎng)。
AI 科技評(píng)論:現(xiàn)在來(lái)看,AI視頻生成產(chǎn)品正火爆,如何看待這一現(xiàn)象?
王長(zhǎng)虎:做AI視頻生成,就像在做一個(gè)AI攝像機(jī),但它不需要攝像頭這種硬件,不需要再去動(dòng)畫(huà)工作室里面去創(chuàng)作,而是用AI直接生成視頻內(nèi)容。 越來(lái)越多的人去做這樣一個(gè)AI攝像機(jī),我覺(jué)得這是好事,可以快速能推動(dòng)這個(gè)技術(shù)的成熟。其實(shí)更重要的是,一旦AI攝像機(jī)做成熟之后,背后帶來(lái)的新的、更大的機(jī)會(huì)。
回過(guò)頭去看移動(dòng)互聯(lián)網(wǎng)時(shí)代,手機(jī)攝像頭越來(lái)越小,這種技術(shù)成熟之后催生了抖音、快手,極大地改變了人們的生活方式。我們目前具備最強(qiáng)的視頻生成能力,同時(shí)也期望抓住AI 視頻生成帶來(lái)的更大的機(jī)會(huì),所以,我們也特別歡迎同行能夠發(fā)展越來(lái)越快,一起促進(jìn)行業(yè)進(jìn)步。
AI 科技評(píng)論:當(dāng)下市場(chǎng)上不同的 AI 視頻生成產(chǎn)品有什么差異?
王長(zhǎng)虎:每個(gè)公司都有自己的認(rèn)知,也有自己的基因。像Runway 生成的視頻,雖然有時(shí)候主體會(huì)動(dòng)不起來(lái),但看起來(lái)很有大片的即視感,這跟早期服務(wù)于很多專(zhuān)業(yè)創(chuàng)作者,跟服務(wù)于電影行業(yè)有關(guān)。而我們的基因是伴隨著抖音和TikTok成長(zhǎng),我們希望服務(wù)于每天玩抖音和TikTok的普通用戶(hù)。
所以,看似都是在做AI視頻生成,都是在做「攝像機(jī)」,但背后想要的東西不同,服務(wù)的用戶(hù)不同,然后產(chǎn)品化方向不同,這導(dǎo)致你在做的相機(jī)也會(huì)有區(qū)別。有人想做手機(jī)端上的相機(jī),這就要求你一定要做得非常非常小,而有的人是在做單反。
AI 科技評(píng)論:未來(lái), AI 視頻生成前進(jìn)的方向是什么?
王長(zhǎng)虎:我們期待有一天能做到實(shí)時(shí)的內(nèi)容生成,可能現(xiàn)在我們生成一個(gè)視頻要幾十秒,未來(lái)的話(huà)希望能實(shí)時(shí)生成,這有可能徹底顛覆人們生產(chǎn)和消費(fèi)視頻的模式。
現(xiàn)在我們跟視頻的交流是單向傳遞信息,不管是在電影院還是在網(wǎng)上看劇,不同人看到的都是同一個(gè)電影、同一個(gè)劇情。但如果能實(shí)現(xiàn)實(shí)時(shí)生成,意味著每個(gè)人在消費(fèi)視頻的時(shí)候,都可以去影響里面的人物、劇情。AI 生成能力使得內(nèi)容能夠根據(jù)用戶(hù)的交互,去自適應(yīng)地改變內(nèi)容。秒級(jí)的生成意味著它就會(huì)實(shí)時(shí)對(duì)用戶(hù)的需求進(jìn)行反饋,所以每個(gè)人看到的東西可能是不同的,消費(fèi)的同時(shí)就在創(chuàng)造。
同時(shí)視頻本身,也可以知道每個(gè)人的喜好,他可以對(duì)每個(gè)人交互定制化地演繹劇情,因此一個(gè)視頻里面就擁有千萬(wàn)個(gè)甚至數(shù)以?xún)|計(jì)的不同的劇情,它自己也可以進(jìn)化了。那個(gè)時(shí)候視頻的生產(chǎn)和消費(fèi)的方式就會(huì)是顛覆性的,視頻本身是也會(huì)迎來(lái)一個(gè)巨大的迭代,極大釋放創(chuàng)造力,視頻本身會(huì)有很多產(chǎn)品化的機(jī)會(huì)。
AI 科技評(píng)論:要想達(dá)到實(shí)時(shí)生成,需要具備什么樣的條件?
王長(zhǎng)虎:一是,生成的內(nèi)容要反映用戶(hù)的意圖,生成東西是準(zhǔn)確的;
二是,生成的內(nèi)容一定要是逼真的,這里面的運(yùn)動(dòng)要復(fù)合物理規(guī)律,我們期待有一天生成的東西和真實(shí)的東西是很難去區(qū)分的;
三是,生成的內(nèi)容要足夠豐富,真的能夠吸引人,當(dāng)前產(chǎn)品的表現(xiàn)度都是不夠的;
四是,要讓用戶(hù)低成本控制視頻的生成;
五是,要實(shí)現(xiàn)高效地快速生成。
這幾個(gè)其實(shí)不僅僅是算法、工程問(wèn)題,在本質(zhì)上是一個(gè)資源有限的情況下如何高效解決問(wèn)題的思考和實(shí)踐,這也是我們團(tuán)隊(duì)很大的優(yōu)勢(shì) 。
AI 科技評(píng)論:AI 視頻生成將會(huì)給當(dāng)下的社會(huì)帶來(lái)哪些可預(yù)見(jiàn)的變化?
王長(zhǎng)虎:AI 視頻生成從本質(zhì)上來(lái)講可以極大地降低人們?nèi)?chuàng)作視頻的時(shí)間的成本,并且各行各業(yè)也是有這樣的視頻生成的需求的。
同時(shí),它有機(jī)會(huì)去改變?cè)械膬?nèi)容生成模式,顛覆之前的工作流。比如在影視創(chuàng)作的領(lǐng)域,有很多鏡頭演員拍攝的成本高、難度大、且具有一定的危險(xiǎn)性,或者在廣告領(lǐng)域,有一些天馬行空的視頻,也是可以用 AI 去生成的,有很大的存量市場(chǎng),帶來(lái)顯著的降本增效。
此外,短視頻的興起雖然大大降低了內(nèi)容創(chuàng)作的門(mén)檻,但實(shí)際上,能夠真正輸出優(yōu)質(zhì)內(nèi)容的用戶(hù)占比并不多,其中的門(mén)檻不在于拍攝,而在于創(chuàng)意。 AI 視頻生成如果降低創(chuàng)意的門(mén)檻,幫助用戶(hù)將靈感快速可視化、內(nèi)容化,這也是一件非常有意義的事情。
AI 科技評(píng)論:基于 AI 視頻生成會(huì)有哪些想象的空間,從業(yè)者應(yīng)該如何做?
王長(zhǎng)虎:當(dāng) AI 生成視頻能夠做到理解度高、時(shí)效性高的時(shí)候,比如用戶(hù)說(shuō)什么東西一下子就能生成了,并且沒(méi)有任何門(mén)檻,且也能很方便地通過(guò)人工智能對(duì)內(nèi)容不斷修正和完善,這個(gè)時(shí)候才會(huì)有更多的用戶(hù)進(jìn)來(lái),創(chuàng)造巨大的市場(chǎng)。可以預(yù)見(jiàn)的是,高質(zhì)量 AI 原生內(nèi)容的涌現(xiàn),將會(huì)媲美甚至超越過(guò)去短視頻帶來(lái)的變革。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
我們現(xiàn)在看到了這個(gè)機(jī)會(huì),第一時(shí)間去錘煉自己的技能,當(dāng)風(fēng)口真正爆發(fā)的時(shí)候,我們才有機(jī)會(huì)去觸摸到背后的本質(zhì)。
未來(lái)是我們還是想希望能夠建設(shè) AI native 的視頻平臺(tái),服務(wù)廣泛的視頻創(chuàng)作者和消費(fèi)者。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。