半年打造出國(guó)產(chǎn) AI 視頻生成利器，字節(jié)前視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎交出答卷

本文作者：王悅

2024-03-13 16:38

導(dǎo)語(yǔ)：二十年磨一劍，王長(zhǎng)虎新創(chuàng)愛(ài)詩(shī)科技成為 AIGC 產(chǎn)業(yè)新星。

2023 年 4 月，王長(zhǎng)虎加入了AIGC創(chuàng)業(yè)大軍成立了愛(ài)詩(shī)科技。

在此之前，畢業(yè)于中科大的王長(zhǎng)虎有著 13 年的微軟研究院工作經(jīng)歷。2017 年加入字節(jié)跳動(dòng)，在職期間組建了字節(jié) AI Lab 視覺(jué)技術(shù)團(tuán)隊(duì)，擔(dān)任集團(tuán)視覺(jué)技術(shù)負(fù)責(zé)人，參與抖音和 TikTok 等產(chǎn)品從 0 到 1 的發(fā)展、搭建字節(jié)跳動(dòng)視覺(jué)算法平臺(tái)和業(yè)務(wù)中臺(tái)、主導(dǎo)字節(jié)跳動(dòng)視覺(jué)大模型從 0 到 1 的建設(shè)。

23年之前，他雖然也考慮過(guò)創(chuàng)業(yè)，但時(shí)機(jī)尚不成熟，生成式AI技術(shù)的進(jìn)步還不足以對(duì)社會(huì)產(chǎn)生顛覆性影響，直到 Stable Diffusion、ChatGPT的出現(xiàn)，王長(zhǎng)虎就意識(shí)到新的AI時(shí)代到來(lái)了—— 因?yàn)?nbsp;C 端的用戶(hù)數(shù)說(shuō)明了一切，ChatGPT兩個(gè)月就達(dá)到一億月活，超過(guò)了TikTok的記錄?！高@次創(chuàng)業(yè)是受時(shí)代和內(nèi)心的雙重感召，此刻就是最佳的時(shí)機(jī)?！?/p>

在 2023 年上半年國(guó)內(nèi)市場(chǎng)瘋狂卷大語(yǔ)言模型的背景下，王長(zhǎng)虎堅(jiān)信無(wú)論是過(guò)去、現(xiàn)在、未來(lái)，視頻都是最重要的內(nèi)容，AI視頻生成如果能夠做好，一定會(huì)從根本上改變?nèi)藗儎?chuàng)作和消費(fèi)視頻的范式，是個(gè)真正的大機(jī)會(huì)。因此，王長(zhǎng)虎繞開(kāi)了NLP大模型這個(gè)最火的創(chuàng)業(yè)領(lǐng)域，做自己熟悉、感興趣的視覺(jué)大模型。

4 月，王長(zhǎng)虎找到現(xiàn)在的合伙人、之前在光源資本TMT/AI方向負(fù)責(zé)人謝旭璋，并拿到超過(guò)五千萬(wàn)的天使輪融資，隨即宣布成立了新公司「愛(ài)詩(shī)科技」（AIsphere）。6 月，數(shù)名核心人員就位，明確了做視頻生成的方向，7月便開(kāi)始訓(xùn)練大模型。

接下來(lái)半年的時(shí)間里，愛(ài)詩(shī)科技處于從0到1的攻堅(jiān)期，并沒(méi)有什么大動(dòng)作，很少出現(xiàn)在公眾的視野中。

直到 2024 年初，在海外一款名為 PixVerse 的 AI 視頻生成產(chǎn)品短時(shí)間內(nèi)獲得海外用戶(hù)的高度評(píng)價(jià)，并有許多優(yōu)秀海外創(chuàng)作者自發(fā)使用PixVerse創(chuàng)作出了高質(zhì)量、高熱度的“大片”。

AI影視探索者閑人一坤用 PixVerse 制作《山海奇鏡》，自1月初發(fā)布后在全網(wǎng)達(dá)到近百萬(wàn)的播放量。

AI科技評(píng)論獲悉：PixVerse 是 AIsphere（愛(ài)詩(shī)科技）旗下的海外AI視頻生成產(chǎn)品，現(xiàn)已在國(guó)外社區(qū)上線(xiàn)，國(guó)內(nèi)產(chǎn)品也即將上線(xiàn)。

AIGC 風(fēng)起云涌，AI視頻生成追夢(mèng)者不斷，王長(zhǎng)虎就是其中之一。

在他看來(lái)，盡管生成式AI時(shí)代已經(jīng)到來(lái)，但新時(shí)代孕育的機(jī)會(huì)不僅是眼前所能見(jiàn)到和可預(yù)期的，技術(shù)端和用戶(hù)端的共同探索將會(huì)帶來(lái)更大的機(jī)會(huì)和顛覆性改變。

不輸 Pika 的 AI 視頻生成效果

2023 年下半年，AI 視頻生成領(lǐng)域「如火如荼」。

Runway 推出了動(dòng)態(tài)筆刷新功能 Motion Brush，用戶(hù)只需在圖片上輕輕一劃，即可將其轉(zhuǎn)化為動(dòng)態(tài)視頻；

Stability AI 發(fā)布了 Stable Video Diffusion 視頻模型，創(chuàng)作者可根據(jù)需要調(diào)整迭代步數(shù)、重繪幅度等各種參數(shù)，以協(xié)助創(chuàng)作者精確掌控畫(huà)面生成過(guò)程；

除此之外， Meta 推出了兩項(xiàng) AI 視頻編輯新功能，Midjourney 也正在著手開(kāi)發(fā)視頻功能；而在開(kāi)源方面，AnimateDiff、MAKEAVIDEO、MagicAnimate 等也在布局 AI 視頻生成賽道。

其中，最出圈的非 Pika 莫屬。Pika 1.0 官方宣傳視頻中，諸多用戶(hù)用「驚艷」來(lái)形容其效果，更有“AI 生成視頻的 ChatGPT 時(shí)刻即將達(dá)來(lái)”的說(shuō)法。

但其實(shí)， Pika 創(chuàng)始人孟晨琳曾表示，目前 AI 視頻生成產(chǎn)品處于類(lèi)似 GPT-2 的時(shí)期。

事實(shí)也是如此，AI 視頻生成最大的劣勢(shì)，是畫(huà)面的豐富度不夠 —— 在生成的視頻中，更多只能呈現(xiàn)嘴部或局部動(dòng)作，很難整體動(dòng)起來(lái)，這也是各家產(chǎn)品嘗試解決的問(wèn)題。

AI科技評(píng)論用同樣的Prompt輸入目前幾款主流產(chǎn)品，嘗試獲得直觀對(duì)比。

從結(jié)果上看，愛(ài)詩(shī)科技生成的視頻不僅扎克伯格的形象更加精準(zhǔn)，動(dòng)作也相對(duì)協(xié)調(diào)，并且可以人物走起來(lái)，畫(huà)面的延伸程度較高。

王長(zhǎng)虎表示，愛(ài)詩(shī)科技希望未來(lái)能夠做到在 15 秒時(shí)長(zhǎng)內(nèi)的視頻中呈現(xiàn)更多的信息量，而非只是讓畫(huà)面主體輕微晃動(dòng)3秒、5秒，讓視頻承載更多有意義的信息，并符合用戶(hù)的期待才是核心的。

并且，清晰度、準(zhǔn)確性等維度也是愛(ài)詩(shī)科技主要的發(fā)力點(diǎn)，現(xiàn)可以達(dá)到 4K 的分辨率。

視頻中，貓?朵?的運(yùn)動(dòng)被清晰地體現(xiàn)出來(lái)，同時(shí)貓墨鏡中的反射畫(huà)面也隨著動(dòng)作變化。

在這一視頻中，?臉的各個(gè)細(xì)節(jié)得到了還原，頭發(fā)絲也清晰可見(jiàn)。

愛(ài)詩(shī)科技認(rèn)為，做AI視頻生成產(chǎn)品，最重要的，是讓每個(gè)人的簡(jiǎn)單創(chuàng)意都能成為作品。

這也意味著，面對(duì)用戶(hù)五花八門(mén)的 prompt ，只有保持較高的魯棒性、穩(wěn)定輸出精準(zhǔn)畫(huà)面，才算是成功?；谶@樣的優(yōu)先級(jí)，自然而然會(huì)影響愛(ài)詩(shī)背后數(shù)據(jù)采集、模型訓(xùn)練、特定功能路線(xiàn)的選擇。

愛(ài)詩(shī)科技從7月開(kāi)始訓(xùn)練模型，經(jīng)過(guò)三四個(gè)月的打磨，產(chǎn)品效果已經(jīng)不輸同為「模型+應(yīng)用」模式的視頻生成產(chǎn)品 Runway 和 Pika 。

「我們想把整個(gè)行業(yè)的標(biāo)準(zhǔn)拉得更高一點(diǎn)。」王長(zhǎng)虎表示。

脫胎于頂尖視覺(jué)團(tuán)隊(duì)的技術(shù)能力

在AIGC時(shí)代，視覺(jué)內(nèi)容也依然會(huì)是最主要的消費(fèi)載體。

回顧過(guò)去，從 PGC 發(fā)展為 UGC 的過(guò)程中，誕生了抖音、快手等現(xiàn)象級(jí)的產(chǎn)品。而今走在從 UGC 跨越到AIGC的路上，勢(shì)必也會(huì)帶來(lái)大量的機(jī)會(huì)。

王長(zhǎng)虎認(rèn)為，UGC 到 AIGC，變的是U和AI，最主要的視覺(jué)難題不盡相同，但系統(tǒng)性地解決視覺(jué)問(wèn)題所需要的核心技術(shù)能力卻一脈相承。

以抖音為代表的短視頻產(chǎn)品舉例，其成功離不開(kāi)一系列視覺(jué)技術(shù)能力：對(duì)于短視頻特效精準(zhǔn)穩(wěn)定的高效生成、對(duì)海量視覺(jué)數(shù)據(jù)的精確清洗和標(biāo)注、對(duì)視頻的低延遲抽幀和安全檢查、對(duì)關(guān)鍵內(nèi)容近乎完美的準(zhǔn)確識(shí)別等。

這一系列技術(shù)支撐了短視頻成為 UGC 時(shí)代的核心媒介，并且成為解決 AIGC 時(shí)代視覺(jué)生成上準(zhǔn)確性、一致性、豐富度等難題的重要基石。

而這些，正是愛(ài)詩(shī)科技的優(yōu)勢(shì)之一 —— 擁有上一時(shí)代全球頂尖視覺(jué)技術(shù)能力的操盤(pán)經(jīng)驗(yàn)，沉淀下了硬核的技術(shù)能力，工程化能力也足夠強(qiáng)?！高@也是我們對(duì)于AI視頻生成這件事的信心來(lái)源?！雇蹰L(zhǎng)虎說(shuō)到。

在抖音、TikTok 這種數(shù)據(jù)量極大、用戶(hù)量極高的產(chǎn)品上，所遇到的每一個(gè)問(wèn)題都是「世界級(jí)」難題。過(guò)去和視頻相關(guān)的數(shù)據(jù)、算法、工程等方方面面問(wèn)題，愛(ài)詩(shī)的團(tuán)隊(duì)都遇到過(guò)，并且成功攻克，而這些經(jīng)驗(yàn)?zāi)芰梢栽谝欢ǔ潭壬现苯訌?fù)用。

現(xiàn)在來(lái)看，要想做一個(gè)好的 AI 視頻生成產(chǎn)品，需要下面有一個(gè)基座的、動(dòng)態(tài)的大模型，數(shù)據(jù)是其中重要的方面之一，但數(shù)據(jù)采集并不會(huì)構(gòu)成真正的壁壘，如何做好數(shù)據(jù)的清洗、篩選等數(shù)據(jù)處理能力更加重要。

并且，在資源有限的前提下，并不是所有數(shù)據(jù)都可以用。在強(qiáng)數(shù)據(jù)處理能力的加持下，愛(ài)詩(shī)科技會(huì)通過(guò) AI 能力自動(dòng)找到最優(yōu)質(zhì)的那一部分內(nèi)容，這部分可能只有競(jìng)品模型 1/ 10 的體量。如此一來(lái)，就有機(jī)會(huì)用更少的成本、更少的資源，更快地做出更好的模型。

同時(shí)，愛(ài)詩(shī)科技的核心團(tuán)隊(duì)曾經(jīng)用AI解決了抖音和TikTok這些國(guó)民級(jí)產(chǎn)品的內(nèi)容安全問(wèn)題，因此也能很大程度增強(qiáng)視頻生成的安全性。不管是用戶(hù)惡意引導(dǎo)生成的違規(guī)數(shù)據(jù)，還是大模型初期被灌進(jìn)的臟亂差數(shù)據(jù)，愛(ài)詩(shī)科技有能力在海量數(shù)據(jù)里面把這些內(nèi)容識(shí)別出來(lái)，降低對(duì)模型質(zhì)量的干擾程度。

除此之外，愛(ài)詩(shī)也關(guān)注視頻生成的可控性問(wèn)題，探索如何把運(yùn)動(dòng)的世界更好地建模，實(shí)現(xiàn)對(duì)運(yùn)動(dòng)中的人體和物體更精準(zhǔn)的控制等。

另一方面，初創(chuàng)科技企業(yè)算力有限，把有限的資源用到極致，提高效能以減少訓(xùn)練和推理的時(shí)間，就尤為關(guān)鍵 —— 這正是是愛(ài)詩(shī)團(tuán)隊(duì)從過(guò)去的經(jīng)驗(yàn)中打磨出的經(jīng)驗(yàn)和優(yōu)勢(shì)。

王長(zhǎng)虎告訴 AI 科技評(píng)論，在字節(jié)，面對(duì)像春節(jié)發(fā)紅包這樣一個(gè)時(shí)間點(diǎn)，流量可能是平常的數(shù)十倍甚至上百倍，需要在不添加額外資源的情況下確保服務(wù)器的穩(wěn)定、不能影響用戶(hù)的體驗(yàn)，這就需要極強(qiáng)的推理效率和工程架構(gòu)能力。

在字節(jié)期間，王長(zhǎng)虎帶領(lǐng)的團(tuán)隊(duì)支撐了抖音TikTok等數(shù)十個(gè)產(chǎn)品和場(chǎng)景的視頻AI能力。模型訓(xùn)練和推理需要巨大的GPU 資源，更重要的是如何用好這些算力，這其中包括模型增效、模型壓縮等技術(shù)都是至關(guān)重要的。哪怕1% 效率的提升，可能意味著節(jié)省數(shù)百塊GPU。因此，所有技術(shù)都需要做到極致。

映射在現(xiàn)在做視頻生成模型的事情上，這種能力能幫助愛(ài)詩(shī)團(tuán)隊(duì)用更少的資源做出更多的事。比如原來(lái)一個(gè)視頻生成可能要一分鐘，具備這一能力后就可以用更少的時(shí)間完成，這意味著它占用 GPU 的時(shí)間更短，如此一來(lái)，同樣的算力可以生成更多的視頻。

「視頻生成并不是像文生圖那樣堆資源和算力就行，在特定的時(shí)間內(nèi)，不僅關(guān)乎你的資源有多少，也考驗(yàn)資源受限下如何更好地建模、更好地解決問(wèn)題?！雇蹰L(zhǎng)虎認(rèn)為。

不同于LLM已經(jīng)相對(duì)明確的發(fā)展路徑，AI 視頻生成還停留在技術(shù)突破的階段。面對(duì)諸多的技術(shù)挑戰(zhàn)、更高的用戶(hù)期待，王長(zhǎng)虎表示這也是令?lèi)?ài)詩(shī)團(tuán)隊(duì)興奮的一個(gè)點(diǎn)，解決未來(lái)一個(gè)階段的問(wèn)題，視覺(jué)大模型會(huì)有更大、更快的爬坡階段。

對(duì)話(huà)王長(zhǎng)虎

AI 科技評(píng)論：在當(dāng)初創(chuàng)業(yè)的節(jié)點(diǎn)上，為什么選擇做視覺(jué)大模型？

王長(zhǎng)虎：我們開(kāi)始做這件事情的時(shí)候，整個(gè)市場(chǎng)還是很冷的，很多人會(huì)覺(jué)得視頻生成太遙遠(yuǎn)。但由于我們這個(gè)團(tuán)隊(duì)一直在做視頻，所以我們對(duì)視頻生成有一個(gè)自己的認(rèn)知——未來(lái)AI生成視頻會(huì)有一個(gè)快速的發(fā)展和爆發(fā)期。

過(guò)去這半年的發(fā)展其實(shí)是符合我們預(yù)期的，這幾個(gè)月，越來(lái)越多的目光關(guān)注到我們，越來(lái)越多的同行參與進(jìn)來(lái)，這印證了我們之前的判斷。

AI 科技評(píng)論：是什么促使你選擇做 AI 視頻生成？

王長(zhǎng)虎：首先，過(guò)去幾年我們是伴隨抖音TikTok這些國(guó)民級(jí)短視頻成長(zhǎng)起來(lái)的，我們對(duì)視頻有深刻認(rèn)知，視頻在過(guò)去、現(xiàn)在和未來(lái)，都是最重要的一類(lèi)內(nèi)容，會(huì)帶來(lái)巨大的機(jī)會(huì)?？赡苓^(guò)去幾年，并沒(méi)有產(chǎn)生很多圖片類(lèi)的國(guó)民級(jí)產(chǎn)品，但是視頻類(lèi)產(chǎn)品更多，也是耳熟能詳?shù)?。視頻承載的內(nèi)容更豐富，會(huì)帶來(lái)更多的產(chǎn)品想象力，所以我認(rèn)為做視頻是更大的機(jī)會(huì)。

其次，NLP大模型，有chatGPT在前，文生圖大模型，有midjourney在前，所以NLP大模型、文生圖，國(guó)內(nèi)更多是跟隨。而視頻領(lǐng)域，我們看UGC時(shí)代，最有影響力的視頻產(chǎn)品就是抖音和TikTok，是中國(guó)人做出來(lái)的，是領(lǐng)先全球的。因此，視頻生成領(lǐng)域，國(guó)內(nèi)當(dāng)然有機(jī)會(huì)比國(guó)外做的更好，抖音/TT背后的視頻AI技術(shù)，很多都是我?guī)е业膱F(tuán)隊(duì)做出來(lái)的，因此我們有天然的優(yōu)勢(shì)。并且，與NLP大模型和文生圖大模型不同，視頻生成還在發(fā)展初期，我們有做成全球最好的視頻生成模型的機(jī)會(huì)。

AI 科技評(píng)論：愛(ài)詩(shī)科技團(tuán)隊(duì)做AI視頻生成有什么優(yōu)勢(shì)？

王長(zhǎng)虎：從根本上來(lái)講，建設(shè)視頻大模型，數(shù)據(jù)、算法和工程能力缺一不可，都有很多問(wèn)題是需要解決。而我們?cè)诮ㄔO(shè)抖音和TikTok的視頻AI能力的時(shí)候，各種各樣的問(wèn)題都遇到過(guò)和解決過(guò)，踩過(guò)無(wú)數(shù)的坑，解決過(guò)無(wú)數(shù)的世界難題，我們這個(gè)團(tuán)隊(duì)具備這些能力。

而很多問(wèn)題，我們的同行過(guò)去不一定遇到過(guò)，要解決問(wèn)題可能還有不同的解決方案，有很多試錯(cuò)成本，探索也會(huì)有時(shí)間成本，而在當(dāng)前這個(gè)階段，時(shí)間是最重要的。

處理過(guò)抖音和TikTok這些全球范圍內(nèi)最大的短視頻平臺(tái)的多種問(wèn)題后，我們具備了多種能力，像多模態(tài)之間的對(duì)齊、更有效的視頻表征、多模態(tài)的表征，如何對(duì)視頻的時(shí)空進(jìn)行建模、如何在有限資源情況下把算法做到極致等。這些就是過(guò)去我們一直在做的事情。

做視覺(jué)大模型，本身就不是一個(gè)單點(diǎn)，一個(gè)算法，一個(gè) paper 就能搞定的，它是一個(gè)系統(tǒng)工程。我們團(tuán)隊(duì)的核心的成員，處理過(guò)全球最大短視頻產(chǎn)品的每天數(shù)以?xún)|計(jì)的視頻數(shù)據(jù)，用視頻AI解決過(guò)抖音TikTok背后無(wú)數(shù)難題，解決過(guò)這些國(guó)民級(jí)產(chǎn)品背后成百上千個(gè)服務(wù)、數(shù)萬(wàn)個(gè)GPU的工程問(wèn)題。而這些能力很多都是做AI視頻生成大模型的基礎(chǔ)。

AI 科技評(píng)論：愛(ài)詩(shī)科技團(tuán)隊(duì)脫胎于國(guó)內(nèi)頂尖的視覺(jué)團(tuán)隊(duì)，和過(guò)去相比有哪些進(jìn)步之處？

王長(zhǎng)虎：創(chuàng)業(yè)和在大公司做事是不一樣的，最大的不同，是創(chuàng)業(yè)公司初期資源特別有限，沒(méi)有那么多試錯(cuò)機(jī)會(huì)。而在字節(jié)，我們有機(jī)會(huì)從 0 到 1 把事情做成，踩過(guò)很多坑，積累了很多經(jīng)驗(yàn)和能力，這些經(jīng)驗(yàn)和能力對(duì)于初創(chuàng)公司至關(guān)重要。

我們認(rèn)為現(xiàn)在做的事情其實(shí)是一件更大的事情。我個(gè)人經(jīng)歷過(guò)好多時(shí)代，從零幾年那個(gè)時(shí)候的搜索時(shí)代，到之后的深度學(xué)習(xí)的時(shí)代，后來(lái)進(jìn)到字節(jié)之后的UGC 時(shí)代。UGC時(shí)代用戶(hù)生產(chǎn)內(nèi)容的效率比PGC的效率更高，涉及的范圍也更廣，也帶來(lái)了更大的商業(yè)化機(jī)會(huì)，抖音、快手等短視頻平臺(tái)應(yīng)運(yùn)而生。

現(xiàn)在的不同之處在于，我們做的是 AI ，它生產(chǎn)內(nèi)容的效率會(huì)更高。可以預(yù)見(jiàn) ，AI 生成視頻很快就會(huì)進(jìn)入快車(chē)道，當(dāng)生成視頻的質(zhì)量足夠好、效率足夠高，那肯定會(huì)再開(kāi)啟一個(gè)新的時(shí)代，那這個(gè)時(shí)代就有巨大的機(jī)會(huì)?，F(xiàn)在很多革命性的產(chǎn)品過(guò)去都是人們所想象不到的，放在AI視頻這個(gè)賽道上也是同樣的。

對(duì)我們來(lái)說(shuō)，這個(gè)時(shí)代會(huì)更加考驗(yàn)我們的創(chuàng)造力，不管是模型層面的，還是產(chǎn)品、應(yīng)用層面的。 AI 時(shí)代的這些人，也要像 AI 一樣更快的進(jìn)化，團(tuán)隊(duì)中的每一個(gè)成員都在快速地成長(zhǎng)。

AI 科技評(píng)論：現(xiàn)在來(lái)看，AI視頻生成產(chǎn)品正火爆，如何看待這一現(xiàn)象？

王長(zhǎng)虎：做AI視頻生成，就像在做一個(gè)AI攝像機(jī)，但它不需要攝像頭這種硬件，不需要再去動(dòng)畫(huà)工作室里面去創(chuàng)作，而是用AI直接生成視頻內(nèi)容。越來(lái)越多的人去做這樣一個(gè)AI攝像機(jī)，我覺(jué)得這是好事，可以快速能推動(dòng)這個(gè)技術(shù)的成熟。其實(shí)更重要的是，一旦AI攝像機(jī)做成熟之后，背后帶來(lái)的新的、更大的機(jī)會(huì)。

回過(guò)頭去看移動(dòng)互聯(lián)網(wǎng)時(shí)代，手機(jī)攝像頭越來(lái)越小，這種技術(shù)成熟之后催生了抖音、快手，極大地改變了人們的生活方式。我們目前具備最強(qiáng)的視頻生成能力，同時(shí)也期望抓住AI 視頻生成帶來(lái)的更大的機(jī)會(huì)，所以，我們也特別歡迎同行能夠發(fā)展越來(lái)越快，一起促進(jìn)行業(yè)進(jìn)步。

AI 科技評(píng)論：當(dāng)下市場(chǎng)上不同的 AI 視頻生成產(chǎn)品有什么差異？

王長(zhǎng)虎：每個(gè)公司都有自己的認(rèn)知，也有自己的基因。像Runway 生成的視頻，雖然有時(shí)候主體會(huì)動(dòng)不起來(lái)，但看起來(lái)很有大片的即視感，這跟早期服務(wù)于很多專(zhuān)業(yè)創(chuàng)作者，跟服務(wù)于電影行業(yè)有關(guān)。而我們的基因是伴隨著抖音和TikTok成長(zhǎng)，我們希望服務(wù)于每天玩抖音和TikTok的普通用戶(hù)。

所以，看似都是在做AI視頻生成，都是在做「攝像機(jī)」，但背后想要的東西不同，服務(wù)的用戶(hù)不同，然后產(chǎn)品化方向不同，這導(dǎo)致你在做的相機(jī)也會(huì)有區(qū)別。有人想做手機(jī)端上的相機(jī)，這就要求你一定要做得非常非常小，而有的人是在做單反。

AI 科技評(píng)論：未來(lái)， AI 視頻生成前進(jìn)的方向是什么？

王長(zhǎng)虎：我們期待有一天能做到實(shí)時(shí)的內(nèi)容生成，可能現(xiàn)在我們生成一個(gè)視頻要幾十秒，未來(lái)的話(huà)希望能實(shí)時(shí)生成，這有可能徹底顛覆人們生產(chǎn)和消費(fèi)視頻的模式。

現(xiàn)在我們跟視頻的交流是單向傳遞信息，不管是在電影院還是在網(wǎng)上看劇，不同人看到的都是同一個(gè)電影、同一個(gè)劇情。但如果能實(shí)現(xiàn)實(shí)時(shí)生成，意味著每個(gè)人在消費(fèi)視頻的時(shí)候，都可以去影響里面的人物、劇情。AI 生成能力使得內(nèi)容能夠根據(jù)用戶(hù)的交互，去自適應(yīng)地改變內(nèi)容。秒級(jí)的生成意味著它就會(huì)實(shí)時(shí)對(duì)用戶(hù)的需求進(jìn)行反饋，所以每個(gè)人看到的東西可能是不同的，消費(fèi)的同時(shí)就在創(chuàng)造。

同時(shí)視頻本身，也可以知道每個(gè)人的喜好，他可以對(duì)每個(gè)人交互定制化地演繹劇情，因此一個(gè)視頻里面就擁有千萬(wàn)個(gè)甚至數(shù)以?xún)|計(jì)的不同的劇情，它自己也可以進(jìn)化了。那個(gè)時(shí)候視頻的生產(chǎn)和消費(fèi)的方式就會(huì)是顛覆性的，視頻本身是也會(huì)迎來(lái)一個(gè)巨大的迭代，極大釋放創(chuàng)造力，視頻本身會(huì)有很多產(chǎn)品化的機(jī)會(huì)。

AI 科技評(píng)論：要想達(dá)到實(shí)時(shí)生成，需要具備什么樣的條件？

王長(zhǎng)虎：一是，生成的內(nèi)容要反映用戶(hù)的意圖，生成東西是準(zhǔn)確的；

二是，生成的內(nèi)容一定要是逼真的，這里面的運(yùn)動(dòng)要復(fù)合物理規(guī)律，我們期待有一天生成的東西和真實(shí)的東西是很難去區(qū)分的；

三是，生成的內(nèi)容要足夠豐富，真的能夠吸引人，當(dāng)前產(chǎn)品的表現(xiàn)度都是不夠的；

四是，要讓用戶(hù)低成本控制視頻的生成；

五是，要實(shí)現(xiàn)高效地快速生成。

這幾個(gè)其實(shí)不僅僅是算法、工程問(wèn)題，在本質(zhì)上是一個(gè)資源有限的情況下如何高效解決問(wèn)題的思考和實(shí)踐，這也是我們團(tuán)隊(duì)很大的優(yōu)勢(shì) 。

AI 科技評(píng)論：AI 視頻生成將會(huì)給當(dāng)下的社會(huì)帶來(lái)哪些可預(yù)見(jiàn)的變化？

王長(zhǎng)虎：AI 視頻生成從本質(zhì)上來(lái)講可以極大地降低人們?nèi)?chuàng)作視頻的時(shí)間的成本，并且各行各業(yè)也是有這樣的視頻生成的需求的。

同時(shí)，它有機(jī)會(huì)去改變?cè)械膬?nèi)容生成模式，顛覆之前的工作流。比如在影視創(chuàng)作的領(lǐng)域，有很多鏡頭演員拍攝的成本高、難度大、且具有一定的危險(xiǎn)性，或者在廣告領(lǐng)域，有一些天馬行空的視頻，也是可以用 AI 去生成的，有很大的存量市場(chǎng)，帶來(lái)顯著的降本增效。

此外，短視頻的興起雖然大大降低了內(nèi)容創(chuàng)作的門(mén)檻，但實(shí)際上，能夠真正輸出優(yōu)質(zhì)內(nèi)容的用戶(hù)占比并不多，其中的門(mén)檻不在于拍攝，而在于創(chuàng)意。 AI 視頻生成如果降低創(chuàng)意的門(mén)檻，幫助用戶(hù)將靈感快速可視化、內(nèi)容化，這也是一件非常有意義的事情。

AI 科技評(píng)論：基于 AI 視頻生成會(huì)有哪些想象的空間，從業(yè)者應(yīng)該如何做？

王長(zhǎng)虎：當(dāng) AI 生成視頻能夠做到理解度高、時(shí)效性高的時(shí)候，比如用戶(hù)說(shuō)什么東西一下子就能生成了，并且沒(méi)有任何門(mén)檻，且也能很方便地通過(guò)人工智能對(duì)內(nèi)容不斷修正和完善，這個(gè)時(shí)候才會(huì)有更多的用戶(hù)進(jìn)來(lái)，創(chuàng)造巨大的市場(chǎng)。可以預(yù)見(jiàn)的是，高質(zhì)量 AI 原生內(nèi)容的涌現(xiàn)，將會(huì)媲美甚至超越過(guò)去短視頻帶來(lái)的變革。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)

我們現(xiàn)在看到了這個(gè)機(jī)會(huì)，第一時(shí)間去錘煉自己的技能，當(dāng)風(fēng)口真正爆發(fā)的時(shí)候，我們才有機(jī)會(huì)去觸摸到背后的本質(zhì)。

未來(lái)是我們還是想希望能夠建設(shè) AI native 的視頻平臺(tái)，服務(wù)廣泛的視頻創(chuàng)作者和消費(fèi)者。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門(mén)文章