0
本文作者: 王悅 | 2024-03-13 16:38 |
2023 年 4 月,王長虎加入了AIGC創(chuàng)業(yè)大軍成立了愛詩科技。
在此之前,畢業(yè)于中科大的王長虎有著 13 年的微軟研究院工作經(jīng)歷。2017 年加入字節(jié)跳動,在職期間組建了字節(jié) AI Lab 視覺技術(shù)團隊,擔(dān)任集團視覺技術(shù)負責(zé)人,參與抖音和 TikTok 等產(chǎn)品從 0 到 1 的發(fā)展、搭建字節(jié)跳動視覺算法平臺和業(yè)務(wù)中臺、主導(dǎo)字節(jié)跳動視覺大模型從 0 到 1 的建設(shè)。
23年之前,他雖然也考慮過創(chuàng)業(yè),但時機尚不成熟,生成式AI技術(shù)的進步還不足以對社會產(chǎn)生顛覆性影響,直到 Stable Diffusion、ChatGPT的 出現(xiàn),王長虎就意識到新的AI時代到來了—— 因為 C 端的用戶數(shù)說明了一切,ChatGPT兩個月就達到一億月活,超過了TikTok的記錄?!高@次創(chuàng)業(yè)是受時代和內(nèi)心的雙重感召,此刻就是最佳的時機?!?/p>
在 2023 年上半年國內(nèi)市場瘋狂卷大語言模型的背景下,王長虎堅信無論是過去、現(xiàn)在、未來,視頻都是最重要的內(nèi)容,AI視頻生成如果能夠做好,一定會從根本上改變?nèi)藗儎?chuàng)作和消費視頻的范式,是個真正的大機會。因此,王長虎繞開了NLP大模型這個最火的創(chuàng)業(yè)領(lǐng)域,做自己熟悉、感興趣的視覺大模型。
4 月,王長虎找到現(xiàn)在的合伙人、之前在光源資本TMT/AI方向負責(zé)人謝旭璋,并拿到超過五千萬的天使輪融資,隨即宣布成立了新公司「愛詩科技」(AIsphere)。6 月,數(shù)名核心人員就位,明確了做視頻生成的方向,7月便開始訓(xùn)練大模型。
接下來半年的時間里,愛詩科技處于從0到1的攻堅期,并沒有什么大動作,很少出現(xiàn)在公眾的視野中。
直到 2024 年初,在海外一款名為 PixVerse 的 AI 視頻生成產(chǎn)品短時間內(nèi)獲得海外用戶的高度評價,并有許多優(yōu)秀海外創(chuàng)作者自發(fā)使用PixVerse創(chuàng)作出了高質(zhì)量、高熱度的“大片”。
AI影視探索者閑人一坤用 PixVerse 制作《山海奇鏡》,自1月初發(fā)布后在全網(wǎng)達到 近百萬的播放量。
AI科技評論獲悉:PixVerse 是 AIsphere(愛詩科技)旗下的海外AI視頻生成產(chǎn)品,現(xiàn)已在國外社區(qū)上線,國內(nèi)產(chǎn)品也即將上線。
AIGC 風(fēng)起云涌,AI視頻生成追夢者不斷,王長虎就是其中之一。
在他看來,盡管生成式AI時代已經(jīng)到來,但新時代孕育的機會不僅是眼前所能見到和可預(yù)期的,技術(shù)端和用戶端的共同探索將會帶來更大的機會和顛覆性改變。
不輸 Pika 的 AI 視頻生成效果
2023 年下半年,AI 視頻生成領(lǐng)域「如火如荼」。
Runway 推出了動態(tài)筆刷新功能 Motion Brush,用戶只需在圖片上輕輕一劃,即可將其轉(zhuǎn)化為動態(tài)視頻;
Stability AI 發(fā)布了 Stable Video Diffusion 視頻模型,創(chuàng)作者可根據(jù)需要調(diào)整迭代步數(shù)、重繪幅度等各種參數(shù),以協(xié)助創(chuàng)作者精確掌控畫面生成過程;
除此之外, Meta 推出了兩項 AI 視頻編輯新功能,Midjourney 也正在著手開發(fā)視頻功能;而在開源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate 等也在布局 AI 視頻生成賽道。
其中,最出圈的非 Pika 莫屬。Pika 1.0 官方宣傳視頻中,諸多用戶用「驚艷」來形容其效果,更有“AI 生成視頻的 ChatGPT 時刻即將達來”的說法。
但其實, Pika 創(chuàng)始人孟晨琳曾表示,目前 AI 視頻生成產(chǎn)品處于類似 GPT-2 的時期。
事實也是如此,AI 視頻生成最大的劣勢,是畫面的豐富度不夠 —— 在生成的視頻中,更多只能呈現(xiàn)嘴部或局部動作,很難整體動起來,這也是各家產(chǎn)品嘗試解決的問題。
AI科技評論用同樣的Prompt輸入目前幾款主流產(chǎn)品,嘗試獲得直觀對比。
從結(jié)果上看,愛詩科技生成的視頻不僅扎克伯格的形象更加精準(zhǔn),動作也相對協(xié)調(diào),并且可以人物走起來,畫面的延伸程度較高。
王長虎表示,愛詩科技希望未來能夠做到在 15 秒時長內(nèi)的視頻中呈現(xiàn)更多的信息量,而非只是讓畫面主體輕微晃動3秒、5秒,讓視頻承載更多有意義的信息,并符合用戶的期待才是核心的。
并且,清晰度、準(zhǔn)確性等維度也是愛詩科技主要的發(fā)力點,現(xiàn)可以達到 4K 的分辨率。
視頻中,貓?朵?的運動被清晰地體現(xiàn)出來,同時貓墨鏡中的反射畫面也隨著動作變化。
在這一視頻中,?臉的各個細節(jié)得到了還原,頭發(fā)絲也清晰可見。
愛詩科技認為,做AI視頻生成產(chǎn)品,最重要的,是讓每個人的簡單創(chuàng)意都能成為作品。
這也意味著,面對用戶五花八門的 prompt ,只有保持較高的魯棒性、穩(wěn)定輸出精準(zhǔn)畫面,才算是成功?;谶@樣的優(yōu)先級,自然而然會影響愛詩背后數(shù)據(jù)采集、模型訓(xùn)練、特定功能路線的選擇。
愛詩科技從7月開始訓(xùn)練模型,經(jīng)過三四個月的打磨,產(chǎn)品效果已經(jīng)不輸同為「模型+應(yīng)用」模式的視頻生成產(chǎn)品 Runway 和 Pika 。
「我們想把整個行業(yè)的標(biāo)準(zhǔn)拉得更高一點?!雇蹰L虎表示。
脫胎于頂尖視覺團隊的技術(shù)能力
在AIGC時代,視覺內(nèi)容也依然會是最主要的消費載體。
回顧過去,從 PGC 發(fā)展為 UGC 的過程中,誕生了抖音、快手等現(xiàn)象級的產(chǎn)品。而今走在從 UGC 跨越到AIGC的路上,勢必也會帶來大量的機會。
王長虎認為,UGC 到 AIGC,變的是U和AI,最主要的視覺難題不盡相同,但系統(tǒng)性地解決視覺問題所需要的核心技術(shù)能力卻一脈相承。
以抖音為代表的短視頻產(chǎn)品舉例,其成功離不開一系列視覺技術(shù)能力:對于短視頻特效精準(zhǔn)穩(wěn)定的高效生成、對海量視覺數(shù)據(jù)的精確清洗和標(biāo)注、對視頻的低延遲抽幀和安全檢查、對關(guān)鍵內(nèi)容近乎完美的準(zhǔn)確識別等。
這一系列技術(shù)支撐了短視頻成為 UGC 時代的核心媒介,并且成為解決 AIGC 時代視覺生成上準(zhǔn)確性、一致性、豐富度等難題的重要基石。
而這些, 正是愛詩科技的優(yōu)勢之一 —— 擁有上一時代全球頂尖視覺技術(shù)能力的操盤經(jīng)驗,沉淀下了硬核的技術(shù)能力,工程化能力也足夠強?!高@也是我們對于AI視頻生成這件事的信心來源?!雇蹰L虎說到。
在抖音、TikTok 這種數(shù)據(jù)量極大、用戶量極高的產(chǎn)品上,所遇到的每一個問題都是「世界級」難題。過去和視頻相關(guān)的數(shù)據(jù)、算法、工程等方方面面問題,愛詩的團隊都遇到過,并且成功攻克,而這些經(jīng)驗?zāi)芰梢栽谝欢ǔ潭壬现苯訌?fù)用。
現(xiàn)在來看,要想做一個好的 AI 視頻生成產(chǎn)品,需要下面有一個基座的、動態(tài)的大模型,數(shù)據(jù)是其中重要的方面之一,但數(shù)據(jù)采集并不會構(gòu)成真正的壁壘,如何做好數(shù)據(jù)的清洗、篩選等數(shù)據(jù)處理能力更加重要。
并且,在資源有限的前提下,并不是所有數(shù)據(jù)都可以用。在強數(shù)據(jù)處理能力的加持下,愛詩科技會通過 AI 能力自動找到最優(yōu)質(zhì)的那一部分內(nèi)容,這部分可能只有競品模型 1/ 10 的體量。如此一來,就有機會用更少的成本、更少的資源,更快地做出更好的模型。
同時,愛詩科技的核心團隊曾經(jīng)用AI解決了抖音和TikTok這些國民級產(chǎn)品的內(nèi)容安全問題,因此也能很大程度增強視頻生成的安全性。不管是用戶惡意引導(dǎo)生成的違規(guī)數(shù)據(jù),還是大模型初期被灌進的臟亂差數(shù)據(jù),愛詩科技有能力在海量數(shù)據(jù)里面把這些內(nèi)容識別出來,降低對模型質(zhì)量的干擾程度。
除此之外,愛詩也關(guān)注視頻生成的可控性問題,探索如何把運動的世界更好地建模,實現(xiàn)對運動中的人體和物體更精準(zhǔn)的控制等 。
另一方面,初創(chuàng)科技企業(yè)算力有限,把有限的資源用到極致,提高效能以減少訓(xùn)練和推理的時間,就尤為關(guān)鍵 —— 這正是是愛詩團隊從過去的經(jīng)驗中打磨出的經(jīng)驗和優(yōu)勢。
王長虎告訴 AI 科技評論,在字節(jié),面對像春節(jié)發(fā)紅包這樣一個時間點,流量可能是平常的數(shù)十倍甚至上百倍,需要在不添加額外資源的情況下確保服務(wù)器的穩(wěn)定、不能影響用戶的體驗,這就需要極強的推理效率和工程架構(gòu)能力。
在字節(jié)期間,王長虎帶領(lǐng)的團隊支撐了抖音TikTok等數(shù)十個產(chǎn)品和場景的視頻AI能力。模型訓(xùn)練和推理需要巨大的GPU 資源,更重要的是如何用好這些算力,這其中包括模型增效、模型壓縮等技術(shù)都是至關(guān)重要的。哪怕1% 效率的提升,可能意味著節(jié)省數(shù)百塊GPU。因此,所有技術(shù)都需要做到極致。
映射在現(xiàn)在做視頻生成模型的事情上,這種能力能幫助愛詩團隊用更少的資源做出更多的事。比如原來一個視頻生成可能要一分鐘,具備這一能力后就可以用更少的時間完成,這意味著它占用 GPU 的時間更短,如此一來,同樣的算力可以生成更多的視頻。
「視頻生成并不是像文生圖那樣堆資源和算力就行,在特定的時間內(nèi),不僅關(guān)乎你的資源有多少,也考驗資源受限下如何更好地建模、更好地解決問題?!雇蹰L虎認為。
不同于LLM已經(jīng)相對明確的發(fā)展路徑,AI 視頻生成還停留在技術(shù)突破的階段。面對諸多的技術(shù)挑戰(zhàn)、更高的用戶期待,王長虎表示這也是令愛詩團隊興奮的一個點,解決未來一個階段的問題,視覺大模型會有更大、更快的爬坡階段。
對話王長虎
AI 科技評論:在當(dāng)初創(chuàng)業(yè)的節(jié)點上,為什么選擇做視覺大模型?
王長虎:我們開始做這件事情的時候,整個市場還是很冷的,很多人會覺得視頻生成太遙遠。但由于我們這個團隊一直在做視頻,所以我們對視頻生成有一個自己的認知——未來AI生成視頻會有一個快速的發(fā)展和爆發(fā)期。
過去這半年的發(fā)展其實是符合我們預(yù)期的,這幾個月,越來越多的目光關(guān)注到我們,越來越多的同行參與進來,這印證了我們之前的判斷。
AI 科技評論:是什么促使你選擇做 AI 視頻生成?
王長虎:首先,過去幾年我們是伴隨抖音TikTok這些國民級短視頻成長起來的,我們對視頻有深刻認知,視頻在過去、現(xiàn)在和未來,都是最重要的一類內(nèi)容,會帶來巨大的機會??赡苓^去幾年,并沒有產(chǎn)生很多圖片類的國民級產(chǎn)品,但是視頻類產(chǎn)品更多,也是耳熟能詳?shù)?。視頻承載的內(nèi)容更豐富,會帶來更多的產(chǎn)品想象力,所以我認為做視頻是更大的機會。
其次,NLP大模型,有chatGPT在前,文生圖大模型,有midjourney在前,所以NLP大模型、文生圖,國內(nèi)更多是跟隨。而視頻領(lǐng)域,我們看UGC時代,最有影響力的視頻產(chǎn)品就是抖音和TikTok,是中國人做出來的,是領(lǐng)先全球的。因此,視頻生成領(lǐng)域,國內(nèi)當(dāng)然有機會比國外做的更好,抖音/TT背后的視頻AI技術(shù),很多都是我?guī)е业膱F隊做出來的,因此我們有天然的優(yōu)勢。并且,與NLP大模型和文生圖大模型不同,視頻生成還在發(fā)展初期,我們有做成全球最好的視頻生成模型的機會。
AI 科技評論:愛詩科技團隊做AI視頻生成有什么優(yōu)勢?
王長虎:從根本上來講,建設(shè)視頻大模型,數(shù)據(jù)、算法和工程能力缺一不可,都有很多問題是需要解決。而我們在建設(shè)抖音和TikTok的視頻AI能力的時候,各種各樣的問題都遇到過和解決過,踩過無數(shù)的坑,解決過無數(shù)的世界難題,我們這個團隊具備這些能力。
而很多問題,我們的同行過去不一定遇到過,要解決問題可能還有不同的解決方案,有很多試錯成本,探索也會有時間成本,而在當(dāng)前這個階段,時間是最重要的。
處理過抖音和TikTok這些全球范圍內(nèi)最大的短視頻平臺的多種問題后,我們具備了多種能力,像多模態(tài)之間的對齊、更有效的視頻表征、 多模態(tài)的表征,如何對視頻的時空進行建模、如何在有限資源情況下把算法做到極致等。這些就是過去我們一直在做的事情。
做視覺大模型,本身就不是一個單點,一個算法,一個 paper 就能搞定的,它是一個系統(tǒng)工程。我們團隊的核心的成員,處理過全球最大短視頻產(chǎn)品的每天數(shù)以億計的視頻數(shù)據(jù),用視頻AI解決過抖音TikTok背后無數(shù)難題,解決過這些國民級產(chǎn)品背后成百上千個服務(wù)、數(shù)萬個GPU的工程問題。而這些能力很多都是做AI視頻生成大模型的基礎(chǔ)。
AI 科技評論:愛詩科技團隊脫胎于國內(nèi)頂尖的視覺團隊,和過去相比有哪些進步之處?
王長虎:創(chuàng)業(yè)和在大公司做事是不一樣的,最大的不同,是創(chuàng)業(yè)公司初期資源特別有限,沒有那么多試錯機會。而在字節(jié),我們有機會從 0 到 1 把事情做成,踩過很多坑,積累了很多經(jīng)驗和能力,這些經(jīng)驗和能力對于初創(chuàng)公司至關(guān)重要。
我們認為現(xiàn)在做的事情其實是一件更大的事情。我個人經(jīng)歷過好多時代,從零幾年那個時候的搜索時代,到之后的深度學(xué)習(xí)的時代,后來進到字節(jié)之后的UGC 時代。UGC時代用戶生產(chǎn)內(nèi)容的效率比PGC的效率更高,涉及的范圍也更廣,也帶來了更大的商業(yè)化機會,抖音、快手等短視頻平臺應(yīng)運而生。
現(xiàn)在的不同之處在于,我們做的是 AI ,它生產(chǎn)內(nèi)容的效率會更高。可以預(yù)見 ,AI 生成視頻很快就會進入快車道,當(dāng)生成視頻的質(zhì)量足夠好、效率足夠高,那肯定會再開啟一個新的時代,那這個時代就有巨大的機會?,F(xiàn)在很多革命性的產(chǎn)品過去都是人們所想象不到的, 放在AI視頻這個賽道上也是同樣的。
對我們來說,這個時代會更加考驗我們的創(chuàng)造力 ,不管是模型層面的,還是產(chǎn)品、應(yīng)用層面的。 AI 時代的這些人,也要像 AI 一樣更快的進化,團隊中的每一個成員都在快速地成長。
AI 科技評論:現(xiàn)在來看,AI視頻生成產(chǎn)品正火爆,如何看待這一現(xiàn)象?
王長虎:做AI視頻生成,就像在做一個AI攝像機,但它不需要攝像頭這種硬件,不需要再去動畫工作室里面去創(chuàng)作,而是用AI直接生成視頻內(nèi)容。 越來越多的人去做這樣一個AI攝像機,我覺得這是好事,可以快速能推動這個技術(shù)的成熟。其實更重要的是,一旦AI攝像機做成熟之后,背后帶來的新的、更大的機會。
回過頭去看移動互聯(lián)網(wǎng)時代,手機攝像頭越來越小,這種技術(shù)成熟之后催生了抖音、快手,極大地改變了人們的生活方式。我們目前具備最強的視頻生成能力,同時也期望抓住AI 視頻生成帶來的更大的機會,所以,我們也特別歡迎同行能夠發(fā)展越來越快,一起促進行業(yè)進步。
AI 科技評論:當(dāng)下市場上不同的 AI 視頻生成產(chǎn)品有什么差異?
王長虎:每個公司都有自己的認知,也有自己的基因。像Runway 生成的視頻,雖然有時候主體會動不起來,但看起來很有大片的即視感,這跟早期服務(wù)于很多專業(yè)創(chuàng)作者,跟服務(wù)于電影行業(yè)有關(guān)。而我們的基因是伴隨著抖音和TikTok成長,我們希望服務(wù)于每天玩抖音和TikTok的普通用戶。
所以,看似都是在做AI視頻生成,都是在做「攝像機」,但背后想要的東西不同,服務(wù)的用戶不同,然后產(chǎn)品化方向不同,這導(dǎo)致你在做的相機也會有區(qū)別。有人想做手機端上的相機,這就要求你一定要做得非常非常小,而有的人是在做單反。
AI 科技評論:未來, AI 視頻生成前進的方向是什么?
王長虎:我們期待有一天能做到實時的內(nèi)容生成,可能現(xiàn)在我們生成一個視頻要幾十秒,未來的話希望能實時生成,這有可能徹底顛覆人們生產(chǎn)和消費視頻的模式。
現(xiàn)在我們跟視頻的交流是單向傳遞信息,不管是在電影院還是在網(wǎng)上看劇,不同人看到的都是同一個電影、同一個劇情。但如果能實現(xiàn)實時生成,意味著每個人在消費視頻的時候,都可以去影響里面的人物、劇情。AI 生成能力使得內(nèi)容能夠根據(jù)用戶的交互,去自適應(yīng)地改變內(nèi)容。秒級的生成意味著它就會實時對用戶的需求進行反饋,所以每個人看到的東西可能是不同的,消費的同時就在創(chuàng)造。
同時視頻本身,也可以知道每個人的喜好,他可以對每個人交互定制化地演繹劇情,因此一個視頻里面就擁有千萬個甚至數(shù)以億計的不同的劇情,它自己也可以進化了。那個時候視頻的生產(chǎn)和消費的方式就會是顛覆性的,視頻本身是也會迎來一個巨大的迭代,極大釋放創(chuàng)造力,視頻本身會有很多產(chǎn)品化的機會。
AI 科技評論:要想達到實時生成,需要具備什么樣的條件?
王長虎:一是,生成的內(nèi)容要反映用戶的意圖,生成東西是準(zhǔn)確的;
二是,生成的內(nèi)容一定要是逼真的,這里面的運動要復(fù)合物理規(guī)律,我們期待有一天生成的東西和真實的東西是很難去區(qū)分的;
三是,生成的內(nèi)容要足夠豐富,真的能夠吸引人,當(dāng)前產(chǎn)品的表現(xiàn)度都是不夠的;
四是,要讓用戶低成本控制視頻的生成;
五是,要實現(xiàn)高效地快速生成。
這幾個其實不僅僅是算法、工程問題,在本質(zhì)上是一個資源有限的情況下如何高效解決問題的思考和實踐,這也是我們團隊很大的優(yōu)勢 。
AI 科技評論:AI 視頻生成將會給當(dāng)下的社會帶來哪些可預(yù)見的變化?
王長虎:AI 視頻生成從本質(zhì)上來講可以極大地降低人們?nèi)?chuàng)作視頻的時間的成本,并且各行各業(yè)也是有這樣的視頻生成的需求的。
同時,它有機會去改變原有的內(nèi)容生成模式,顛覆之前的工作流。比如在影視創(chuàng)作的領(lǐng)域,有很多鏡頭演員拍攝的成本高、難度大、且具有一定的危險性,或者在廣告領(lǐng)域,有一些天馬行空的視頻,也是可以用 AI 去生成的,有很大的存量市場,帶來顯著的降本增效。
此外,短視頻的興起雖然大大降低了內(nèi)容創(chuàng)作的門檻,但實際上,能夠真正輸出優(yōu)質(zhì)內(nèi)容的用戶占比并不多,其中的門檻不在于拍攝,而在于創(chuàng)意。 AI 視頻生成如果降低創(chuàng)意的門檻,幫助用戶將靈感快速可視化、內(nèi)容化,這也是一件非常有意義的事情。
AI 科技評論:基于 AI 視頻生成會有哪些想象的空間,從業(yè)者應(yīng)該如何做?
王長虎:當(dāng) AI 生成視頻能夠做到理解度高、時效性高的時候,比如用戶說什么東西一下子就能生成了,并且沒有任何門檻,且也能很方便地通過人工智能對內(nèi)容不斷修正和完善,這個時候才會有更多的用戶進來,創(chuàng)造巨大的市場??梢灶A(yù)見的是,高質(zhì)量 AI 原生內(nèi)容的涌現(xiàn),將會媲美甚至超越過去短視頻帶來的變革。雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
我們現(xiàn)在看到了這個機會,第一時間去錘煉自己的技能,當(dāng)風(fēng)口真正爆發(fā)的時候,我們才有機會去觸摸到背后的本質(zhì)。
未來是我們還是想希望能夠建設(shè) AI native 的視頻平臺,服務(wù)廣泛的視頻創(chuàng)作者和消費者。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。