0
本文作者: 朱可軒 | 2024-12-09 11:11 |
作者丨朱可軒
編輯丨陳彩嫻
今日,歷時(shí)四天(12.3-12.6)的第十七屆 SIGGRAPH Asia 在東京正式閉幕,本屆圍繞的主題為「Curious Minds」,無論是參與注冊的人數(shù)還是論文投稿數(shù)都創(chuàng)下了歷史新高。
華人學(xué)者在本次大會(huì)上的表現(xiàn)依舊十分亮眼,在會(huì)場,幾乎大多數(shù)論文背后都有華人的身影。
當(dāng)前,在計(jì)算機(jī)視覺學(xué)界主要有新興派和傳統(tǒng)派兩類研究者,前者的目光主要聚焦在具身智能和 3D 生成方向,而后者則依舊專注于解決幾何建模和幾何處理中的細(xì)節(jié)問題。
新興派的論文成果正處噴涌期,但今年的論文也并非全然被 AI 浪潮席卷,老派研究依舊占據(jù)了一席之地。
除了學(xué)術(shù)論文外,今年的展位也依舊人頭濟(jì)濟(jì)。據(jù) AI 科技評論觀察,和往年相比,今年有關(guān)動(dòng)作捕捉的展示項(xiàng)目占大頭,同時(shí),以 VAST、影眸、元象為代表的 3D AIGC 大陸廠商也參與了展出。
從產(chǎn)業(yè)化的角度,3D 當(dāng)前確實(shí)還不比多模態(tài)大模型的應(yīng)用面那么廣泛。
但深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院教授胡瑞珍十分看好這一方向的發(fā)展,她告訴 AI 科技評論,「數(shù)字媒體一直在更新迭代,一開始是音頻,然后變成一些二維的圖像視頻,不遠(yuǎn)的將來數(shù)字媒體的呈現(xiàn)形式就會(huì)變化到三維了,就像 體積視頻、元宇宙,包括李飛飛提到的空間智能,都在強(qiáng)調(diào) 3D 內(nèi)容和三維感知。」
現(xiàn)階段,3D 還是一條相對而言沒有那么擁擠的賽道,這也恰好為學(xué)術(shù)和創(chuàng)業(yè)提供了蓬勃發(fā)展的空間和機(jī)會(huì)。
在會(huì)場,AI 科技評論和多位從業(yè)者進(jìn)行了交談,并在此之中得到了一些結(jié)論:
3D 生成方向有關(guān)幾何和紋理模型的技術(shù)成果正在快速更新中,但其中有關(guān)到底走端到端還是多步迭代的路徑業(yè)內(nèi)稍有分歧。
技術(shù)還未走向完全成熟,所以 3D AIGC 的應(yīng)用落地也還尚處早期,用戶對于三維的認(rèn)知和需求也都有待提升,目前在與日常生活較為貼近的游戲、美術(shù)設(shè)計(jì)和電商等方向應(yīng)用較多,與前者相比,工業(yè)界落地相對已較成熟。
關(guān)于 Animation 的技術(shù)也還需突破,當(dāng)前在骨骼方面缺乏比較 Scale 的模型,這一方向與 AI 緊密結(jié)合后和空間智能會(huì)比較接近。
模型技術(shù)創(chuàng)新持更中
近年來,在幾何、紋理方向一直在持續(xù)出現(xiàn)有關(guān)大模型的前沿技術(shù)。海外包括 Meta 的 3D Gen、Adobe 的LRM 、Google 的 DreamFusion 等,國內(nèi)目前比較有代表性的主要有 CLAY、TEXGen 等。
在幾何方面,影眸科技在今年的 SIGGRAPH 上被提名了榮譽(yù)獎(jiǎng)的 3D 原生 Diffusion Transformer 生成式大模型 CLAY,也解決了 2D 升維法所存在的問題,實(shí)現(xiàn)直接從 3D 數(shù)據(jù)集訓(xùn)練模型的突破。
CLAY的進(jìn)階版本Rodin Gen-1也在今年6月正式上線,并在本屆大會(huì)上進(jìn)行了展出。
VAST 所采用的是一個(gè)基于 rectified flow 的大規(guī)模形狀生成模型,據(jù)了解,這種模型能夠在采樣步數(shù)更少的情況下精度更高,同時(shí)訓(xùn)練也會(huì)更穩(wěn)定。
在紋理生成這部分,此前比較主流的操作方式主要有兩種——
第一是借助已經(jīng)訓(xùn)好的圖像生成模型去做紋理貼圖,這其中包括 Google 的 DreamFusion 開創(chuàng)的所謂「2D 升 3D」的路徑,以及常用的通過逐步的多個(gè)單視角的紋理生成和反投影進(jìn)行整個(gè)模型的紋理生成。
但這種方式的缺點(diǎn)在于,由于生成依賴于圖像模型而不具有整體的三維感知能力,AI 無法判斷各個(gè)視角的整體一致性,所以生成內(nèi)容可能存在諸如一個(gè)人正反兩面都有人頭的問題,當(dāng)前學(xué)術(shù)界也在尋求突破。
第二是一種依靠圖像數(shù)據(jù)做訓(xùn)練監(jiān)督的 regression 的 model,使用一個(gè) texture field 做紋理表示,但這種方式?jīng)]辦法做現(xiàn)在流行的基于原生數(shù)據(jù)訓(xùn)練的 diffusion model,進(jìn)行多步迭代,最終呈現(xiàn)出來的細(xì)節(jié)效果不太好,人眼所看不到的立體圖像背面可能會(huì)比較模糊。
區(qū)別于前述兩種操作,此次 VAST 和港大、清華團(tuán)隊(duì)獲得最佳論文提名獎(jiǎng)的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》帶來了自己的思考。
論文鏈接:https://arxiv.org/pdf/2411.14740
AI 科技評論在會(huì)場聯(lián)系到了該篇論文的一作余鑫,他當(dāng)前在香港大學(xué)就讀博三,師從齊曉娟。據(jù)他介紹,「我們做的模型不需要依賴于 2D 升 3D 的方式,直接訓(xùn)練一個(gè)原生的 diffusion model 輸出 3D 紋理內(nèi)容,這種原生的 3D 模型能一次性生成整個(gè)物體的紋理?!?/p>
這塊做下來有幾處難點(diǎn)問題,首要的是數(shù)據(jù),因?yàn)榧y理涉及到一些表現(xiàn)形式,而不同的表現(xiàn)形式所獲得的數(shù)據(jù)多少其實(shí)是不同的,另外網(wǎng)絡(luò)架構(gòu)和算力也存在難點(diǎn)問題。
實(shí)際上,余鑫也并非從一開始就做紋理模型,在 stable diffusion 出來之前,他就嘗試過用 latent diffusion 做幾何模型,后來出于多種因素考慮,他才逐漸開始轉(zhuǎn)向聚焦紋理模型。
在他看來,紋理比幾何更復(fù)雜、變化更大,并且是一種表面屬性,當(dāng)前的神經(jīng)網(wǎng)絡(luò)也很難去處理紋理數(shù)據(jù),也正是因?yàn)槔щy相比幾何更大,這塊賽道當(dāng)前還鮮有人切入。
「我之前也做過利用 2D 升維的 3D 生成工作,這種方式的確可以在某些程度上取得驚人的短期視覺效果。但他終究不是一個(gè)通過 3D data 學(xué)習(xí)的原生模型,存在各種 bias,所以長期來講,我覺得有還是要走通過 3D 數(shù)據(jù)訓(xùn)練的 feed-forward 路線?!褂圉握f道。
之后在研究過程中,他也曾考慮過類似 Meta 3D Gen 的路徑,將 3D 紋理貼圖作為兩個(gè)階段分別處理,即先多視角生成再訓(xùn)練一個(gè)模型進(jìn)行補(bǔ)全,并做出了短期效果。但最終認(rèn)為這種做法其實(shí)存在一定上限,如若要追求長遠(yuǎn)的效果,還需要嘗試新的方案。
此外,對于多個(gè)階段的生成方式,他也曾考慮過另一種方式,主要是用到紋理的兩種表現(xiàn)形式,并都支持直接訓(xùn)練 diffusion model。(此文章即 Point-UV Diffusion,發(fā)表在 ICCV 2023 Oral。)
「之前我的想法是分兩個(gè)階段去 train 兩個(gè) diffusion model,后來我開始思考 end to end 把兩個(gè)階段的優(yōu)勢都發(fā)揮出來的可能性,感覺是可以實(shí)現(xiàn)的,所以也針對這一點(diǎn)提出了混合 2D-3D 去噪模塊?!褂圉握f道。
另外,值得一提的是,影眸科技 CTO 張啟煊也透露,幾何的絕對質(zhì)量和貼圖的絕對精度也將是影眸團(tuán)隊(duì)接下來重點(diǎn)會(huì)突破的方向,明年 1 月會(huì)正式官宣新的突破性進(jìn)展,并爭取在年底上線新版本。
當(dāng)前,在 3D AIGC 方向的發(fā)展與圖像、視頻這類二維內(nèi)容生成式模型在多樣性、可編輯性等方面、個(gè)性化定制等方面還有部分差距,這也是學(xué)界和業(yè)界需要合力去攻克的問題。
在胡瑞珍看來,「未來到底是走 end to end 還是 Multi step 的路徑解決問題,現(xiàn)階段還不好判斷,因?yàn)槿S數(shù)據(jù)確實(shí)沒有二維多?!?/p>
3D 生成應(yīng)用已經(jīng)起步
本次大會(huì),AI 科技評論在現(xiàn)場聽到最多的關(guān)鍵詞大概當(dāng)屬「數(shù)據(jù)」。有業(yè)者認(rèn)為,數(shù)據(jù)對于 3D 生成平臺(tái)而言是決定所做產(chǎn)品差異性的關(guān)鍵問題,甚至在現(xiàn)階段的重要性大于模型。
VAST 目前和同行相比的優(yōu)勢就在于大規(guī)模高質(zhì)量的私有數(shù)據(jù)集,據(jù) VAST 首席科學(xué)家曹炎培介紹,「我們目前已經(jīng)有 2000 萬高質(zhì)量 3D 訓(xùn)練數(shù)據(jù),而訓(xùn)練開源模型或者沒有私有數(shù)據(jù)的團(tuán)隊(duì)可能只能用到幾十萬數(shù)據(jù),這樣一兩個(gè)量級的差別會(huì)導(dǎo)致最終 3D AI 生成模型結(jié)果精度、泛化性、多樣性、可控性等方面的差異。」
張啟煊同樣強(qiáng)調(diào)了數(shù)據(jù)的重要性,「對于 3D 生成來講,其實(shí)數(shù)據(jù)的絕對數(shù)量不重要,質(zhì)量非常重要。」高質(zhì)量數(shù)據(jù)需要足夠細(xì)節(jié)、平整,達(dá)到 production ready 的質(zhì)量,真正用在最后實(shí)際生產(chǎn)里。
當(dāng)前,「開放的 3D 數(shù)據(jù)存在大量過于簡單的 model,還會(huì)有很多點(diǎn)云和低質(zhì)量的 model,這些其實(shí)都應(yīng)該剔除掉,所以我們也花了大量的時(shí)間在數(shù)據(jù)修復(fù)和數(shù)據(jù)清洗上,以此來提高整體質(zhì)量?!箯垎㈧訌?qiáng)調(diào)。
影眸展位
除了數(shù)據(jù)以外,3D Tokenizer 也是當(dāng)前在技術(shù)上較為有挑戰(zhàn)性的部分,還有很大的進(jìn)化空間。
目前情況來看,文字 Tokenizer 實(shí)則已經(jīng)發(fā)展到比較成熟的階段,圖像、視頻方面其實(shí)也已經(jīng)有了 Sora 在前打樣,但 3D 的研究成果還在持續(xù)更新中。
應(yīng)用場景目前在 3D 生成領(lǐng)域也還不夠明晰,在業(yè)內(nèi)看來,如若只是服務(wù)游戲、美術(shù)等方面,最終的盤子不夠大。AI 科技評論在現(xiàn)場走訪到的幾家廠商,現(xiàn)階段基本集中于游戲、設(shè)計(jì)、3D打印、電商等落地場景。
VAST 面向的場景之一是幫助游戲、動(dòng)畫行業(yè)降本增效,降低此類內(nèi)容的制作成本和時(shí)間,其二則是泛定制化、泛工業(yè)的 3D 打印,除此之外、也是未來最關(guān)注的場景,則為需要實(shí)時(shí)低成本 3D 內(nèi)容創(chuàng)作的UGC(user-generated content)場景。
「比如元宇宙,以及一些做開放世界的客戶,其實(shí)很希望引入一些 UGC 玩法,有了 3D 內(nèi)容生成平臺(tái)以后他們能夠解決海量 3D 資產(chǎn)構(gòu)建的問題,并且設(shè)計(jì)出在沒有實(shí)時(shí) 3D 生成技術(shù)前無法設(shè)想的玩法?!共苎着喔嬖V AI 科技評論。
「我們在今年 SIGGRAPH Asia 上參與的另一個(gè)環(huán)節(jié) Real-Time Live! 中所展示的 Tripo Doodle,也正是如何利用 AI 3D 技術(shù)讓普通人能夠從簡筆畫實(shí)時(shí)生成自己想要的 3D 模型?!?/p>
在他看來,「從邏輯和技術(shù)發(fā)展趨勢上來講,3D 內(nèi)容平臺(tái)是未來一定會(huì)出現(xiàn)的應(yīng)用方向,所以我們未來的發(fā)展方向正是構(gòu)建這樣一個(gè)平臺(tái),而現(xiàn)在所做的 AI 3D 工具是一個(gè)必經(jīng)階段,因?yàn)闃?gòu)建內(nèi)容平臺(tái)首先需要易上手、低成本的內(nèi)容創(chuàng)作工具。」
VAST 展位
影眸所切入的也有類似賽道,但和 VAST 的主要區(qū)別在于,前者所做的工具會(huì)更為專業(yè)。在今年 8 月的 SIGGRAPH 上,影眸團(tuán)隊(duì)也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。
「比起讓 AI 像個(gè)隨機(jī)的老虎機(jī),我們更希望讓藝術(shù)家可以自己掌控生成的環(huán)節(jié)?!箯垎㈧臃窒淼馈?/p>
除此之外,電商也是 3D 生成當(dāng)前的一塊落地場景, 影眸目前所做的主要是給家具、工藝品商家提供 3D 模型。
不過,值得關(guān)注的是,現(xiàn)階段,服裝類暫時(shí)已不被各家納入應(yīng)用范疇,此前,其實(shí)虛擬試衣一直分為 3D 和 2D 兩派。
去年,影眸曾考慮過服裝生成的市場,其發(fā)表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主會(huì)拿過榮譽(yù)提名獎(jiǎng),主要介紹了一種專為 3D 服裝設(shè)計(jì)的生成式 AI 框架 DressCode。
但在今年的會(huì)場中,張啟煊告訴 AI 科技評論,「現(xiàn)在大家想做虛擬試衣,基本上會(huì)跳過 3D 這個(gè)步驟,直接進(jìn)行視頻生成,所以我們這方面先擱置了,選擇 All in 物品級的 3D 生成上?!?/p>
「結(jié)合 3D 生成做虛擬試衣其實(shí)是需要進(jìn)行布料模擬的,而這一步十分消耗算力,但視頻生成其實(shí)所需要的算力相對會(huì)更少,而在其他場景里的算力消耗程度則相反?!顾M(jìn)一步介紹其觀察。
曹炎培也認(rèn)為虛擬換裝方向現(xiàn)階段結(jié)合圖像、視頻生成模型相較純 3D 方案會(huì)是更優(yōu)解。在他看來,視頻生成模型在和諧度、動(dòng)態(tài)觀感等方面很有優(yōu)勢,而純 3D 方案則有一些難以解決的問題:
「首先,所需要的 3D 衣服模型許多小的網(wǎng)店商家肯定沒有,他們只有實(shí)體服裝,但如若通過 3D 掃描等數(shù)字化方式也較難得到準(zhǔn)確、高質(zhì)量的服飾模型。在此之后,如果要實(shí)現(xiàn)虛擬試穿,在純3D管線中,還涉及如何獲取試衣者的高還原度 3D 數(shù)字模型、如何進(jìn)行高質(zhì)量物理解算與渲染獲得試穿效果等難題?!?/p>
產(chǎn)業(yè)化的落地對比學(xué)術(shù)界必然會(huì)存在些許滯后性,而目前 3D 這塊領(lǐng)域的技術(shù)還在更新迭代中,只有當(dāng)技術(shù)走向成熟以后,應(yīng)用落地才能隨之提速。
前文所提到的基本是與日常生活更貼近的場景,用戶或許對于三維的需求暫時(shí)不太旺盛。但胡瑞珍向 AI 科技評論分享了她的觀察,在她的視角中,實(shí)際上,現(xiàn)在在工業(yè)界范圍內(nèi),3D 的落地已經(jīng)相當(dāng)廣泛。
「類似智能智慧工廠、港口的智慧調(diào)度等等,這些場景都需要三維內(nèi)容,要有一些數(shù)字車間,這部分的發(fā)展其實(shí)遠(yuǎn)比我們想象的要成熟,只是距離日常生活稍微有點(diǎn)遠(yuǎn),許多人不太了解?!?/p>
動(dòng)態(tài) 3D 模型亟需突破
同樣作為在現(xiàn)場比較有代表性的廠商之一的元象,選擇了 3D 市場中的其他切入方向。大空間 VR 是他們此次展出的重點(diǎn)產(chǎn)品。
其偏于 XR 的整合應(yīng)用本身,應(yīng)用場景主要在線下通過佩戴頭顯進(jìn)行沉浸式體驗(yàn),當(dāng)前元象在全國已開設(shè)了三十多家「幻旅之門」線下門店。
據(jù)元象引擎和 AIGC 算法負(fù)責(zé)人黃浩智介紹,「我們主要以超采樣配合性能優(yōu)化帶來高清晰度畫面,品質(zhì)清晰度、不眩暈以及幀率穩(wěn)定是我們大空間 VR 的優(yōu)勢?!?/p>
另外,元象本次大會(huì)帶來也展示了一款骨骼動(dòng)畫的插件,通過文本生成骨骼動(dòng)畫的動(dòng)作。今年 8 月,元象推出了國內(nèi)首個(gè)基于物理的 3D 動(dòng)作生成模型 MotionGen,主要解決生成逼真角色動(dòng)作的行業(yè)內(nèi)持續(xù)性挑戰(zhàn)問題。
不過,元象也還在探索初期。會(huì)場有 3D 從業(yè)者告訴 AI 科技評論,當(dāng)前,在 Animation Rigging 的方向上,其實(shí)還比較缺少用數(shù)據(jù)訓(xùn)得非常充分、非常 Scale 的模型,去服務(wù)動(dòng)態(tài) 3D。
MotionGen 在動(dòng)作自然度、文本匹配度等方面也都還有提升空間。
「如若描述的文字太過復(fù)雜,可能會(huì)存在無法理解的情況,訓(xùn)練數(shù)據(jù)也影響到最終呈現(xiàn)的效果,數(shù)據(jù)、模型都還有很多優(yōu)化空間?!乖髣?dòng)作生成算法負(fù)責(zé)人鐘國仁向 AI 科技評論介紹道。
也同樣由于剛剛起步,用戶處于免費(fèi)試用期,所以元象所使用的也還是開源數(shù)據(jù)集。
當(dāng)前,在解決數(shù)據(jù)問題方面,比較主流的路徑有兩條:
一是結(jié)合動(dòng)捕設(shè)備自己生產(chǎn)數(shù)據(jù),這也是業(yè)界普遍采用的方法。展位位于元象對面的廠商唯晶科技所選擇的方式便與此類似。
唯晶科技旗下產(chǎn)品 Genmotion.AI 的負(fù)責(zé)人劉同梅介紹,「我們目前和世界排名靠前的游戲公司合作,而他們在使用 AI 工具時(shí),其實(shí)擔(dān)憂的關(guān)鍵問題在于數(shù)據(jù)來源,所以我們所有的數(shù)據(jù)都是自己動(dòng)捕的,所有的動(dòng)作都有全程錄影詳細(xì)記錄,甚至結(jié)合區(qū)塊鏈輔助溯源?!?/p>
元象也有自己的動(dòng)捕設(shè)備,但在鐘國仁看來,前述做法其實(shí)對許多廠商而言比較費(fèi)時(shí)費(fèi)力。
所以,元象更看好另外一種做法,即從視頻里提取動(dòng)作,之后再基于大語言模型理解這些動(dòng)作,然后形成相關(guān)文字描述,這也相當(dāng)于一部分?jǐn)?shù)據(jù)。
元象 XVERSE 展位
另外,骨骼的形態(tài)變換也有廠商正在探索更多情景。
劉同梅告訴 AI 科技評論,「我們目前的 3D 動(dòng)畫只有一種骨架,骨架重定位的功能正在開發(fā)中,之后可支援侏儒和巨人有差異性的骨骼,另外,現(xiàn)階段 3D 動(dòng)作只支援人的骨骼,四足動(dòng)物動(dòng)作數(shù)據(jù)還未深入研究?!?/p>
值得一提的是,VAST 的 Tripo 平臺(tái)上也有自動(dòng)角色綁定和動(dòng)畫的相關(guān)功能,可以控制所生成的 3D 形象展開多樣的動(dòng)作,但目前主要適用于人形或類人形角色,更加泛用的動(dòng)畫功能還在研發(fā)當(dāng)中。
結(jié)構(gòu)化生成也是后期需要研究突破的方向。在業(yè)者的設(shè)想中,未來其實(shí)可以做到讓類似抽屜等物體可拆分為幾片,甚至操作其開合,這也會(huì)是一個(gè)有想象力的方向。
面向更大的 3D 場景的產(chǎn)品也同樣仍處在發(fā)展初期,目前做得更偏向于全景圖像,將其 3D 化可以看到任意一面的動(dòng)態(tài),但是,通過 3D 實(shí)現(xiàn)操作和交互物件業(yè)內(nèi)也還在探索中。
值得一提的是,事實(shí)上,Animation 和李飛飛所提出的「空間智能」也是有共通之處的。
胡瑞珍談到,「 Animation 通俗理解其實(shí)就是建模已經(jīng)做好了,之后讓角色動(dòng)起來,看上去更加真實(shí),這其中所有的東西都會(huì)涉及到對空間感知、空間計(jì)算,現(xiàn)在我們把 AI 的一些技術(shù)用進(jìn)來,其實(shí)跟空間智能的概念是很像的。」
「李飛飛把空間智能推得很火,但其實(shí)也不算是新的概念,她其實(shí)就是把學(xué)界此前沒有合并的概念進(jìn)行了合并,另外她其實(shí)也沒有嚴(yán)格定義到底怎樣才算空間智能,所以在我們看來,只要在三維空間去進(jìn)行感知、交互,都算是需要有空間智能的。」
寫在最后
今年第三次回歸東京的 SIGGRAPH Asia 相比于去年的悉尼,參會(huì)熱情明顯高升,不少參會(huì)者都向 AI 科技評論興奮地分享了一邊學(xué)術(shù)交流一邊游玩東京的經(jīng)歷。
SIGGRAPH Asia 作為 SIGGRAPH 在亞洲的延伸,雖然參會(huì)人數(shù)和投稿量規(guī)模會(huì)相對小一點(diǎn),但同樣也作為大會(huì)技術(shù)交流和海報(bào)主席的胡瑞珍向 AI 科技評論透露,兩場大會(huì)的技術(shù)論文評選標(biāo)準(zhǔn)是完全一致的,論文質(zhì)量也處于同一高度。
近年,投稿數(shù)量從三百多篇到近千篇,學(xué)者投稿 SIGGRAPH Asia 的熱情正直線走高,不過,也有會(huì)場學(xué)者表達(dá)了些許遺憾,在他們看來,本次大會(huì)還是沒有給到太多預(yù)期外的驚喜。
明年的大會(huì)將落地在香港,在人工智能的浪潮之下,計(jì)算機(jī)視覺和圖形學(xué)的未來發(fā)展將會(huì)如何,可以繼續(xù)拭目以待。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。