0
1、遠大視野
2005 年,韓曉光上大學的那一年,中國的圖形學歷史剛經(jīng)歷了一個高光時刻:
那一年,以沈向洋、郭百寧等人為首的微軟亞洲研究院(MSRA)研究團隊在世界圖形學頂級會議 SIGGRAPH 上發(fā)表 9 篇論文,占當年 SIGGRAPH 全球論文接收總量(98篇)的十分之一。
這也構(gòu)成了一代微軟人的記憶與自豪。
韓曉光不是微軟人,后來也未曾在微軟實習或工作過,但當他在 2009 年到浙江大學讀研究生時,集中在浙大的上一代微軟人對 SIGGRAPH 的崇拜與追求還是深深地感染了他:
他記得,當時剛開學沒多久,導(dǎo)師劉利剛就跟他們一眾新生說:“我們的目標就是發(fā) SIGGRAPH,因為 SIGGRAPH 是圖形學領(lǐng)域的頂會?!?/p>
劉利剛是浙大自己培養(yǎng)的圖形學博士,博士畢業(yè)后就去了 MSRA,在 MSRA 呆了三年(2002-2004),指導(dǎo)老師是童欣和沈向洋。MSRA 的研究氛圍與工作經(jīng)歷,讓劉利剛知道:在 SIGGRAPH 上發(fā)文是一件很重要、而且很光榮的事情。
所以,韓曉光很早就知道 SIGGRAPH 的存在,也逐漸樹立了與劉利剛一樣的認知。
事實上,即使是現(xiàn)在,中國的許多高校也沒有將 SIGGRAPH 作為指導(dǎo)圖形學研究的目標,因為 SIGGRAPH 的中稿難度實在是太高了:每年 SIGGRAPH 的全球論文接收總量不過百來篇,中國所有研究者加起來的中稿數(shù)量也不過數(shù)十篇。
但韓曉光從碩士開始就樹立了這樣一個目標:研究圖形學就是要發(fā) SIGGRAPH。
當時韓曉光所在的浙大,周圍的圈子里,除了劉利剛,還有許多從 MSRA 回來的人,比如周昆、任重,他們?nèi)缃穸际菆D形學領(lǐng)域的知名學者。
熟悉圖形學的人都知道,浙大與 MSRA 是中國圖形學研究最出名的兩個機構(gòu),而兩者早期在圖形學的人才培養(yǎng)與相互輸送上又有著深厚淵源。
圖注:MSRA 早期,沈向洋與郭百寧等人交流
李開復(fù)在 1998 年回國創(chuàng)立微軟中國研究院(也就是后來的 MSRA),浙大本碩畢業(yè)生、1999 年從清華博士畢業(yè)的童欣(如今人稱“童姥”)就加入其中,與沈向洋、郭百寧、劉文印、徐迎慶等人是最早一批計算機圖像研究者,目標就是發(fā) SIGGRAPH。童欣之后,浙大畢業(yè)的許多圖形學碩博生也先后去了微軟亞研,如劉利剛、周昆、任重等等。
他們這批人在 MSRA 時都感受過“四萬人大會” SIGGRAPH 的魅力,知道自己的工作如果能夠發(fā)在這樣一個權(quán)威的國際頂會上是多么了不起的事。相應(yīng)地,由沈向洋這樣有 SIGGRAPH 發(fā)文經(jīng)驗的老手帶領(lǐng),他們也都學習到許多沖刺 SIGGRAPH 的技巧。
2010 年前后,圖形學的研究比重在 MSRA 逐漸下降,許多人陸陸續(xù)續(xù)離開,又回到了浙大。除了周昆、任重這些浙大走出來的學子,還有侯啟明等清北畢業(yè)生。年青的血液回流,浙大的圖形學研究也更上一層樓,每年在 SIGGRAPH 上發(fā)不少文章。
韓曉光在浙大讀的是數(shù)學系,兩年制。這兩年里,他的一個感受是:身邊有許多認識的人陸陸續(xù)續(xù)都發(fā)了 SIGGRAPH,好像“中一篇 SIGGRAPH 是一件很容易的事情”。
那時韓曉光沒有發(fā)論文的科研壓力,但在浙大的這個小圈子里,受導(dǎo)師劉利剛與周圍人的影響,他對圖形學的科研興趣與 SIGGRAPH 的向往開始形成。
劉利剛在科研之余也會跟他們講一些在 MSRA 做科研的趣事,比如偶遇沈向洋的難度:
那時,沈向洋總是忙科研忙得不見人影。誰要能在電梯里“逮”到他,就要在出電梯前的短短一兩分鐘內(nèi)將自己的研究介紹給他。這非常考驗大家的表達能力,久而久之,大家就把這件事戲稱為“電梯效應(yīng)”。
這件事也給韓曉光留下了深刻的印象,使他自然而然地覺得:一個真正優(yōu)秀的科學家,應(yīng)該是求知若渴,用盡日常的每分每秒去研究與思考的。
并不是每個人在剛進入一個領(lǐng)域時就有機會知道這個領(lǐng)域最牛的一群人都在研究什么、怎么研究,以及自己日后要往哪個方向努力,才能成為該領(lǐng)域的佼佼者。而歸功于劉利剛的引領(lǐng),韓曉光在 22 歲的時候就已經(jīng)以 SIGGRAPH 為目標。
這直接塑造了他的思考方式。所以,從浙大開始,韓曉光就喜歡閱讀圖形學方面的研究論文,尤其是 SIGGRAPH 這樣的頂會論文。
現(xiàn)任香港中文大學(深圳)理工學院助理教授、第十一屆吳文俊人工智能優(yōu)秀青年獎獲得者韓曉光的圖形學之旅,就是這樣開始的。
圖注:學生時代的韓曉光
2、虔誠、前進
剛接觸圖形學時,韓曉光還是一個心中有夢、眼里有光的少年,十分自信、得意。
那時,他并不知道圖形學的難度,視 SIGGRAPH 為囊中之物,給自己定了一個目標:每年都發(fā)一篇 SIGGRAPH。
但很快,這個“狂妄”的想法就被教育了。
韓曉光真正開始投 SIGGRAPH,是 2011 年到香港城市大學擔任研究助理之后。
在浙大那會,韓曉光參與過一個工作,是用圖形學對人體的身高體重進行全局一致的整形重塑,最終文章發(fā)表在圖形學頂刊 ACM Transactions on Graphics(TOG)上。
論文:Parametric Reshaping of Human Bodies in Images
這個工作是浙大與香港城市大學合作的一個項目。韓曉光由此認識了在香港城大任教的傅紅波教授。
臨近碩士畢業(yè)時,由于英語成績不佳,直接申請讀博有難度,所以韓曉光就聯(lián)系了傅紅波,希望先去他的組里當研究助理,然后找讀博的機會。
當研究助理的第一年,韓曉光就開始計劃投 SIGGRAPH。但沒想到,計劃是計劃,現(xiàn)實是現(xiàn)實,韓曉光追逐 SIGGRAPH 的過程遠遠比他想得還要煎熬。
第一年,傅紅波給了他一個課題。他斗志滿滿,一拿到題目,他想的就是奔著 SIGGRAPH 去。研究進展地很順利,也取得了一些不錯的實驗結(jié)果,于是他就抱著“應(yīng)該能中”的心情投了出去。
結(jié)果出來,雖然總體評分還不錯,但其中一個審稿人給出了“拒稿”意見。之后,他接連改了好幾次投出去,最后才中了一個排名不算特別好的期刊。
韓曉光第一次感受到:好像 SIGGRAPH 還挺難的。
第二年,他又做了一個新的項目,但實驗結(jié)果還沒有第一年好,連自己的標準都達不到。最后,他干脆連 SIGGRAPH 也沒有投。
這讓他有點泄氣。為了投 SIGGRAPH,他連續(xù)幾個月都吃睡在實驗室,經(jīng)常熬夜、看論文、趕論文,而結(jié)果卻不如意。
當時他有傲氣,心里總想:“我一定要中一篇 SIGGRAPH。幾乎成了一種執(zhí)念?!?/p>
韓曉光事后告訴雷峰網(wǎng),從小到大,他都是一個比較佛系的人,知道讀書的重要性就會去努力讀書,但成績?nèi)绾?,往往是盡人事、聽天命。他唯一堅持過的事情,就是發(fā)表 SIGGRAPH。
而且,這種執(zhí)著一直貫穿到 2013 年他去香港大學讀博的四年。
到港大讀博后,韓曉光繼續(xù)死磕圖形學、死磕 SIGGRAPH。
他的導(dǎo)師是當時剛剛從美國 UIUC 結(jié)束教職回港任教的俞益洲。
俞益洲也是浙大培養(yǎng)的圖形學畢業(yè)生,曾師從中國第一個在 SIGGRAPH (1988年)上發(fā)表論文的圖形學先驅(qū)彭群生,后來因在幾何建模和基于圖像的建模方面貢獻突出當選了 2019 年度的 IEEE Fellow。
博士第一年,俞益洲就給了韓曉光一個頗有難度的課題——人體三維重建。
盡管當時的想法只是做簡單的重建,基于少量圖像,結(jié)合交互技術(shù)生成一個三維人體模型,但在那個時候,相關(guān)技術(shù)還遠遠沒有成熟。所以盡管俞益洲的研究眼光很前瞻,但對當時的韓曉光來說難度卻著實不小。
韓曉光花了一年多時間去探索,最后發(fā)現(xiàn)課題還是太難,沒有取得好的實驗結(jié)果,投 SIGGRAPH 沒成功,又轉(zhuǎn)去投 CVPR。這是韓曉光第一次投 CVPR,天性樂觀的他再一次想“應(yīng)該能中”,結(jié)果跟第一次投 SIGGRAPH 一樣,也遭到了“拒稿”。
那時候,他開始真正地從心底里對 SIGGRAPH、CVPR 這樣的頂會產(chǎn)生敬畏之心,知道原來要發(fā)一篇 SIGGRAPH 不是那么簡單的,“要做一個很頂級的工作,真的要花特別多努力才行”,而且“必須做得非常完美”。
博士第二年與第三年,韓曉光換了研究課題,但自己的課題還是沒有中 SIGGRAPH,倒是他參與的實驗室其他成員的工作先后發(fā)表在了 SIGGRAPH 2015 和 2016 上,一篇第二作者,一篇共同一作。但韓曉光覺得不能算是自己的代表作。
一直到 2017 年,也就是韓曉光讀博的最后一年,他才在 SIGGRAPGH 發(fā)表了一篇一作論文、也是他博士生涯最重要的一個工作:DeepSketch2Face。
2015 年,肖建雄、湯曉鷗等人合作將深度學習用于三維視覺研究,“3D ShapeNets: A Deep Representation for Volumetric Shapes”一文在 CVPR 引起廣泛關(guān)注,也吸引了一直想做三維重建的俞益洲。他當即向團隊提出要開始研究深度學習。
他將人臉三維重建的課題派給韓曉光,希望他能基于深度學習對人臉進行三維草圖重建。韓曉光從 2016 年開始獨自探索,花了將近一年的時間,結(jié)合深度學習、視覺圖像理解、圖形學中的人臉建模、幾何變形與交互等多個學科的知識,竟然成功地取得了不錯的結(jié)果。
論文:DeepSketch2Face: A Deep Learning Based Sketching System for 3D Face and Caricature Modeling
使用 DeepSketch2Face 這個系統(tǒng),用戶可以在幾分鐘內(nèi)就獲得表情各異的 3D 人臉或漫畫模型,游戲或動畫建模師們也可以輕松創(chuàng)建高保真人臉模型,進而為虛擬角色賦予靈動形象。這個工作發(fā)表在 SIGGRAPH 2017,受到許多人的肯定。韓曉光第一次被邀請到了各個場合做演講分享。
歷時多年、成功發(fā)表 SIGGRAPH 一作,韓曉光的內(nèi)心有興奮、有自豪,但更多的,是一種已經(jīng)被磨練過的虔誠與謙卑。
在這幾年里,SIGGRAPH 就像圖形學的一座圣碑,指導(dǎo)韓曉光前進,也教會了他科研的本質(zhì):歷經(jīng)挫折仍要不改初心,遭遇低谷也要抬頭向前。但最重要的,是這過程中攀登所看到的風景。
這是沒有元宇宙時的圖形學成長人生。
3、從追隨者到建設(shè)者
在韓曉光讀研究生、到他加入港中深的多年里,圖形學的就業(yè)方向其實一直狹窄,集中在追求酷炫特效的影視與游戲行業(yè)。加上國內(nèi)科幻電影發(fā)展不振,游戲行業(yè)政策也不明朗,所以圖形學在國內(nèi)一直是一個“小圈子”。
2018 年韓曉光到港中深任職時,整個學校就只有他這一個研究圖形學的老師。
現(xiàn)在港中深一共有兩位研究內(nèi)容與圖形學相關(guān)的老師,一位是韓曉光,另一位則是 2021 年新加入的孫啟霖。不過,孫啟霖的工作也不是傳統(tǒng)的圖形學,而是圖形學中用于三維圖像采集的計算成像設(shè)備。
這期間,韓曉光也見證或親歷了圖形學的發(fā)展變化:
一方面是元宇宙概念的興起,給圖形學帶來了新的想象力,涌入圖形學領(lǐng)域的科研資金也在增多,圈子在擴大。
韓曉光記得,當時他剛開始從事教職時,因為圈子小,招生與找錢都是一件很困難的事情。后來,也是多虧他以前的導(dǎo)師劉利剛(后來去了中科大任教)與時任港中深校長講座教授的崔曙光介紹,才解決了招生和科研經(jīng)費的難題。
元宇宙大火后,圖形學技術(shù)開始受到許多企業(yè)的關(guān)注。在去年,就有幾家國內(nèi)的企業(yè)找到了韓曉光,希望與他合作。
韓曉光在 SIGGRAPH 2017 上發(fā)表的工作 DeepSketch2Face 屬于深度學習在計算機圖形學中的一次大膽嘗試。在這個方向上,他也是入門最早的青年學者之一。目前,他在港中深建立的實驗室 GAP,就將三維視覺作為實驗室一個重點研究的方向。
“GAP”的全稱是“Generation and Analysis of Pixels, Points and Polygons”,其中,pixels 指的是“像素”,points 是“點云”,polygons是“多邊形網(wǎng)格”,這三塊是圖形學和視覺領(lǐng)域需要重點處理的對象,而生成與分析/理解是兩大任務(wù)。這樣加起來,就構(gòu)成了“GAP”一名。
GAP Lab 主頁:https://gaplab.cuhk.edu.cn/
三維視覺一塊也涉及到計算機視覺的知識,韓曉光在任教后也不斷學習這一塊的內(nèi)容,并將其與圖形學相結(jié)合,也取得了不錯的成績。例如,他在單視角三維重建方面的研究就曾兩次入圍 CVPR 的最佳論文提名。
單視角三維重建是從大量的二維圖像中恢復(fù)物體(如人體、人臉、場景等)的三維結(jié)構(gòu),在計算機上實現(xiàn)對客觀世界的虛擬現(xiàn)實表達。
為了解決從單視角圖像中重建完整三維物體的視覺難題,韓曉光與童欣等人曾合作設(shè)計了一種基于骨架表達的新型三維幾何深度學習算法,能夠漂亮地實現(xiàn)對拓撲復(fù)雜的物體形狀重建。
這項成果(“A Skeleton-bridged Deep Learning Approach for Generating Meshes of Complex Topologies from Single RGB Images”)令會議審稿人眼前一亮,均給出了“Strong Accept”(強烈接收)的意見,入圍了 CVPR 2019 最佳論文提名。
除了復(fù)雜形狀的物體,更大空間的場景重建也是一個重要任務(wù)。韓曉光提出的從單張圖像完整重建室內(nèi)場景的方法,結(jié)合場景理解和三維網(wǎng)格重建兩種任務(wù),能夠自動生成房間布局、攝像機姿態(tài)、物體包圍盒和三維網(wǎng)格,并完全恢復(fù)室內(nèi)物體的幾何信息。
這篇論文(“Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image”)也同樣得到了審稿人的一致好評,入圍了 CVPR 2020 最佳論文提名。
近兩年,韓曉光最自豪的一項工作是與團隊發(fā)表了一個包含 2078 個高清晰度三維服裝點云模型的數(shù)據(jù)集 Deep Fashion 3D,是全球目前最大的真實三維服裝數(shù)據(jù)集,獲得了中國計算機圖形學大會(Chinagraph)2020 年度的“圖形開源數(shù)據(jù)集獎”。
今年,他們又有一項服裝三維重建的工作(Registering Explicit to Implicit: Towards High-Fidelity Garment mesh Reconstruction from Single Images)發(fā)表在了 CVPR 2022。
對服裝進行三維重建的難點在于衣服的褶皺細節(jié),韓曉光提出的新型單幅圖像三維服裝重建方法,將顯式網(wǎng)格與隱式形狀的表示方法相結(jié)合,能夠很好地重建出不同的服裝類型以及豐富的幾何細節(jié),看起來也更逼真:
近兩年,許多研究工作也表明,圖形學與視覺的相互借鑒能夠帶來許多新的想法。
韓曉光從 2016 年研究 DeepSketch2Face 時開始接觸深度學習與計算機視覺,逐漸對兩個領(lǐng)域的共性與差異有更深的了解。他在基于深度學習的三維重建一塊的工作,也體現(xiàn)了將兩者融合的思考,是國內(nèi)甚至全球較早研究這一方向的學者之一。
這時候的韓曉光,實際上已從圖形學的追隨者,變?yōu)閳D形學的建設(shè)者。但相比起當初的肆意輕狂,如今的韓曉光卻更謙卑、努力。他的學生常有這樣的感受:前一天晚上他們才討論工作到凌晨一點,第二天早上七點鐘就又接到了他的消息。
關(guān)于如何當一名學者,韓曉光也是受到圖形學前輩的影響:
2018 年那會,他剛當大學老師,到深圳大學參加一個圖形學的會議。那時童欣也是參會者之一,他們坐同一輛大巴,韓曉光就坐在童欣旁邊。
他問童欣:“童姥,您研究圖形學幾十年,為什么還這么認真地聽報告呢?”
但童欣回答他:“其實我還有很多知識不懂,還要跟在座的講者多學習?!?/p>
童欣的謙卑與好學,給韓曉光的心中留下了很深的印象。他事后告訴雷峰網(wǎng):“像童姥這樣研究圖形學研究了幾十年的學者都這么謙虛,都還在不斷學習,我才剛?cè)腴T沒幾年,有什么理由懈怠呢?”
4、元宇宙的熱與冷
韓曉光對圖形學的敬畏與虔誠,也延續(xù)到了他對元宇宙熱潮的思考上。
這兩年,幾乎所有計算機的從業(yè)者都在關(guān)注元宇宙,F(xiàn)acebook 更是直接改名為 Meta。許多原本將 AI 作為招牌的企業(yè),也紛紛往元宇宙上靠邊,與之相關(guān)的圖形學技術(shù)也受到了極大的追捧。
此前韓曉光一直在學術(shù)圈活動,但近年來,他也感受到了工業(yè)界對元宇宙、甚至圖形學的關(guān)注。
目前,韓曉光的 GAP 團隊也在與企業(yè)界合作,研究如何用圖形學、視覺等知識來做虛擬人或虛擬場景。
元宇宙的一個基礎(chǔ)理念,就是要將現(xiàn)實的物理世界數(shù)字化,將人、物體、場景等等在虛擬世界中盡可能真實地還原,當下正火的虛擬人與虛擬場景正是構(gòu)建元宇宙不可缺少的部分。
本質(zhì)上來說,圖形學技術(shù)就是“造假”,能輔助生成虛擬世界中的內(nèi)容,如前面韓曉光用圖形學生成數(shù)字化的場景(房間、桌子、椅子),而且真實度更高。
這一點在游戲中可以作證:早年我們玩的馬里奧游戲畫面是像素格子,引入圖形學的技術(shù)后,現(xiàn)在的游戲畫面可以做到十分流暢、逼真。
但同時,韓曉光在討論元宇宙時,也時刻保持著一種冷靜的態(tài)度:元宇宙是一個概念,它的熱度或許過兩年就會消退,但圖形學的研究卻是一個要持續(xù)進行的工作,因為這項技術(shù)的研究門檻很高,理論突破也很難。
這不僅是韓曉光從早年追逐 SIGGRAPH 的經(jīng)歷中所感悟到的,也是他對圖形學技術(shù)有清晰思考的結(jié)論。
圖注:現(xiàn)任港中深助理教授的韓曉光
圖形學確實可以幫助構(gòu)造元宇宙,但當前的技術(shù)還未發(fā)展成熟,距離所有人都能在虛擬的數(shù)字世界中使用圖形學工具來創(chuàng)作內(nèi)容的臨界點還有很長的路要走,可能是五年,也可能是十年。
比如,韓曉光與團隊就常討論元宇宙中的交互問題。
早期的圖形學也是解決用戶與計算機的交互:例如,人類用戶操作鼠標,從左到右在物理空間中劃一根線,計算機要如何基于這一簡單操作來理解人類想要“畫一根線”的意圖,就是圖形學要解決的問題。
而在元宇宙中,圖形學要解決的問題比用戶簡單地畫一條線更復(fù)雜,當前的圖形學技術(shù)還無法讓大多數(shù)人只用很短的時間就能在數(shù)字世界中操作??梢栽O(shè)想一下:假如你要在游戲《塞爾達傳說》的大草原中建一棟房子,難度有多大?
除了算法的精確度與“恐怖谷效應(yīng)”外,研發(fā)成本也是要考慮的問題。就拿虛擬人來說,當前各個公司打造虛擬人都需要人類建模師予以輔助,造價高昂。
所以,在元宇宙的浪潮中,韓曉光看到了機會,也看到了挑戰(zhàn)。
他告訴雷峰網(wǎng),站在他的角度,他自然希望能夠用圖形學、計算機視覺等知識來降低虛擬人、虛擬場景的研發(fā)成本,改進算法精度等等,但這需要時間。
資本的耐心往往是有限期的。不過對韓曉光來說,他本就是從圖形學少人問津的時候走到門庭若市,即使元宇宙明天就消退,他也還是會堅守在原有的位置上,做他本該做的事情,就是踏踏實實地做科研罷了。
5、對話韓曉光
雷峰網(wǎng):怎么用圖形學打造元宇宙?
韓曉光:我只能從技術(shù)的角度講講。以虛擬人為例,圖形學打造虛擬人主要有幾步:
第一步是采集。
我們用手機拍一張照片,就是對周圍的世界做了一次二維數(shù)字化。虛擬人的構(gòu)建則需要“三維數(shù)字化”。采集對象是真人,就需要對整個人體包括皮膚、衣服、頭發(fā)、鞋子等等進行采集。頭發(fā)的發(fā)質(zhì)與密度有參差,衣服的款式與材質(zhì)也多種多樣,這對采集圖像的細粒度要求非常高。
所以,要想 1:1 還原,光用手機拍一張照片還不夠,還需要使用多臺設(shè)備做多視角的采集。利用專業(yè)的立體相機與攝像設(shè)備如 RGBD、Light Stage 等,就可以全方位捕捉人體三維模型信息。
第二步是建模。
采集完人的數(shù)據(jù)后,就是進行建模。虛擬人建模的難點是如何在計算機中找到一種合適的表達方式來表達真人的特征細粒度,如上述談到的皮膚、衣服、頭發(fā)、睫毛等等。舉個例子,如何表達頭發(fā)?就是用一根一根的線去表達,可能是 10 萬根線,這 10 萬根線由算法自動生成。
表達也分兩部分,一部分是三維幾何,即物體的形狀;另一部分是紋理和材質(zhì)。建模這一步,就是要建幾何、紋理與材質(zhì)。
第三步是渲染。
建模之后,就是渲染。渲染就是將一個物體在光的環(huán)境下呈現(xiàn)出的模樣進行表達。
比方說,得到一個球體的三維表達后,球的顏色是黃色,材質(zhì)是皮質(zhì),渲染可以將球渲染成不同的樣子,可能將球渲染成玻璃材質(zhì),也可能渲染成木頭材質(zhì),一打光、材質(zhì)失真。而要將球真實還原,就要還原到其本身的皮質(zhì)。
第四步是動畫。
以上三個步驟完成,得到的是靜態(tài)的人體模型,如何讓虛擬人做起動作來也靈動逼真,就是之后的動畫所要考慮的事情。無論是人移動時衣服紋路的細膩變化,還是流水、氣體、云霧、燃燒等動態(tài)的自然現(xiàn)象,都需要做有高度物理真實感的模擬,來增強我們在元宇宙中的沉浸感。
雷峰網(wǎng):目前國內(nèi)很多企業(yè)都有團隊在研究虛擬人,就是用圖形學技術(shù)做的嗎?
韓曉光:大概都是這幾步。不過,目前的虛擬人技術(shù)還都不是純靠圖形學,背后大多有人類建模師的參與。最常見的流程是:
用算法做出一個粗模,然后交給建模師,建模師對粗模進行修飾、改進,得到一個高模,高模出來后還需要建模師去定義虛擬人如何動、定義人體的關(guān)鍵點來形成骨架,然后再通過一些視頻算法獲取信息,讓虛擬人動起來,再把這段動起來的視頻交給工程師精修,最后才出來一段大家看起來還不錯的虛擬人視頻。
如果只是做靜態(tài)的虛擬人,幾千上萬塊就能搞定。但如果你希望這個形象能夠像真人一樣動起來,動的時間越長,價格就越高。所以從我的角度看,我是希望能從技術(shù)的改進中降低一些成本。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):2018 年您剛找教職時,元宇宙還沒出現(xiàn),圖形學的關(guān)注度也不是很高,您當時怎么招生、申請科研基金?
韓曉光:當時確實是比較難。圖形學是一個小圈子,雖然你的競爭者不多,但是能申請到的科研經(jīng)費也不多。我最開始是跟其他老師合作指導(dǎo)學生,然后我的碩士導(dǎo)師劉利剛(現(xiàn)在在中科大)也給我介紹了一些學生。
另外,在我初入教職時,崔曙光老師對我的支持非常大。我以前聽劉利剛老師說過,人的一生一定會遇到幾個貴人,我覺得崔老師就是我職業(yè)生涯中的第一位貴人。
我記得最早找教職的時候,就是崔老師面試我,所以我認識的第一位港中深的老師就是崔老師。2018 年我入職時,崔老師還沒有全職加入港中深,在美國還有職位,所以他管的事情不是很多。但那時候,我有什么事情,找崔老師,他都是非常支持。很多時候我就給他發(fā)一個信息,問他能不能怎么怎么樣,崔老師就是回兩個字:支持。
這讓我感覺到非常舒服,在項目經(jīng)費、帶學生方面,崔老師也是非常支持。崔老師自己是研究網(wǎng)絡(luò)通信的,對于我的研究方向不是特別了解,但他就是非常支持我,也給了我很大的自由度。平時他也會跟我們講講學術(shù)界要注意什么,也會有一些教誨。
崔曙光老師曾擔任港中深理工學院執(zhí)行院長,目前擔任港中深未來智聯(lián)網(wǎng)絡(luò)研究院的創(chuàng)始院長,我也在這個研究院下面,跟著他一起做事情。
圖注:韓曉光(右四)、崔曙光(左四)與實驗室學生的合影
雷峰網(wǎng):未來智聯(lián)網(wǎng)絡(luò)研究院是什么個情況?
韓曉光:研究院是在去年成立的,目前正在承擔國家重點研發(fā)計劃,廣東省重點研發(fā)計劃,廣東省珠江團隊項目,成立了港中大(深圳)-國家無委會監(jiān)測中心檢測中心頻譜大數(shù)據(jù)聯(lián)合實驗室、港中大(深圳)-京東集團人工智能聯(lián)合實驗室、港中大(深圳)-羅湖醫(yī)院集團醫(yī)療大數(shù)據(jù)聯(lián)合實驗室、深圳市大數(shù)據(jù)與人工智能重點實驗室等。雷峰網(wǎng)
研究院的長遠目標是發(fā)展數(shù)據(jù)驅(qū)動的未來信息網(wǎng)絡(luò)、類腦智能、人機接口、分布式網(wǎng)聯(lián)智能、智慧醫(yī)院應(yīng)用等方向的科學研究。
雷峰網(wǎng):您剛剛談到童姥的學者風采,我們注意到童姥 9 月 2 號參加了你們第四期 PaSS 的訪談。上一期,你們也邀請了曠視的張祥雨。為什么要做 PaSS 這個節(jié)目?
韓曉光:我們實驗室剛剛起步時,很多學生都是小白,所以在做科研受挫時,他們經(jīng)常會想:如果沒有辦法很快產(chǎn)出論文,是不是就不適合這個方向?經(jīng)常自我懷疑。
因為我也經(jīng)歷過發(fā) SIGGRAPH 的痛苦,所以我也能理解。我一開始會跟他們說,只要方向是對的,加上大家有主動探索的意愿,風雨之后總有彩虹。但我發(fā)現(xiàn),只是說道理,大家很難接受。所以我就想,是不是能用學者們親身經(jīng)歷過的故事來讓他們知道,探索中的曲折是一件很正常的事情。
我就想到辦 PaSS(Paper Story Sharing)故事會,邀請一些圖形學和視覺領(lǐng)域的前輩來給大家講講論文背后的故事:他們最開始是怎么產(chǎn)生一個想法的,在想法實施的過程中遇到了哪些問題,面對這些問題的時候是怎樣的心態(tài),這些問題最后是怎樣的情況?這些答案可以讓學生更了解一個工作和科研。
我本意也只是想邀請一些前輩給組里的學生分享故事,但后來覺得希望能對更多的圖形學和視覺社區(qū)的人有所幫助,便將PaSS辦成了直播的形式。這可能也是受到我老師劉利剛的影響,他就很喜歡給社區(qū)做貢獻,GAMES(國內(nèi)知名的圖形學論壇)就是他發(fā)起創(chuàng)辦的。
雷峰網(wǎng):您同時活躍在圖形學和視覺兩個社區(qū),對這兩個領(lǐng)域的共性和差異性有什么體會?
韓曉光:從研究內(nèi)容上來說,一個簡單的區(qū)別可能是,圖形學是生成,視覺是理解。不過我覺得沒有必要將兩個方向分得那么開,比如我研究的三維重建就是兩個領(lǐng)域都關(guān)心的問題。
前幾年我還是投 CVPR 多一點。SIGGRAPH 也有投,但很少中,因為有三四年沒怎么專注在圖形學這一塊,研究做的不夠多。據(jù)今年的統(tǒng)計,大陸高校一共也才中了 46 篇 SIGGRAPH。
我的一個感受是,視覺社區(qū)和圖形學社區(qū)的科研品味還是不太一樣的。很多圖形學的研究向 CVPR 投稿不會被接收,很多視覺的研究投 SIGGRAPH 也會被直接拒稿。
以人臉識別為例,如果你在人臉識別上的研究結(jié)果做不到能用,那么你投 SIGGRAPH 基本上是中不了的。但視覺不一樣,視覺喜歡定義一個問題,然后大家針對這個問題做研究,把性能提升得越高就好。兩個領(lǐng)域的玩法不一樣。這幾年我從圖形學轉(zhuǎn)到視覺的過程中對這一點就深有體會。
雷峰網(wǎng):能否舉一個具體的例子?
韓曉光:比如我們做過一項人體姿態(tài)估計的研究,我們寫的論文投向 CV 三大頂會,前后兩年投了四次才中。雷峰網(wǎng)
在人體姿態(tài)估計問題上,圖形學的做法是專注于解決一個具體問題,做到效果很好,比如只做一個人的姿態(tài)估計或者兩個人跳華爾茲舞的姿態(tài)估計,可以用到很多先驗知識來幫助你做得更好。
按照這樣的路子做完這項工作之后我就投稿,得到的審稿意見確實很好,效果也挺好的,但是他們說不夠 general(通用)。這是我第一次感覺到圖形學跟視覺在研究上面是有區(qū)別的。圖形學是為了做出效果,所以做的東西可以很 narrow,但精度很高。而視覺要求 general,也就是往往更喜歡做非常泛的算法。
所以我們就去改,改出來的第二版還是沒有做得很 general,后來投稿結(jié)果還是一樣,審稿意見指出了同樣的問題。最后到了第三次修改的時候,我們就妥協(xié)了,去“懟”算法,做了一個 general(通用)的東西。
這是兩個領(lǐng)域不同的 taste。我覺得審稿人說的是有道理的,只是兩個領(lǐng)域不太一樣而已。這幾年我慢慢從圖形轉(zhuǎn)到視覺,有過很多試錯,慢慢就有感覺了。
雷峰網(wǎng):您會更認同哪一種“玩法”?
韓曉光:我倒覺得無所謂。做研究跟投什么頂會沒有多大的關(guān)系,核心是研究,把工作做好,把現(xiàn)有的問題解決掉,最后投哪個會議都可以。我現(xiàn)在已經(jīng)過了非要中 SIGGRAPH 的那個階段了(笑)。
其實每個人讀博前的成績都非常好。讀博之后,遇到各種各樣的挫折,我覺得是很正常的。我經(jīng)常跟學生說,科研一定是一個不斷自我懷疑的過程,這里面最重要的是要自我說服,自己給自己打雞血,自我安慰、自我認可。比如我也是花了七年的時間才完成一個只屬于自己的還不錯的工作。
現(xiàn)在元宇宙很火,實驗室里也有一些學生希望以后去打造元宇宙,我覺得這都可以。夢想還是要有的,但要堅持,說不定哪天就能實現(xiàn)了。但我們做研究,也不單單是為了發(fā)論文或隨大流,最終還是為了能對科技做點微薄的貢獻,真正能推動領(lǐng)域的發(fā)展。雷峰網(wǎng)
(港中深在讀博士生邱宇達對本文亦有貢獻)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。