2
本文作者: 李尊 | 2016-11-17 20:20 | 專題:微軟亞洲研究院院友會(huì) |
雷鋒網(wǎng)按:本文根據(jù)童欣博士在微軟亞洲研究院院友會(huì)成立儀式上所做報(bào)告《網(wǎng)絡(luò)圖形,從交互到智能》編輯整理而來,在未改變原意的基礎(chǔ)上略有刪減。
童欣,微軟亞洲研究院首席研究員,研究主管。童欣博士1996年畢業(yè)于浙江大學(xué)獲碩士學(xué)位,1999年畢業(yè)于清華大學(xué)獲博士學(xué)位并于同年加入微軟亞洲研究院。童欣博士的研究方向?yàn)檎鎸?shí)感繪制、表觀建模、紋理合成以及人體動(dòng)畫捕捉。童欣博士曾任Computer Graphics Forum編委,SIGGRAPH Asia 2008、2009,SIGGRAPH Asia 2011,SIGGRAPH 2012, SIGGRAPH Asia 2013論文Committee成員,Pacific Graphics 2013論文主席。
事情要從15年前說起,2001年的時(shí)候,Harry(沈向洋)和百寧(郭百寧)決定要成立一個(gè)新的圖形組,那么就需要有一個(gè)很酷的組名,于是他們決定叫做“互聯(lián)網(wǎng)圖形組”。
名字起得很好,問題也馬上來了:基本上每個(gè)見到我們的人都問什么是Internet Graphics?
為了回答這個(gè)問題,在2001年的時(shí)候我們集中全組的力量做了第一個(gè)項(xiàng)目,Game Download & Play。
這項(xiàng)目我們想把游戲圖形的數(shù)據(jù)、幾何、紋理做一些壓縮,那么通過互聯(lián)網(wǎng)下載的時(shí)候,大家就不用等那么長的下載時(shí)間了,很快把一部分?jǐn)?shù)據(jù)下載到本地之后,大家就可以開始玩游戲了。
這項(xiàng)目可以說非常成功。這之后我們順利地開始做SIGGRAPH……
轉(zhuǎn)眼到了2010年,百寧把接力棒交給我,讓我慢慢開始負(fù)責(zé)整個(gè)圖形組,那么我要怎樣激勵(lì)大家、我們組里應(yīng)該有什么樣的愿景。
我也開始思考這些問題,重新在問自己到底什么是互聯(lián)網(wǎng)圖形?
如果我們看看周圍,可以看到很多成功的例子。
Internet與文字結(jié)合時(shí)效果很好:出現(xiàn)了網(wǎng)絡(luò)文學(xué)、微博、Wikpedia等。
Internet與圖片結(jié)合時(shí)效果也很好:出現(xiàn)了Instagram、美圖秀秀、500px等。
Internet與視頻結(jié)合時(shí)效果也很好:出現(xiàn)了Youtube、愛奇藝、網(wǎng)絡(luò)直播、網(wǎng)紅等。
回頭再看看Graphics,卻好像什么都沒發(fā)生,就這樣過了十年,那么到底出了什么問題呢?
有傳言說,如果你站在風(fēng)口,就算你是一頭豬也能飛起來??墒俏疫@么瘦的一個(gè)人,站了這么久,怎么還沒飛起來,這到底出了什么問題?
我做了一些粗淺的研究,認(rèn)真想了一想。我發(fā)現(xiàn),飛起來這件事,不是什么都可以,要滿足兩個(gè)條件:
內(nèi)容最好是每一個(gè)人都能產(chǎn)生、都能創(chuàng)造,那么有了網(wǎng)絡(luò)大家就可以互相交流,你的內(nèi)容就會(huì)有海量增長。
隨著移動(dòng)平臺(tái)的發(fā)展,如果你這個(gè)內(nèi)容的產(chǎn)生和消費(fèi)能互聯(lián)到每一個(gè)平臺(tái)上,讓大家在任何地方都能生產(chǎn)消費(fèi),這時(shí)候你就真的飛起來了。
那么我們看看圖形學(xué)到底是個(gè)什么狀況?
答案很悲慘:在Everyone方面,三維內(nèi)容的生產(chǎn),對普通用戶而言還是非常難的任務(wù)。
最左邊大家可以看到傳統(tǒng)的造型動(dòng)畫軟件,界面很復(fù)雜,即使是藝術(shù)家也需要好幾年的學(xué)習(xí)才能做好一個(gè)模型。另一方面,雖然我們有一些設(shè)備幫助大家來做三維內(nèi)容的捕捉,比如三維掃描儀、光穹、動(dòng)捕等等,但這些設(shè)備都非常昂貴,每個(gè)要幾百萬,還需要專門的場地和專業(yè)的操作,普通用戶享受不到。
我們再看看Everywhere,發(fā)展了這么多年,所有三維圖形的內(nèi)容都是通過一個(gè)二維的屏幕來傳遞給大家的——某種意義上來講,我們的內(nèi)容和2D的視頻就沒有太大的區(qū)別。
我們的交互就不用提了,我們還得通過鼠標(biāo)、鍵盤或者gamepad進(jìn)行交互,這些交互跟我們在真實(shí)三維世界中所做的交互是非常不同的。
由于這些限制,大家就會(huì)發(fā)現(xiàn):
到現(xiàn)在為止,圖形的生產(chǎn)和消費(fèi)基本和互聯(lián)網(wǎng)無關(guān),基本的方式還是少數(shù)的藝術(shù)家,他們組織在一起,經(jīng)過艱苦的奮斗,做了一些游戲、電影,然后把東西通過市場分發(fā)給成千上萬的消費(fèi)者進(jìn)行消費(fèi)。一切還是停留在傳統(tǒng)的模式。
基于這樣的想法,我們就提出了我們互聯(lián)網(wǎng)圖形組的愿景:
我們希望做一些圖形學(xué)的工具和系統(tǒng),能幫助每個(gè)人很方便地產(chǎn)生、觀看和分享一些三維內(nèi)容。同時(shí),我們希望能在自然世界和虛擬世界間提供更自然的界面和交互的方式。
另外我們還想在可視的和不可視的抽象信息之間提供一些自然的界面,把抽象的信息變成可視的展現(xiàn)出來。
過去五年我們?yōu)榱诉@一愿景做了很多不同方面的研究,慢慢意識(shí)到也許基于智能或者數(shù)據(jù)的方法是個(gè)很好的解決方案。
原因有下面幾個(gè):
第一,我們已經(jīng)有了一些昂貴的設(shè)備,這些設(shè)備幫助我們捕捉了大量高質(zhì)量的數(shù)據(jù)。
第二,我們也有了比較便宜的設(shè)備,這些設(shè)備可以為我們的系統(tǒng)提供一個(gè)初始的輸入,不用從零開始了。
第三,一些關(guān)于機(jī)器學(xué)習(xí)方面的技術(shù)進(jìn)展可以讓我們把這些技術(shù)用到圖形學(xué)的問題里。
那么也許一個(gè)比較好的解決方案是通過低價(jià)普及的設(shè)備,比如普通相機(jī)和深度相機(jī),加上智能的算法,再有些時(shí)候需要一些簡單的用戶輸入,來方便地產(chǎn)生三維的內(nèi)容。
關(guān)于智能算法,我們希望它能做兩件事:
一是希望能夠利用到所有三維數(shù)據(jù)的本征特性,用這些幫助我們產(chǎn)生內(nèi)容。
二是可以用機(jī)器學(xué)習(xí)來進(jìn)行端到端的學(xué)習(xí),在輸入和輸出之間直接建立一些聯(lián)系。
下面我用我們組研究的一個(gè)研究課題三維物體的數(shù)字化來進(jìn)一步說明舉例。
三維物體數(shù)字化的目標(biāo)是希望將一個(gè)真實(shí)世界的三維物體,完美地傳遞掃描進(jìn)一個(gè)虛擬世界。
為做到這一點(diǎn),我們不僅僅要捕捉三維物體的幾何形狀,還要重現(xiàn)它的材質(zhì)信息。注意,有了幾何信息雖然可以知道物體形狀,卻不知道這個(gè)物體是什么,只有有了物體材質(zhì)表面反射屬性以后,我們才能在三維世界中真正栩栩如生地體現(xiàn)出來,大家就會(huì)的清楚知道這是真實(shí)世界的一個(gè)啤酒瓶,上面有一個(gè)紙標(biāo)簽,標(biāo)簽上有燙金字……
我想我不需要再說明這樣一個(gè)工具對VR/AR內(nèi)容的產(chǎn)生、或者對虛擬購物等應(yīng)用是多么重要。
現(xiàn)在我們回想現(xiàn)有的解決方案是什么?
基本上我們可以發(fā)現(xiàn)這流水線還是非常長的。
首先用設(shè)備掃描三維幾何形狀,但是掃描得到的這些幾何形狀在大部分情況下非常糟糕,需要大量人工交互工作來去除噪聲、平滑三維模型。
材質(zhì)捕捉就更麻煩了,我們需要把物體挪到專用的捕捉室,放在專用的設(shè)備上,捕捉物體在各種光照、各種視點(diǎn)下的外觀,有了這些才能采集出真正的物體形狀和材質(zhì)。
大家可以發(fā)現(xiàn)這樣一個(gè)基本的任務(wù)還是有很多障礙,首先去噪方面需要很多手工交互工作,其次材質(zhì)捕捉設(shè)備很昂貴,另外這個(gè)流水線很長,需要分開的步驟去先捕捉幾何,再用另外的設(shè)備捕捉材質(zhì)。
那么我們看看我們用一些智能的算法能幫我們做什么事情:
第一個(gè)要介紹給大家的是我們?nèi)ツ暄邪l(fā)出來的一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模型去噪算法。
這里要做的是希望有個(gè)自動(dòng)的算法,幫我們除去掃描模型上的噪音,同時(shí)保留模型上面所有的幾何細(xì)節(jié),并且算法對不同設(shè)備掃描出來的模型都能很好的處理。我們的算法通過收集帶噪聲的掃描模型和對應(yīng)的基本沒有噪聲的高質(zhì)量模型,先去學(xué)習(xí)訓(xùn)練這些幾何之間的對應(yīng)關(guān)系?;谶@個(gè)對應(yīng)關(guān)系,我們就可以將一個(gè)帶有噪聲的掃描模型直接對應(yīng)生成它的沒有噪聲的模型,從而實(shí)現(xiàn)去噪的效果。這是我們組的劉洋研究員帶領(lǐng)實(shí)習(xí)生完成的工作。
我們這個(gè)算法在訓(xùn)練好了以后,用戶在用的時(shí)候是全自動(dòng)的。
我們的算法在我們所有的測試模型上去噪效果都超過了所有目前已有的模型去噪算法。
我們的算法還比所有已知算法都要快。
我們很快會(huì)把我們的算法源代碼和數(shù)據(jù)公布在網(wǎng)上,希望其他研究人員都可以在基礎(chǔ)上繼續(xù)研究,同時(shí)很多用戶也可以直接使用我們的算法。
下面我們來看一些實(shí)驗(yàn)結(jié)果。左邊是輸入一個(gè)掃描模型,有很多的噪聲,右邊是Ground Truth,右邊第二個(gè)是我們算法得到的結(jié)果。
這是另一個(gè)例子,掃描模型的噪音非常大,以前的算法只能除掉一些噪音,或者會(huì)抹去很多模型上的集合細(xì)節(jié)。我們的算法可以比較好地去掉模型上的噪聲,同時(shí)比較好地保留它的幾何細(xì)節(jié)。
我們再看看材質(zhì)捕捉方面,剛才我們說材質(zhì)捕捉設(shè)備很昂貴,捕捉過程很麻煩。
有什么更好的做法來做呢?
我們在兩年前做了世界上第一個(gè)不需要任何特殊設(shè)備和光照,只從自然未知光照下拍攝的物體視頻出發(fā)進(jìn)行材質(zhì)捕捉的算法。
這是我們團(tuán)隊(duì)的董悅研究員帶領(lǐng)實(shí)習(xí)生完成的工作。輸入就是大家看到的左邊的視頻序列,右邊是輸出的材質(zhì)捕捉的結(jié)果,最后我們把它放在一個(gè)新的光照下,物體可以栩栩如生地再現(xiàn)出來。
這個(gè)算法的關(guān)鍵是我們要從視頻中同時(shí)估計(jì)物體的光照和材質(zhì)屬性。我們發(fā)現(xiàn)自然環(huán)境中的光照和材質(zhì)本身具有不同的屬性,可以用這些屬性很巧妙地從觀察的數(shù)據(jù)最終把二者分分離開來。
這里顯示了我們算法所恢復(fù)的物體的材質(zhì)效果,不論是啤酒瓶上印刷的標(biāo)簽,還是光滑的瓷器,還是帶有鐵銹的金屬,我們的算法都能自動(dòng)地從一些視頻序列中把高質(zhì)量的材質(zhì)重構(gòu)出來。
有了這些工作,上面的流水線變得簡單自動(dòng)了很多,但還是要經(jīng)過兩步。
有沒有可能一步就把所有事情搞定?
去年我們在這方面做了一些研究,做了世界上第一個(gè)從視頻中同時(shí)恢復(fù)物體的幾何形狀和表面材質(zhì)的算法。
這個(gè)方法只是用了視頻而不再需要任何的深度相機(jī)捕捉的數(shù)據(jù)。
同樣,我們的算法不需要知道光照信息。左邊是我們算法輸入的視頻,右邊是捕捉的物體和材質(zhì)在新的光照環(huán)境下繪制的結(jié)果。
這是我們捕捉到的幾何和材質(zhì)和真實(shí)照片的對比,你可以看到所有的幾何細(xì)節(jié)、表面反光和材質(zhì)屬性都被很好的重建出來了。在不同的光照下看,所有物體都像真實(shí)物體一樣得到真實(shí)再現(xiàn)。
基于這一結(jié)果,我們把做的結(jié)果放到HoloLens,并和我們周圍的真實(shí)光照結(jié)合在一起,可以生成非常真實(shí)的效果。
剛才我們以物體的數(shù)字化為例說明了如何采用智能的算法幫助我們簡化建模過程,方便普通用戶捕捉三維內(nèi)容。
在過去幾年中我們在智能算法方面做了很多努力,我們逐漸認(rèn)識(shí)到,智能算法也許是能夠?qū)崿F(xiàn)普通用戶產(chǎn)生三維內(nèi)容的一個(gè)最終解決方案。
最后,我也想分享一下我在這個(gè)過程中所得到的經(jīng)驗(yàn)或者教訓(xùn):我總結(jié)為三個(gè)D。
第一、Open-minded
我們要積極地學(xué)習(xí)借鑒其他領(lǐng)域的方法算法,比如現(xiàn)在我們也在學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的東西。
第二、Concentrated
第一條就像吸星大法,把別人的東西都吸過來了。但還不夠,還要易筋經(jīng),把東西化成自己的,要知道自己拿到這個(gè)工具是要解決自己的問題的,聚焦于自己的問題,把那些東西為你所用。
第三、End-to-End
我們并不想發(fā)了一篇論文然后研究就結(jié)束了,論文更多的是一個(gè)交流表達(dá)的手段,關(guān)鍵是把問題真正給解決掉,最后給用戶提供一個(gè)真正的端到端的解決方案。
展望未來,可以說我們才剛剛起步,前面還有很長的路要走。
這也許是個(gè)壞消息,但對我來說這其實(shí)也是好消息。因?yàn)檫@意味著前面還有很多不確定性、很多挑戰(zhàn)。作為一個(gè)研究人員來說,這些困難、挑戰(zhàn)也正是我們最終的樂趣所在,雖千萬人,吾往矣。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章