0
本文作者: 田苗 | 2017-11-29 10:58 |
今天,電影已成為我們?nèi)粘I願蕵返囊徊糠帧臒o聲到有聲,從黑白到彩色,從樸實的實景到炫目的特效,無疑,今天的電影畫面越來越好看,這背后自然離不開技術(shù)的發(fā)展。
11 月 16 日,ICEVE 2017 北京國際先進影像大會在北京電影學(xué)院召開,除了“影像作品”本身,這場大會更加關(guān)注與影像作品密不可分的前沿技術(shù)。微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究院童欣,同時也是未來影響高精尖創(chuàng)新中心的科技委員會委員也參加了這次活動。
1999 年,童欣獲得清華大學(xué)博士學(xué)位,同年加入微軟亞洲研究院,主要從事計算機圖形學(xué)方面的研究,至今在該領(lǐng)域的研究已經(jīng)有 18 年時間。那么,計算機圖形學(xué)在十幾年的時間里,發(fā)生了什么變化?對影像作品產(chǎn)生了哪些影響?同時,當(dāng)前火熱的 AR/VR 又對圖形學(xué)提出了哪些新的要求?
現(xiàn)場,雷鋒網(wǎng)對童欣博士進行了專訪,采訪內(nèi)容雷鋒網(wǎng)整理如下。
微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究院童欣
Q 1:您能介紹下近幾年的一些研究方向嗎?
童欣:我們在微軟亞洲研究院屬于網(wǎng)絡(luò)圖形組(Internet Graphics)。研究的方向主要集中在內(nèi)容生成和交互方面。
內(nèi)容生成是指如何幫助用戶快速高效的生成高質(zhì)量的可視內(nèi)容,核心包括三維內(nèi)容,展示方式是圖像、視頻,圍繞這些做一系列的工作,如材質(zhì)建模、形狀建模、動畫生成等。
另一方面研究集中在人機交互、AR 和 VR 方面,VR/AR 中自然地人機交互,比如,識別和捕捉對方人臉的動作,幫助用戶生成 Avatar,手勢的自動生成,通過人體運動手段進行捕捉、重建,有了這些就可以方便用戶做識別和交互。
另外,是針對三維打印,軟體機器人方面的研究,這是圖形學(xué)的另外一個重要的應(yīng)用。生成虛擬的內(nèi)容后,現(xiàn)在隨著 3D 打印技術(shù)的進步,人們希望通過圖形學(xué)的手段把一些虛擬的東西,通過制造返回到真實的世界里,這就涉及到機器人相關(guān)、3D打印相關(guān)技術(shù)的前沿性研究。
Q 2:研究成果有哪些?如何跟微軟其他產(chǎn)品部門合作?
童欣:我們圖形組自成立以來,和微軟產(chǎn)品組一直有密切的合作。像以前 Xbox 和 Direct3D 中的渲染技術(shù)、建模技術(shù)、紋理映射技術(shù)很多都來自我們組的研究成果。圖形系統(tǒng)方面,比如這代 Xbox 游戲主機可以兼容上一代所有的游戲 ,這里面所涉及的圖形系統(tǒng)相關(guān)的技術(shù)都來自我們組。
跟產(chǎn)品部門的合作主要通過兩種方式進行,一是把我們最新的研究方向和研究成果展示給他們看,希望這些技術(shù)對產(chǎn)品的研發(fā)有一些啟發(fā),能給他們帶來新的應(yīng)用和場景;另一方面,他們也會把他們在產(chǎn)品開發(fā)中遇到的一些技術(shù)問題,反饋給我們,我們會根據(jù)這些問題做些特定的技術(shù)研究,幫助產(chǎn)品組把產(chǎn)品做的更好。
Q 3:您平時關(guān)注電影特效嗎?現(xiàn)在的電影畫面有什么大的變化?
童欣:一部新的動畫電影出來了,除了欣賞精彩的故事,我也會看看電影中所包含的技術(shù)的相關(guān)分析文章。另外像 SIGGRAPH 這樣的行業(yè)會議上,做了新電影的人,都會到會上做很多專題的報告,分享他們解決了哪些技術(shù)問題,應(yīng)用了哪些新的技術(shù)。
跟十幾年前相比,CG在電影制作中已經(jīng)無處不在了,在十幾年前的電影中如果有個CG,就是大制作,現(xiàn)在你很難找到?jīng)]有 CG 的電影了,電視劇特效做的也非常普通了。
這些特效,有些會呈現(xiàn)出奇幻的效果,還有一些可能你根本看不出來,會以為是實景。通過一些圖形學(xué)的技術(shù),把虛擬和真實結(jié)合在一起,這些東西從觀影角度已經(jīng)看不出來了。
同時,特效可以減少拍攝的成本,有些很真實的場景,拍攝難度很大,像馴服一只老虎,現(xiàn)在用計算機技術(shù),可以讓老虎看起來跟真實的一樣。
Q 4:您從業(yè)的十幾年中,計算機圖形學(xué)學(xué)科有什么變化嗎?
童欣:計算機圖形學(xué)是個變化很快的學(xué)科,是和應(yīng)用結(jié)合較緊密的學(xué)科,同時也是比較開放的學(xué)科。在圖形學(xué)里,十年前就在討論的核心技術(shù)問題,今天也在討論,但同時應(yīng)用和關(guān)注的熱點一直都在擴展,發(fā)生變化。
對于研究圖形學(xué)的人來說,任何跟可視相關(guān)的內(nèi)容,我們都會視為研究方向的一部分,但隨著一些方向慢慢成熟,又會從圖形學(xué)中分離出去??梢暬夹g(shù)、計算機輔助制造,虛擬現(xiàn)實,這些都是圖形學(xué)催生出來又逐漸分化出去的。而圖形學(xué)自己又在尋找新的發(fā)展方向。
Q 5::VR/AR 對圖形學(xué)提出哪些新的要求?
童欣:VR/AR 對圖形的渲染速度,圖形的質(zhì)量有很高的要求。設(shè)備從一個像電影這樣專門場所放映,到隨著 VR 設(shè)備普及,恨不得人手一個。這意味著應(yīng)用場景更大,我們對內(nèi)容制作的成本、時間、效率有更多的要求。不光是質(zhì)量上,速度和效率上也會有很多的挑戰(zhàn)。另一方面,當(dāng)我們在 VR/AR 環(huán)境中,提供了不同的體驗形式,這對交互也提出了很多挑戰(zhàn)。
Q 6:您是如何看待現(xiàn)有的手勢識別技術(shù)的?為什么現(xiàn)在還無法大規(guī)模使用?
童欣:手勢識別是非常具有挑戰(zhàn)性的問題,即使到目前也沒有人敢說,實時三維手勢跟蹤完全解決掉了。即使基于深度攝像頭,一個非常魯棒的手勢識別和跟蹤系統(tǒng),到目前還是一個挑戰(zhàn)性的問題。大家也沒有非常魯棒的方案,這就是為什么大家在市面上看不到手勢識別被大規(guī)模使用。
這里面又幾個問題。從輸入狀態(tài)上說當(dāng)我們有鼠標(biāo)和鍵盤的時候,我們可以清楚的分清輸入狀態(tài)和非輸入狀態(tài),比如說鍵盤當(dāng)我們不敲擊它,是非輸入狀態(tài)。對手勢而言,什么時候是輸入,什么時候是非輸入,很難區(qū)分。因為我的手勢時時在做,假設(shè)我還戴著 AR 眼鏡,我怎么讓設(shè)備知道,我是對設(shè)備做的手勢,還是對你做的手勢。手勢沒有一個狀態(tài)去劃分,從邏輯上講,要把這個問題先解決掉。
語音的交互也面臨同樣的問題。所以我們看到,大家會給智能語音音響起個名字,這個名字就是為了讓你切換輸入狀態(tài)。當(dāng)我們?nèi)ソ羞@個音箱的時候,音箱知道,這句話后面是輸入命令。你平常講話的時候,它就不會記錄了,因為不是針對它講的輸入命令。
從效率上講,我們在科幻電影中看到的手勢識別非常漂亮,但是如果你去問問人機交互的專家,他們就會告訴你,如果你讓一個人做這樣的交互,沒有人能堅持十分鐘以上,就是說對很多場景,這不是一種非常自然的輸入方式。
鼠標(biāo)和鍵盤被發(fā)明出來,一個方面原因你可以說是因為不自然,需要學(xué)習(xí),一旦你習(xí)得后,它的效率是非常高的。比如說游戲控制器,你只需要通過一個很小的運動,就可以在虛擬世界中有很大的運動,這個在實際的手勢中很難做到。
最后,當(dāng)我手握手柄的時候,手柄不僅是一個輸入設(shè)備,同時也是輸出設(shè)備,它可以通過震動、力反饋給我一個輸出的反饋,當(dāng)我手在空氣中揮舞的時候,我一個輸出的渠道就消失了。
所以,我們要等到技術(shù)成熟,然后找到手勢識別和手勢驅(qū)動最有效的應(yīng)用場景,解決了里面的命令定義的問題,那么手勢識別才能得到使用。手部識別如果只是識別雙手的位置,這個技術(shù)是比較成熟的,但你想想如果識別手部每個手指的姿態(tài),這還是比較難的。
Q 7:為什么對手部的實時追蹤這么難?
童欣:人手的姿態(tài),關(guān)節(jié)自由度是非常高的,雙手可以做各種各樣的手勢,再加上手臂的動作,自由度非常高,姿態(tài)空間非常大。
一個攝像頭的話,遮擋會非常的厲害,人臉可以認(rèn)為是扁平的東西,手卻不是,手隨便做些姿勢,大拇指可能就看不見了,但我需要知道大拇指在哪 。這是手勢實時追蹤面臨的兩個挑戰(zhàn),姿態(tài)豐富,同時遮擋嚴(yán)重,這意味著你需要推測其他手指的狀態(tài),這也是很難的。這就需要機器學(xué)習(xí)的技術(shù)。
你可以想想人是怎么做的,不僅通過手勢,還要看你是不是沖著我,我們幾個人說話,你可能給我做一個手勢,我怎么知道這個手勢是對著我做的呢?
首先,我要有上下文,保持手勢在上下文中是可以被理解的,認(rèn)為這個手勢是對我做的;第二,我要看整個人的狀態(tài),你沖著我嗎?這個手勢是不是對著我做的,對著我做手勢時,你可能還有其他相應(yīng)的肢體動作來表達(dá)這個動作是不是對我做的。
我們?nèi)耸怯幸惶走@樣的東西,那么機器需要從人這邊考慮這樣的場景,需要很多對上下文場景的識別,最后來做到正常的識別。同時,由于沒有清晰的定義這是輸入狀態(tài),還是非輸入狀態(tài),機器需要自動判定,什么時候是輸入,什么時候停止輸入。這是非常難的問題。
自然交互,本質(zhì)上來講是非常難的問題,做識別是第一步,真正做到好用自然,讓大家用起來沒有障礙,還有比較長的路要走。
Q 8:如何看待 VR/AR 對人機交互的新需求?
童欣:VR/AR 模擬的是真實三維環(huán)境中的交互,視野被覆蓋了,看不見鼠標(biāo)和鍵盤。輸入的內(nèi)容,不是文本,不是在二維界面上操作,你要在虛擬的三維環(huán)境中漫游,這些需求要有新的交互手段,不一定是手勢,但需要有新的交互方式。
大家之所以這么沉迷于做 VR/AR,很重要的原因是我們生活的世界是三維的,我們有需求重現(xiàn)三維世界,或者創(chuàng)造一個虛擬的三維世界,這是來自人的本能的需求。
虛擬的三維,或者在真實世界中疊加的三維,決定了你必須創(chuàng)造出三維的內(nèi)容,因為我的視野隨時在變,我的光照隨時在變,我和物體隨時在交互,狀態(tài)隨時在變,傳統(tǒng)的視頻也好,圖像也好,解決不了這個問題,只有三維的圖像能解決這樣的問題。這也是為什么三維內(nèi)容的生成,在 VR/AR中變得很關(guān)鍵的原因。
三維內(nèi)容生產(chǎn)本身一直是一個瓶頸問題,我們很多行業(yè)需要三維內(nèi)容,但只有專業(yè)人員才能把很多行業(yè)的內(nèi)容變成三維內(nèi)容,這個瓶頸就產(chǎn)生了,這需要技術(shù)的進步。
Q 9:對現(xiàn)在 AR 的發(fā)展是怎么看的?
童欣:AR 可以想的更廣泛一些,我們手機也好,耳機也好,都是 AR,當(dāng)你走在街上戴著耳機聽歌的時候,這就是 AR。在真實環(huán)境里,你聽到的是別人虛擬唱的歌曲, AR 一直在,一直有需求,不過是從文字,聽覺,慢慢變成視覺。把原來虛擬世界的信息和真實世界的信息結(jié)合,本來你的信息是有真實世界的意義的,把它返回到真實世界中,用統(tǒng)一的界面呈現(xiàn)給你,這是最關(guān)鍵的。
Q 10:AR 和 AI 是怎樣的關(guān)系?
童欣:AR 和 AI 是密不可分的。在 AR 中一個關(guān)鍵是內(nèi)容生成。另外 一個關(guān)鍵是全新的交互方式和體驗方式。
所謂交互,既要有輸入,也要有輸出。輸入就意味著,我們 AR 設(shè)備要對周圍的環(huán)境有感知和認(rèn)知,這個感知和認(rèn)知就是AI研究中很重要的技術(shù)。
輸出,靠圖形,輸入要靠很多計算機視覺的技術(shù),一起來做,最后結(jié)合起來,才能成就 AR 這件事情。
Q 11:計算機圖形學(xué)還有哪些需要解決的難題?
童欣:我們有句跟奧林匹克一樣的口號“更高、更快、更強”。大家對三維內(nèi)容的需求永遠(yuǎn)高于我們的計算能力。
現(xiàn)在,我們的實時顯示達(dá)到 30 幀/每秒,那你看看從最早計算機上有圖形顯卡,到現(xiàn)在,顯卡的能力翻了不止百倍,甚至上千倍,我們的顯示速率還是 30 幀/每秒,那我們變得是什么? 是顯示內(nèi)容,真實感有了巨大的進步,但即使這樣跟我們真實場景的差別,大家還是能看出來的。一個計算機繪制出來的圖像,和一個真實照片,我相信大家還是能一眼看出其中的差別。
我們實時繪制的場景和一個照片相比,這里面有巨大的鴻溝。更不用說我們內(nèi)容生成的效率,生成高質(zhì)量的內(nèi)容。
從更高層面講,當(dāng)我們的客戶有一些意圖的時候,如何快速有效地把客戶模糊的創(chuàng)作意圖轉(zhuǎn)變成為具體的內(nèi)容,這件事本身也是非常難的。
去年,童欣對媒體曾預(yù)測 AR 發(fā)展的速度會超過 VR,此次采訪,雷鋒網(wǎng)問到他關(guān)于目前手機 AR 的發(fā)展,他認(rèn)為這是很自然的現(xiàn)象,不管是手機 AR,還是 AR 眼鏡,每種形式都有自己應(yīng)用的場景和需求。最開始大家會做不同的嘗試,這些嘗試要交給市場和用戶檢驗,其中一定會淘汰一些,最后留下來真正有需求的應(yīng)用。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。