12
【關(guān)于作者】本文作者@胡伯濤 Botao Amber Hu,清華大學(xué)姚班本科,斯坦福計(jì)算機(jī)系研究生畢業(yè),方向?yàn)橛?jì)算攝影和人工智能,目前從事以無(wú)人機(jī)和虛擬現(xiàn)實(shí)技術(shù)實(shí)現(xiàn)的計(jì)算攝影研究。光流科技CEO,CTO,C*O。曾在Google, Microsoft Research, Pinterest, Twitter工作或?qū)嵙?xí)過(guò)。
最近看到國(guó)內(nèi)網(wǎng)絡(luò)上突然Magic Leap的話題火了,并且跟著很多人無(wú)理由和根據(jù)的贊或黑Magic Leap。我在斯坦福計(jì)算機(jī)系上學(xué)的時(shí)候,對(duì)Magic Leap很好奇,正好在學(xué)校能接觸到各路和Magic Leap相關(guān)的大神,所以在這方面做了些研究,我覺(jué)得可以分享點(diǎn)技術(shù)性干貨,解釋一些原理,讓大家有點(diǎn)材料來(lái)贊或黑。
目前Magic Leap只有一個(gè)公開視頻是實(shí)際拍攝的:http://v.youku.com/v_show/id_XMTM2NjM0MjE1Ng(桌腿后的機(jī)器人和太陽(yáng)系),本文只以這個(gè)視頻的例子來(lái)做闡釋。
先說(shuō)一下我關(guān)于Magic Leap的信息來(lái)源:
1、2014年11月10日,Magic Leap在2014年9月融了5個(gè)億以后,來(lái)Stanford招人,開了一個(gè)Info Session,標(biāo)題是“The World is Your New Desktop”(世界就是你的新桌面)多么霸氣!當(dāng)時(shí)是Magic Leap感知研究的高級(jí)副總裁(VP of Perception)Gary Bradski和計(jì)算視覺(jué)的技術(shù)負(fù)責(zé)人(Lead of Computer Vision)Jean-Yves Bouguet來(lái)作演講。Gary是計(jì)算機(jī)視覺(jué)領(lǐng)域的領(lǐng)軍人物,在柳樹車庫(kù)(Willow Garage)創(chuàng)造了OpenCV(計(jì)算視覺(jué)工具庫(kù)),同時(shí)也是Stanford顧問(wèn)教授。Jean-Yves原來(lái)在Google負(fù)責(zé)谷歌街景車(Street View Car)的制造,是計(jì)算視覺(jué)技術(shù)的大牛。他們加入Magic Leap是非常令人震驚的。我參加了這次Info Session,當(dāng)時(shí)Gary來(lái)介紹Magic Leap在感知部分的技術(shù)和簡(jiǎn)單介紹傳說(shuō)中的數(shù)字光場(chǎng)Cinematic Reality的原理,并且在允許錄影的部分都有拍照記錄。本文大部分的干貨來(lái)自這次演講。
2、我今年年初上了Stanford計(jì)算攝影和數(shù)字光場(chǎng)顯示的大牛教授Gordon Wetzstein的一門課:EE367 Computational Imaging and Display(計(jì)算影像和顯示器):其中第四周的Computational illumination,Wearable displays和Displays Blocks(light field displays)這三節(jié)都講到Magic Leap的原理。現(xiàn)在大家也可以去這個(gè)課程網(wǎng)站上看到這些資料,EE367 / CS448I: Computational Imaging and Display
順便介紹一下Gordon所在的Stanford計(jì)算圖形組,Marc Levoy(后來(lái)跑去造Google Glass的大牛教授)一直致力于光場(chǎng)的研究,從Marc Levoy提出光場(chǎng)相機(jī),到他的學(xué)生Ren Ng開創(chuàng)Lytro公司制造光場(chǎng)相機(jī),到現(xiàn)在Gordon教授制造光場(chǎng)顯示器(裸眼光場(chǎng)3D顯示器),這個(gè)組在光場(chǎng)方面的研究一直是世界的領(lǐng)頭羊。而Magic Leap可能正在成為光場(chǎng)顯示器的最大應(yīng)用。(相關(guān)內(nèi)容可參考:Computational Imaging Research Overview)
3、今年參加了光場(chǎng)影像技術(shù)的研討會(huì)Workshop on Light Field Imaging ,現(xiàn)場(chǎng)有很多光場(chǎng)技術(shù)方面的展示,我和很多光場(chǎng)顯示技術(shù)的大牛交流了對(duì)Magic Leap的看法。特別的是,現(xiàn)場(chǎng)體驗(yàn)了接近Magic Leap的光場(chǎng)技術(shù)Demo,來(lái)自Nvidia的Douglas Lanman的Near-Eye Light Field Displays 。(相關(guān)內(nèi)容可參考:Near-Eye Light Field Displays)
4、今年年中去了微軟研究院Redmond訪問(wèn),研究院的首席研究員Richard Szeliski(計(jì)算機(jī)視覺(jué)大神,計(jì)算機(jī)視覺(jué)課本的作者,Computer Vision: Algorithms and Applications)讓我們?cè)囉昧薍ololens。感受了Hololens牛逼無(wú)比的定位感知技術(shù)。有保密協(xié)議,本文不提供細(xì)節(jié),但提供與Magic Leap原理性的比較。
下面是干貨:
首先呢,科普一下Magic Leap和Hololens這類AR眼鏡設(shè)備,都是為了讓你看到現(xiàn)實(shí)中不存在的物體和現(xiàn)實(shí)世界融合在一起的圖像并與其交互。從技術(shù)上講,可以簡(jiǎn)單的看成兩個(gè)部分:
對(duì)現(xiàn)實(shí)世界的感知(Perception);
一個(gè)頭戴式顯示器以呈現(xiàn)虛擬的影像 (Display) 。
我會(huì)分感知部分和顯示部分來(lái)分別闡釋Magic Leap的相關(guān)技術(shù)。
一、顯示部分
先簡(jiǎn)單回答這個(gè)問(wèn)題:
Q1. Hololens和Magic Leap有什么區(qū)別?Magic Leap的本質(zhì)原理是什么?
在感知部分,其實(shí)Hololens和Magic Leap從技術(shù)方向上沒(méi)有太大的差異,都是空間感知定位技術(shù)。本文之后會(huì)著重介紹。Magic Leap與Hololens最大的不同應(yīng)該來(lái)自顯示部分,Magic Leap是用光纖向視網(wǎng)膜直接投射整個(gè)數(shù)字光場(chǎng)(Digital Lightfield)產(chǎn)生所謂的Cinematic Reality(電影級(jí)的現(xiàn)實(shí))。Hololens采用一個(gè)半透玻璃,從側(cè)面DLP投影顯示,虛擬物體是總是實(shí)的,與市場(chǎng)上Espon的眼鏡顯示器或Google Glass方案類似,是個(gè)2維顯示器,視角還不大,40度左右,沉浸感會(huì)打折扣。
本質(zhì)的物理原理是:光線在自由空間中的傳播,是可以由4維光場(chǎng)唯一表示的。成像平面的每個(gè)像素中包含到這個(gè)像素所有方向的光的信息,對(duì)于成像平面來(lái)講,方向是二維的,所以光場(chǎng)是4維的。平時(shí)成像過(guò)程只是對(duì)四維光場(chǎng)進(jìn)行了一個(gè)二維積分(每個(gè)像素上所有方向的光的信息都疊加到一個(gè)像素點(diǎn)上),傳統(tǒng)顯示器顯示這個(gè)2維的圖像,是有另2維方向信息損失的。而Magic Leap是向你的視網(wǎng)膜直接投射整個(gè)4維光場(chǎng), 所以人們通過(guò)Magic Leap看到的物體和看真實(shí)的物體從數(shù)學(xué)上是沒(méi)有什么區(qū)別的,是沒(méi)有信息損失的。理論上,使用Magic Leap的設(shè)備,你是無(wú)法區(qū)分虛擬物體和現(xiàn)實(shí)的物體的。
使用Magic Leap的設(shè)備,最明顯的區(qū)別于其他技術(shù)的效果是人眼可以直接選擇聚焦(主動(dòng)選擇性聚焦)。比如我要看近的物體,近的物體就實(shí),遠(yuǎn)的就虛。注意:這不需要任何的人眼跟蹤技術(shù),因?yàn)橥渡涞墓鈭?chǎng)還原了所有信息,所以使用者直接可以做到人眼看哪實(shí)哪,和真實(shí)物體一樣。舉個(gè)例子:在虛擬太陽(yáng)系視頻的27秒左右(如下面這個(gè)gif圖),攝影機(jī)失焦了,然后又對(duì)上了,這個(gè)過(guò)程只發(fā)生在攝影機(jī)里,和Magic Leap的設(shè)備無(wú)關(guān)。換句話說(shuō),虛擬物體就在那,怎么看是觀察者自己的事。這就是Magic Leap牛逼的地方,所以Magic Leap管自己的效果叫Cinematic Reality。
Q2. 主動(dòng)選擇性聚焦有什么好處?傳統(tǒng)的虛擬顯示技術(shù)中,為什么你會(huì)頭暈?Magic Leap是怎么解決這個(gè)問(wèn)題的?
眾所周知,人類的眼睛感知深度主要是靠?jī)芍谎劬捅挥^察物體做三角定位(雙目定位,triangulation cue)來(lái)感知被觀察物體的與觀察者的距離的。但三角定位并不是唯一的人類感知深度的線索,人腦還集成了另一個(gè)重要的深度感知線索:人眼對(duì)焦引起的物體銳度(虛實(shí))變化(sharpness or focus cue) 。但傳統(tǒng)的雙目虛擬顯示技術(shù)(如Oculus Rift或Hololens)中的物體是沒(méi)有虛實(shí)的。舉個(gè)例子,如下圖,當(dāng)你看到遠(yuǎn)處的城堡的時(shí)候,近處的虛擬的貓就應(yīng)該虛了,但傳統(tǒng)顯示技術(shù)中,貓還是實(shí)的,所以你的大腦就會(huì)引起錯(cuò)亂,以為貓是很遠(yuǎn)的很大的一個(gè)物體。但是這和你的雙目定位的結(jié)果又不一致,經(jīng)過(guò)幾百萬(wàn)年進(jìn)化的大腦程序一會(huì)兒以為貓?jiān)诮?,一?huì)兒以為貓?jiān)谶h(yuǎn)處,來(lái)來(lái)回回你大腦就要燒了,于是你要吐了。而Magic Leap投影了整個(gè)光場(chǎng),所以你可以主動(dòng)選擇性聚焦,這個(gè)虛擬的貓就放在了近處,你看它的時(shí)候就是實(shí)的,你看城堡的時(shí)候,它就是虛的,和真實(shí)情況一樣,所以你不會(huì)暈。演講中Gary調(diào)侃對(duì)于Jean-Yves這種帶10分鐘Oculus就吐的家伙來(lái)說(shuō),現(xiàn)在他一天帶16個(gè)小時(shí)Magic Leap都不會(huì)暈。
補(bǔ)充:有人問(wèn)為什么網(wǎng)上說(shuō)虛擬現(xiàn)實(shí)頭暈是因?yàn)閹什粔蛟颍?/p>
幀率和延時(shí)雖然是目前的主要問(wèn)題,但都不是太大的問(wèn)題,也不是導(dǎo)致暈得決定性因素。這些問(wèn)題用更快的顯卡,好的IMU和好的屏幕,還有頭部動(dòng)作預(yù)測(cè)算法都能很好解決。我們要關(guān)心一些本質(zhì)的暈眩問(wèn)題。
這里要說(shuō)到虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的不同。
虛擬現(xiàn)實(shí)中,使用者是看不到現(xiàn)實(shí)世界的,頭暈往往是因?yàn)槿祟惛兄亓图铀俣鹊膬?nèi)耳半規(guī)管感受到的運(yùn)動(dòng)和視覺(jué)看到的運(yùn)動(dòng)不匹配導(dǎo)致的。所以虛擬現(xiàn)實(shí)的游戲,往往會(huì)有暈車想吐的感覺(jué)。這個(gè)問(wèn)題的解決不是靠單一設(shè)備可以搞定的,如果使用者的確坐在原定不動(dòng),如果圖像在高速移動(dòng),什么裝置能騙過(guò)你的內(nèi)耳半規(guī)管呢?一些市場(chǎng)上的方案,比如Omni VR,或者HTC Vive這樣的帶Tracking的VR系統(tǒng)讓你實(shí)際行走才解決這個(gè)不匹配的問(wèn)題,但這類系統(tǒng)是受場(chǎng)地限制的。不過(guò)THE VOID的應(yīng)用就很好的利用了VR的局限,不一定要跑跳,可以用很小的空間做很大的場(chǎng)景,讓你以為你在一個(gè)大場(chǎng)景里就好了。現(xiàn)在大部分虛擬現(xiàn)實(shí)的體驗(yàn)或全景電影都會(huì)以比較慢得速度移動(dòng)視角,否則你就吐了。
但是Magic Leap是AR增強(qiáng)現(xiàn)實(shí),因?yàn)楸緛?lái)就看的到現(xiàn)實(shí)世界,所以不存在這個(gè)內(nèi)耳半規(guī)管感知不匹配的問(wèn)題。對(duì)于AR來(lái)講,主要挑戰(zhàn)是在解決眼前投影的物體和現(xiàn)實(shí)物體的銳度變化的問(wèn)題。所以Magic Leap給出的解決方案是很好地解決這個(gè)問(wèn)題的。但都是理論上的,至于實(shí)際工程能力怎么樣就靠時(shí)間來(lái)證明了。
Q3. 為什么要有頭戴式顯示器?為什么不能裸眼全息?Magic Leap是怎么實(shí)現(xiàn)的?
人類希望能憑空看到一個(gè)虛擬物體,已經(jīng)想了幾百年了。各種科幻電影里也出現(xiàn)了很多在空氣中的全息影像。
但其實(shí)想想本質(zhì)就知道,這事從物理上很難實(shí)現(xiàn):純空氣中沒(méi)有可以反射或折射光的介質(zhì)。顯示東西最重要的是介質(zhì)。很多微信上的瘋傳,以為Magic Leap不需要眼鏡,我估計(jì)是翻譯錯(cuò)誤導(dǎo)致的,視頻中寫了Shot directly through Magic Leap tech.,很多文章錯(cuò)誤的翻譯成“直接看到”或“裸眼全息",其實(shí)視頻是相機(jī)透過(guò)Magic Leap的技術(shù)拍的。
目前全息基本還停留在全息膠片的時(shí)代(如下圖,我在光場(chǎng)研討會(huì)上看到的這個(gè)全息膠片的小佛像),或者初音未來(lái)演唱會(huì)那種用投影陣列向特殊玻璃(只顯示某一特定角度的圖像,而忽略其他角度的光線)做的偽全息。
Magic Leap想實(shí)現(xiàn)的是把整個(gè)世界變成你的桌面這樣的愿景。所以與其在世界各個(gè)地方造初音未來(lái)那樣的3D全息透明屏做介質(zhì)或弄個(gè)全息膠片,還不如直接從人眼入手,直接在眼前投入整個(gè)光場(chǎng)更容易。其實(shí)Nvidia也在做這種光場(chǎng)眼鏡。
Nvidia采用的方法是在一個(gè)二維顯示器前加上一個(gè)微鏡頭陣列Microlens array來(lái)生成4維光場(chǎng)。相當(dāng)于把2維的像素映射成4維,自然分辨率不會(huì)高,所以這類光場(chǎng)顯示器或相機(jī)(Lytro)的分辨率都不會(huì)高。本人親測(cè),效果基本就是在看馬賽克畫風(fēng)的圖案。
而Magic Leap采用完全不同的一個(gè)方法實(shí)現(xiàn)光場(chǎng)顯示,它采用光纖投影。不過(guò),Magic Leap用的光纖投影的方式也不是什么新東西。在Magic Leap做光纖投影顯示(Fiber optic projector)的人是Brian Schowengerdt,他的導(dǎo)師是來(lái)自華盛頓大學(xué)的教授Eric Seibel,致力于做超高分辨率光纖內(nèi)窺鏡8年了。簡(jiǎn)單原理就是光纖束在一個(gè)1mm直徑管道內(nèi)高速旋轉(zhuǎn),改變旋轉(zhuǎn)的方向,然后就可以掃描一個(gè)較大的范圍。Magic Leap的創(chuàng)始人比較聰明的地方,是找到這些做高分辨率光纖掃描儀的,由于光的可逆性,倒過(guò)來(lái)就能做一個(gè)高分辨率投影儀。如圖,他們6年前的論文,1mm寬9mm長(zhǎng)的光纖就能投射幾寸大的高清蝴蝶圖像?,F(xiàn)在的技術(shù)估計(jì)早就超過(guò)那個(gè)時(shí)候了。
而這樣的光纖高分辨率投影儀還不能還原光場(chǎng),需要在光纖的另一端放上一個(gè)微鏡頭陣列microlens array,來(lái)生成4維光場(chǎng)。你會(huì)疑問(wèn)這不就和Nvidia的方法一樣了么?不,因?yàn)楣饫w束是掃描性的旋轉(zhuǎn),這個(gè)microlens array不用做得很密很大,只要顯示掃描到的區(qū)域就好了。相當(dāng)與把大量數(shù)據(jù)在時(shí)間軸上分布開了,和通訊中的分時(shí)一樣,因?yàn)槿搜酆茈y分辨100幀上的變化,只要掃描幀率夠高,人眼就分辨不出顯示器是否旋轉(zhuǎn)顯示的。所以Magic Leap的設(shè)備可以很小,分辨率可以很高。
他本人也來(lái)Stanford給過(guò)一個(gè)Talk,Near-to-Eye Volumetric 3D Displays using Scanned Light。這個(gè)Talk講的應(yīng)該就是Magic Leap早期的原型。(相關(guān)內(nèi)容可參考: Fiber Scanned Displays)
二、感知部分
Q4. 首先為什么增強(qiáng)現(xiàn)實(shí)要有感知部分?
是因?yàn)樵O(shè)備需要知道自己在現(xiàn)實(shí)世界的位置(定位),和現(xiàn)實(shí)世界的三維結(jié)構(gòu)(地圖構(gòu)建),才能夠在顯示器中的正確位置擺放上虛擬物體。舉個(gè)最近的Magic Leap Demo視頻的例子,比如桌子上有一個(gè)虛擬的太陽(yáng)系,設(shè)備佩戴者的頭移動(dòng)得時(shí)候,太陽(yáng)系還呆在原地,這就需要設(shè)備實(shí)時(shí)的知道觀看者視角的精確位置和方向,才能反算出應(yīng)該在什么位置顯示圖像。同時(shí),可以看到桌面上還有太陽(yáng)的反光,這就要做到設(shè)備知道桌子的三維結(jié)構(gòu)和表面信息,才能正確的投射一個(gè)疊加影像在桌子的影像層上。難點(diǎn)是如何做到整個(gè)感知部分的實(shí)時(shí)計(jì)算,才能讓設(shè)備穿戴者感覺(jué)不到延時(shí)。如果定位有延時(shí),佩戴者會(huì)產(chǎn)生暈眩,并且虛擬物體在屏幕上漂移會(huì)顯得非常的虛假,所謂Magic Leap宣稱的電影級(jí)的真實(shí)(Cinematic Reality)就沒(méi)有意義了。
三維感知部分并不是什么新東西,計(jì)算機(jī)視覺(jué)或機(jī)器人學(xué)中的SLAM(Simultaneous Localization And Mapping,即時(shí)定位與地圖構(gòu)建)就是做這個(gè)的,已經(jīng)有30年的歷史了。設(shè)備通過(guò)各種傳感器(激光雷達(dá),光學(xué)攝像頭,深度攝像頭,慣性傳感器)的融合將得出設(shè)備自己在三位空間中的精確位置,同時(shí)又能將周圍的三位空間實(shí)時(shí)重建。
最近SLAM技術(shù)尤其火爆,去年到今年兩年時(shí)間內(nèi)巨頭們和風(fēng)投收購(gòu)和布局了超級(jí)多做空間定位技術(shù)的公司。因?yàn)槟壳白钆1频?大科技技術(shù)趨勢(shì):無(wú)人車,虛擬現(xiàn)實(shí),無(wú)人機(jī),他們都離不開空間定位。SLAM是完成這些偉大項(xiàng)目基礎(chǔ)中的基礎(chǔ)。我也研究SLAM技術(shù),所以接觸的比較多,為了方便大家了解這個(gè)領(lǐng)域,這里簡(jiǎn)單提幾個(gè)SLAM界最近的大事件和人物:
1、(無(wú)人車)Stanford的機(jī)器人教授Sebastian Thrun是現(xiàn)代SLAM技術(shù)的開創(chuàng)者,自從贏了DARPA Grand Challenge的無(wú)人車大賽后,去了Google造無(wú)人車了。SLAM學(xué)術(shù)圈的大部分研究派系都是Sebastian徒子徒孫。
2、(無(wú)人車)Uber在今年拿下了卡耐基梅隆CMU的NREC(國(guó)家機(jī)器人工程研發(fā)中心),合作成立高等技術(shù)研發(fā)中心ATC。這些原來(lái)做火星車的定位技術(shù)的研究人員都去Uber ATC做無(wú)人車了。
3、(虛擬現(xiàn)實(shí))最近Surreal Vision被Oculus Rift收購(gòu),其中創(chuàng)始人Richard Newcombe是大名鼎鼎的DTAM,KinectFusion(HoloLens的核心技術(shù))的發(fā)明人。Oculus Rift還在去年收購(gòu)了13th Labs(在手機(jī)上做SLAM的公司)。
4、(虛擬現(xiàn)實(shí))Google Project Tango 今年發(fā)布世界上第一臺(tái)到手就用的商業(yè)化SLAM功能的平板。Apple五月收購(gòu)Metaio AR,Metaio AR 的 SLAM 很早就用在了AR的app上了。Intel 發(fā)布Real Sense,一個(gè)可以做SLAM的深度攝像頭,在CES上Demo了無(wú)人機(jī)自動(dòng)壁障功能和自動(dòng)巡線功能。
5、(無(wú)人機(jī))由原來(lái)做Google X Project Wing 無(wú)人機(jī)的創(chuàng)始人MIT機(jī)器人大牛Nicholas Roy 的學(xué)生Adam Bry創(chuàng)辦的Skydio,得到A16z的兩千萬(wàn)估值的投資,挖來(lái)了Georgia Tech的SLAM大牛教授Frank Dellaert 做他們的首席科學(xué)家。(相關(guān)內(nèi)容:http://www.cc.gatech.edu/~dellaert/FrankDellaert/Frank_Dellaert/Frank_Dellaert.html)
SLAM作為一種基礎(chǔ)技術(shù),其實(shí)全世界做SLAM或傳感器融合做得好的大??赡懿粫?huì)多于100人,并且大都互相認(rèn)識(shí)。這么多大公司搶這么點(diǎn)人,競(jìng)爭(zhēng)激烈程度可想而知,所以Magic Leap作為一個(gè)創(chuàng)業(yè)公司一定要融個(gè)大資,才能和大公司搶人才資源。
Q5. Magic Leap的感知部分的技術(shù)是怎么樣的?
這張照片是Gary教授在Magic Leap Stanford 招聘會(huì)中展示了Magic Leap在感知部分的技術(shù)架構(gòu)和技術(shù)路線??梢钥吹揭訡alibration為中心,展開成了4支不同的計(jì)算機(jī)視覺(jué)技術(shù)棧。
1、從圖上看,整個(gè)Magic Leap感知部分的核心步驟是Calibration(圖像或傳感器校準(zhǔn)),因?yàn)橄馦agic Leap或Hololens這類主動(dòng)定位的設(shè)備,在設(shè)備上有各種用于定位的攝像頭和傳感器, 攝像頭的參數(shù)和攝像頭之間關(guān)系參數(shù)的校準(zhǔn)是開始一切工作的第一步。這步如果攝像頭和傳感器參數(shù)都不準(zhǔn),后面的定位都是無(wú)稽之談。從事過(guò)計(jì)算機(jī)視覺(jué)技術(shù)的都知道,傳統(tǒng)的校驗(yàn)部分相當(dāng)花時(shí)間,需要用攝像頭拍攝Chess Board,一遍一遍的收集校驗(yàn)用的數(shù)據(jù)。但Magic Leap的Gary,他們發(fā)明了一種新的Calibration方法,直接用一個(gè)形狀奇特的結(jié)構(gòu)體做校正器,攝像頭看一遍就完成了校正,極為迅速。這個(gè)部分現(xiàn)場(chǎng)不讓拍照。
2、有了Calibration部分后,開始最重要的三維感知與定位部分(左下角的技術(shù)棧),分為4步。
2.1 首先是Planar Surface Tracking(平面表面跟蹤)。大家可以在虛擬太陽(yáng)系的Demo中看到虛擬太陽(yáng)在桌子上有反光,且這個(gè)反光會(huì)隨著設(shè)備佩戴者的移動(dòng)而改變位置,就像是太陽(yáng)真的懸在空中發(fā)出光源,在桌子表面反射產(chǎn)生的。這就要求設(shè)備實(shí)時(shí)地知道桌子的表面在哪里,并且算出虛擬太陽(yáng)與平面的關(guān)系,才能將太陽(yáng)的反光的位置算出來(lái),疊在設(shè)備佩戴者眼鏡相應(yīng)的位子上,并且深度信息也是正確的。難點(diǎn)在平面檢測(cè)的實(shí)時(shí)性和給出平面位置的平滑性(否則反光會(huì)有跳變)從Demo中可以看出Magic Leap在這步上完成得很好。
2.2 然后是Sparse SLAM(稀疏SLAM);Gary在Info Session上展示了他們實(shí)時(shí)的三維重構(gòu)與定位算法。為了算法的實(shí)時(shí)性,他們先實(shí)現(xiàn)了高速的稀疏或半稀疏的三維定位算法。從效果上看,和目前開源的LSD算法差不了太多。
2.3 接著是Sensors; Vision and IMU(視覺(jué)和慣性傳感器融合)。
導(dǎo)彈一般是用純慣性傳感器做主動(dòng)定位,但同樣的方法不能用于民用級(jí)的低精度慣性傳感器,二次積分后一定會(huì)漂移。而光靠視覺(jué)做主動(dòng)定位,視覺(jué)部分的處理速度不高,且容易被遮檔,定位魯棒性不高。將視覺(jué)和慣性傳感器融合是最近幾年非常流行的做法。
舉例:
Google Tango在這方面就是做IMU和深度攝像頭的融合,做的很好;大疆的無(wú)人機(jī)Phantom 3或Inspire 1將光流單目相機(jī)和無(wú)人機(jī)內(nèi)的慣性傳感器融合,在無(wú)GPS的情況下,就能達(dá)到非常驚人的穩(wěn)定懸停;Hololens可以說(shuō)在SLAM方面是做得相當(dāng)好,專門定制了一個(gè)芯片做SLAM,算法據(jù)說(shuō)一脈相承了KinectFusion的核心,親自測(cè)試感覺(jué)定位效果很贊(我可以面對(duì)白色無(wú)特征的墻壁站和跳,但回到場(chǎng)中心后定位還是很準(zhǔn)確的,一點(diǎn)都不飄。)
2.4 最后是3D Mapping and Dense SLAM(3D地圖重建)。下圖展示了Magic Leap山景城辦公室的3D地圖重建:僅僅是帶著設(shè)備走了一圈,就還原了整個(gè)辦公室的3D地圖,并且有很精致的貼圖。書架上的書都能重建的不變形。
因?yàn)锳R的交互是全新的領(lǐng)域,為了讓人能夠順利地和虛擬世界交互,基于機(jī)器視覺(jué)的識(shí)別和跟蹤算法成了重中之重。全新人機(jī)交互體驗(yàn)部分需要大量的技術(shù)儲(chǔ)備做支持。
接下來(lái)的三個(gè)分支,Gary沒(méi)有細(xì)講,但是可以看出他們的布局。我就隨便加點(diǎn)注解,幫助大家理解。
3.1 Crowdsourcing眾包。用于收集數(shù)據(jù),用于之后的機(jī)器學(xué)習(xí)工作,要構(gòu)建一個(gè)合理的反饋學(xué)習(xí)機(jī)制,動(dòng)態(tài)的增量式的收集數(shù)據(jù)。
3.2 Machine Learning & Deep Learning機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。需要搭建機(jī)器學(xué)習(xí)算法架構(gòu),用于之后的識(shí)別算法的生產(chǎn)。
3.3 Scenic Object Recognition場(chǎng)景物體識(shí)別。識(shí)別場(chǎng)景中的物體,分辨物體的種類,和特征,用于做出更好的交互。比如你看到一個(gè)小狗的時(shí)候,會(huì)識(shí)別出來(lái),然后系統(tǒng)可以把狗狗p成個(gè)狗型怪獸,你就可以直接打怪了。
3.4 Behavior Recognition行為識(shí)別 。識(shí)別場(chǎng)景中的人或物的行為,比如跑還是跳,走還是坐,可能用于更加動(dòng)態(tài)的游戲交互。順便提一下,國(guó)內(nèi)有家Stanford校友辦的叫格林深瞳的公司也在做這個(gè)方面的研究。
跟蹤方面
4.1 Gesture Recognition手勢(shì)識(shí)別。用于交互,其實(shí)每個(gè)AR/VR公司都在做這方面的技術(shù)儲(chǔ)備。
4.2 Object Tracking物體追蹤。這個(gè)技術(shù)非常重要,比如Magic Leap的手捧大象的Demo,至少你要知道你的手的三維位置信息,實(shí)時(shí)Tracking,才能把大象放到正確的位子。
4.3 3D Scanning三維掃描。能夠?qū)F(xiàn)實(shí)物體,虛擬化。比如你拿起一個(gè)藝術(shù)品,通過(guò)三維掃描,遠(yuǎn)處的用戶就能夠在虛擬世界分享把玩同樣的物體。
4.4 Human Tracking人體追蹤。比如:可以將現(xiàn)實(shí)中的每個(gè)人物,頭上可以加個(gè)血條,能力點(diǎn)之類。
5.1 Eye Tracking眼動(dòng)跟蹤。Gary解釋說(shuō),雖然Magic Leap的呈像不需要眼動(dòng)跟蹤,但因?yàn)橐?jì)算4維光場(chǎng),Magic Leap的渲染計(jì)算量巨大。如果做了眼動(dòng)跟蹤后,就可以減少3D引擎的物體渲染和場(chǎng)景渲染的壓力,是一個(gè)優(yōu)化的絕佳策略。
5.2 Emotion Recognition情感識(shí)別。如果Magic Leap要做一個(gè)Her電影中描繪的人工智能操作系統(tǒng),識(shí)別主人得情感,可以做出貼心的情感陪護(hù)效果。
5.3 Biometrics生物識(shí)別。比如要識(shí)別現(xiàn)實(shí)場(chǎng)景中的人,在每個(gè)人頭上顯示個(gè)名字啥的。人臉識(shí)別是其中一種,國(guó)內(nèi)有家清華姚班師兄弟們開得公司Face++就是干這個(gè)干的最好的。
總結(jié):簡(jiǎn)單來(lái)講感知這個(gè)部分Magic Leap其實(shí)和很多其他的公司大同小異,雖然有了Gary的加盟,野心非常的寬廣,但這部分競(jìng)爭(zhēng)非常激烈。
Q6: 就算Magic Leap已經(jīng)搞定了感知和顯示,那么接下來(lái)的困難是什么?
1、計(jì)算設(shè)備與計(jì)算量
Magic Leap要計(jì)算4維光場(chǎng),計(jì)算量驚人。不知道Magic Leap現(xiàn)在是怎么解決的。如果Nvidia不給造牛逼的移動(dòng)顯卡怎么辦?難道自己造專用電路?背著4塊泰坦X上路可不是鬧著玩的。
下圖是,今年我參加SIGGraph 2015里,其中一個(gè)VR演示,每個(gè)人背著個(gè)大電腦包玩VR。10年后的人類看今天的人類追求VR會(huì)不會(huì)覺(jué)得很好笑,哈哈。
2、電池!電池!電池!所有電子設(shè)備的痛
3、一個(gè)操作系統(tǒng)
說(shuō)實(shí)話,如果說(shuō)“世界就是你的新桌面”是他們的愿景,現(xiàn)在的確沒(méi)有什么操作系統(tǒng)可以支持Magic Leap愿景下的交互。他們必須自己發(fā)明輪子。
4、為虛擬物體交互體驗(yàn)增加物理感受
為了能有觸感,現(xiàn)在交互手套,交互手柄都是 VR 界大熱的話題。從目前的專利上看,并沒(méi)有看出Magic Leap會(huì)有更高的見地。說(shuō)不定某個(gè)Kickstarter最后能夠獨(dú)領(lǐng)風(fēng)騷,Magic Leap再把他收了。
【版權(quán)聲明】本文經(jīng)作者本人同意,并以CC協(xié)議:BY-NC-ND 4.0進(jìn)行授權(quán)(點(diǎn)擊可查詢協(xié)議文本),原文發(fā)布于知乎(點(diǎn)擊可查詢?cè)?/strong>);另外作者也在招聘能人志士,簡(jiǎn)歷可發(fā)me@botao.hu。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。