震驚世界的Magic Leap與微軟的Hololens有哪些異同？

本文作者：喵醬

2015-11-03 09:00

導(dǎo)語(yǔ)：”世界就是你的新桌面“—— 就這樣變成王道了。

【關(guān)于作者】本文作者@胡伯濤 Botao Amber Hu，清華大學(xué)姚班本科，斯坦福計(jì)算機(jī)系研究生畢業(yè)，方向?yàn)橛?jì)算攝影和人工智能，目前從事以無(wú)人機(jī)和虛擬現(xiàn)實(shí)技術(shù)實(shí)現(xiàn)的計(jì)算攝影研究。光流科技CEO，CTO，C*O。曾在Google, Microsoft Research, Pinterest, Twitter工作或?qū)嵙?xí)過。

最近看到國(guó)內(nèi)網(wǎng)絡(luò)上突然Magic Leap的話題火了，并且跟著很多人無(wú)理由和根據(jù)的贊或黑Magic Leap。我在斯坦福計(jì)算機(jī)系上學(xué)的時(shí)候，對(duì)Magic Leap很好奇，正好在學(xué)校能接觸到各路和Magic Leap相關(guān)的大神，所以在這方面做了些研究，我覺得可以分享點(diǎn)技術(shù)性干貨，解釋一些原理，讓大家有點(diǎn)材料來(lái)贊或黑。

目前Magic Leap只有一個(gè)公開視頻是實(shí)際拍攝的：http://v.youku.com/v_show/id_XMTM2NjM0MjE1Ng（桌腿后的機(jī)器人和太陽(yáng)系），本文只以這個(gè)視頻的例子來(lái)做闡釋。

先說一下我關(guān)于Magic Leap的信息來(lái)源：

1、2014年11月10日，Magic Leap在2014年9月融了5個(gè)億以后，來(lái)Stanford招人，開了一個(gè)Info Session，標(biāo)題是“The World is Your New Desktop”（世界就是你的新桌面）多么霸氣！當(dāng)時(shí)是Magic Leap感知研究的高級(jí)副總裁（VP of Perception）Gary Bradski和計(jì)算視覺的技術(shù)負(fù)責(zé)人（Lead of Computer Vision）Jean-Yves Bouguet來(lái)作演講。Gary是計(jì)算機(jī)視覺領(lǐng)域的領(lǐng)軍人物，在柳樹車庫(kù)（Willow Garage）創(chuàng)造了OpenCV（計(jì)算視覺工具庫(kù)），同時(shí)也是Stanford顧問教授。Jean-Yves原來(lái)在Google負(fù)責(zé)谷歌街景車（Street View Car）的制造，是計(jì)算視覺技術(shù)的大牛。他們加入Magic Leap是非常令人震驚的。我參加了這次Info Session，當(dāng)時(shí)Gary來(lái)介紹Magic Leap在感知部分的技術(shù)和簡(jiǎn)單介紹傳說中的數(shù)字光場(chǎng)Cinematic Reality的原理，并且在允許錄影的部分都有拍照記錄。本文大部分的干貨來(lái)自這次演講。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

2、我今年年初上了Stanford計(jì)算攝影和數(shù)字光場(chǎng)顯示的大牛教授Gordon Wetzstein的一門課：EE367 Computational Imaging and Display（計(jì)算影像和顯示器）：其中第四周的Computational illumination，Wearable displays和Displays Blocks（light field displays）這三節(jié)都講到Magic Leap的原理?，F(xiàn)在大家也可以去這個(gè)課程網(wǎng)站上看到這些資料，EE367 / CS448I: Computational Imaging and Display

順便介紹一下Gordon所在的Stanford計(jì)算圖形組，Marc Levoy（后來(lái)跑去造Google Glass的大牛教授）一直致力于光場(chǎng)的研究，從Marc Levoy提出光場(chǎng)相機(jī)，到他的學(xué)生Ren Ng開創(chuàng)Lytro公司制造光場(chǎng)相機(jī)，到現(xiàn)在Gordon教授制造光場(chǎng)顯示器（裸眼光場(chǎng)3D顯示器），這個(gè)組在光場(chǎng)方面的研究一直是世界的領(lǐng)頭羊。而Magic Leap可能正在成為光場(chǎng)顯示器的最大應(yīng)用。（相關(guān)內(nèi)容可參考：Computational Imaging Research Overview）

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

3、今年參加了光場(chǎng)影像技術(shù)的研討會(huì)Workshop on Light Field Imaging ，現(xiàn)場(chǎng)有很多光場(chǎng)技術(shù)方面的展示，我和很多光場(chǎng)顯示技術(shù)的大牛交流了對(duì)Magic Leap的看法。特別的是，現(xiàn)場(chǎng)體驗(yàn)了接近Magic Leap的光場(chǎng)技術(shù)Demo，來(lái)自Nvidia的Douglas Lanman的Near-Eye Light Field Displays 。（相關(guān)內(nèi)容可參考：Near-Eye Light Field Displays）

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

4、今年年中去了微軟研究院Redmond訪問，研究院的首席研究員Richard Szeliski（計(jì)算機(jī)視覺大神，計(jì)算機(jī)視覺課本的作者，Computer Vision: Algorithms and Applications）讓我們?cè)囉昧薍ololens。感受了Hololens牛逼無(wú)比的定位感知技術(shù)。有保密協(xié)議，本文不提供細(xì)節(jié)，但提供與Magic Leap原理性的比較。

下面是干貨：

首先呢，科普一下Magic Leap和Hololens這類AR眼鏡設(shè)備，都是為了讓你看到現(xiàn)實(shí)中不存在的物體和現(xiàn)實(shí)世界融合在一起的圖像并與其交互。從技術(shù)上講，可以簡(jiǎn)單的看成兩個(gè)部分：

對(duì)現(xiàn)實(shí)世界的感知（Perception）；
一個(gè)頭戴式顯示器以呈現(xiàn)虛擬的影像 (Display) 。

我會(huì)分感知部分和顯示部分來(lái)分別闡釋Magic Leap的相關(guān)技術(shù)。

一、顯示部分

先簡(jiǎn)單回答這個(gè)問題：

Q1. Hololens和Magic Leap有什么區(qū)別？Magic Leap的本質(zhì)原理是什么？

在感知部分，其實(shí)Hololens和Magic Leap從技術(shù)方向上沒有太大的差異，都是空間感知定位技術(shù)。本文之后會(huì)著重介紹。Magic Leap與Hololens最大的不同應(yīng)該來(lái)自顯示部分，Magic Leap是用光纖向視網(wǎng)膜直接投射整個(gè)數(shù)字光場(chǎng)（Digital Lightfield）產(chǎn)生所謂的Cinematic Reality（電影級(jí)的現(xiàn)實(shí)）。Hololens采用一個(gè)半透玻璃，從側(cè)面DLP投影顯示，虛擬物體是總是實(shí)的，與市場(chǎng)上Espon的眼鏡顯示器或Google Glass方案類似，是個(gè)2維顯示器，視角還不大，40度左右，沉浸感會(huì)打折扣。

本質(zhì)的物理原理是：光線在自由空間中的傳播，是可以由4維光場(chǎng)唯一表示的。成像平面的每個(gè)像素中包含到這個(gè)像素所有方向的光的信息，對(duì)于成像平面來(lái)講，方向是二維的，所以光場(chǎng)是4維的。平時(shí)成像過程只是對(duì)四維光場(chǎng)進(jìn)行了一個(gè)二維積分（每個(gè)像素上所有方向的光的信息都疊加到一個(gè)像素點(diǎn)上），傳統(tǒng)顯示器顯示這個(gè)2維的圖像，是有另2維方向信息損失的。而Magic Leap是向你的視網(wǎng)膜直接投射整個(gè)4維光場(chǎng)，所以人們通過Magic Leap看到的物體和看真實(shí)的物體從數(shù)學(xué)上是沒有什么區(qū)別的，是沒有信息損失的。理論上，使用Magic Leap的設(shè)備，你是無(wú)法區(qū)分虛擬物體和現(xiàn)實(shí)的物體的。

使用Magic Leap的設(shè)備，最明顯的區(qū)別于其他技術(shù)的效果是人眼可以直接選擇聚焦（主動(dòng)選擇性聚焦）。比如我要看近的物體，近的物體就實(shí)，遠(yuǎn)的就虛。注意：這不需要任何的人眼跟蹤技術(shù)，因?yàn)橥渡涞墓鈭?chǎng)還原了所有信息，所以使用者直接可以做到人眼看哪實(shí)哪，和真實(shí)物體一樣。舉個(gè)例子：在虛擬太陽(yáng)系視頻的27秒左右（如下面這個(gè)gif圖），攝影機(jī)失焦了，然后又對(duì)上了，這個(gè)過程只發(fā)生在攝影機(jī)里，和Magic Leap的設(shè)備無(wú)關(guān)。換句話說，虛擬物體就在那，怎么看是觀察者自己的事。這就是Magic Leap牛逼的地方，所以Magic Leap管自己的效果叫Cinematic Reality。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

Q2. 主動(dòng)選擇性聚焦有什么好處？傳統(tǒng)的虛擬顯示技術(shù)中，為什么你會(huì)頭暈？Magic Leap是怎么解決這個(gè)問題的？

眾所周知，人類的眼睛感知深度主要是靠?jī)芍谎劬捅挥^察物體做三角定位（雙目定位，triangulation cue）來(lái)感知被觀察物體的與觀察者的距離的。但三角定位并不是唯一的人類感知深度的線索，人腦還集成了另一個(gè)重要的深度感知線索：人眼對(duì)焦引起的物體銳度（虛實(shí)）變化（sharpness or focus cue）。但傳統(tǒng)的雙目虛擬顯示技術(shù)（如Oculus Rift或Hololens）中的物體是沒有虛實(shí)的。舉個(gè)例子，如下圖，當(dāng)你看到遠(yuǎn)處的城堡的時(shí)候，近處的虛擬的貓就應(yīng)該虛了，但傳統(tǒng)顯示技術(shù)中，貓還是實(shí)的，所以你的大腦就會(huì)引起錯(cuò)亂，以為貓是很遠(yuǎn)的很大的一個(gè)物體。但是這和你的雙目定位的結(jié)果又不一致，經(jīng)過幾百萬(wàn)年進(jìn)化的大腦程序一會(huì)兒以為貓?jiān)诮?，一?huì)兒以為貓?jiān)谶h(yuǎn)處，來(lái)來(lái)回回你大腦就要燒了，于是你要吐了。而Magic Leap投影了整個(gè)光場(chǎng)，所以你可以主動(dòng)選擇性聚焦，這個(gè)虛擬的貓就放在了近處，你看它的時(shí)候就是實(shí)的，你看城堡的時(shí)候，它就是虛的，和真實(shí)情況一樣，所以你不會(huì)暈。演講中Gary調(diào)侃對(duì)于Jean-Yves這種帶10分鐘Oculus就吐的家伙來(lái)說，現(xiàn)在他一天帶16個(gè)小時(shí)Magic Leap都不會(huì)暈。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

補(bǔ)充：有人問為什么網(wǎng)上說虛擬現(xiàn)實(shí)頭暈是因?yàn)閹什粔蛟颍?/p>

幀率和延時(shí)雖然是目前的主要問題，但都不是太大的問題，也不是導(dǎo)致暈得決定性因素。這些問題用更快的顯卡，好的IMU和好的屏幕，還有頭部動(dòng)作預(yù)測(cè)算法都能很好解決。我們要關(guān)心一些本質(zhì)的暈眩問題。

這里要說到虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的不同。

虛擬現(xiàn)實(shí)中，使用者是看不到現(xiàn)實(shí)世界的，頭暈往往是因?yàn)槿祟惛兄亓图铀俣鹊膬?nèi)耳半規(guī)管感受到的運(yùn)動(dòng)和視覺看到的運(yùn)動(dòng)不匹配導(dǎo)致的。所以虛擬現(xiàn)實(shí)的游戲，往往會(huì)有暈車想吐的感覺。這個(gè)問題的解決不是靠單一設(shè)備可以搞定的，如果使用者的確坐在原定不動(dòng)，如果圖像在高速移動(dòng)，什么裝置能騙過你的內(nèi)耳半規(guī)管呢？一些市場(chǎng)上的方案，比如Omni VR，或者HTC Vive這樣的帶Tracking的VR系統(tǒng)讓你實(shí)際行走才解決這個(gè)不匹配的問題，但這類系統(tǒng)是受場(chǎng)地限制的。不過THE VOID的應(yīng)用就很好的利用了VR的局限，不一定要跑跳，可以用很小的空間做很大的場(chǎng)景，讓你以為你在一個(gè)大場(chǎng)景里就好了。現(xiàn)在大部分虛擬現(xiàn)實(shí)的體驗(yàn)或全景電影都會(huì)以比較慢得速度移動(dòng)視角，否則你就吐了。

但是Magic Leap是AR增強(qiáng)現(xiàn)實(shí)，因?yàn)楸緛?lái)就看的到現(xiàn)實(shí)世界，所以不存在這個(gè)內(nèi)耳半規(guī)管感知不匹配的問題。對(duì)于AR來(lái)講，主要挑戰(zhàn)是在解決眼前投影的物體和現(xiàn)實(shí)物體的銳度變化的問題。所以Magic Leap給出的解決方案是很好地解決這個(gè)問題的。但都是理論上的，至于實(shí)際工程能力怎么樣就靠時(shí)間來(lái)證明了。

Q3. 為什么要有頭戴式顯示器？為什么不能裸眼全息？Magic Leap是怎么實(shí)現(xiàn)的？

人類希望能憑空看到一個(gè)虛擬物體，已經(jīng)想了幾百年了。各種科幻電影里也出現(xiàn)了很多在空氣中的全息影像。

但其實(shí)想想本質(zhì)就知道，這事從物理上很難實(shí)現(xiàn)：純空氣中沒有可以反射或折射光的介質(zhì)。顯示東西最重要的是介質(zhì)。很多微信上的瘋傳，以為Magic Leap不需要眼鏡，我估計(jì)是翻譯錯(cuò)誤導(dǎo)致的，視頻中寫了Shot directly through Magic Leap tech.，很多文章錯(cuò)誤的翻譯成“直接看到”或“裸眼全息"，其實(shí)視頻是相機(jī)透過Magic Leap的技術(shù)拍的。

目前全息基本還停留在全息膠片的時(shí)代（如下圖，我在光場(chǎng)研討會(huì)上看到的這個(gè)全息膠片的小佛像），或者初音未來(lái)演唱會(huì)那種用投影陣列向特殊玻璃（只顯示某一特定角度的圖像，而忽略其他角度的光線）做的偽全息。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

Magic Leap想實(shí)現(xiàn)的是把整個(gè)世界變成你的桌面這樣的愿景。所以與其在世界各個(gè)地方造初音未來(lái)那樣的3D全息透明屏做介質(zhì)或弄個(gè)全息膠片，還不如直接從人眼入手，直接在眼前投入整個(gè)光場(chǎng)更容易。其實(shí)Nvidia也在做這種光場(chǎng)眼鏡。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

Nvidia采用的方法是在一個(gè)二維顯示器前加上一個(gè)微鏡頭陣列Microlens array來(lái)生成4維光場(chǎng)。相當(dāng)于把2維的像素映射成4維，自然分辨率不會(huì)高，所以這類光場(chǎng)顯示器或相機(jī)（Lytro）的分辨率都不會(huì)高。本人親測(cè)，效果基本就是在看馬賽克畫風(fēng)的圖案。

而Magic Leap采用完全不同的一個(gè)方法實(shí)現(xiàn)光場(chǎng)顯示，它采用光纖投影。不過，Magic Leap用的光纖投影的方式也不是什么新東西。在Magic Leap做光纖投影顯示（Fiber optic projector）的人是Brian Schowengerdt，他的導(dǎo)師是來(lái)自華盛頓大學(xué)的教授Eric Seibel，致力于做超高分辨率光纖內(nèi)窺鏡8年了。簡(jiǎn)單原理就是光纖束在一個(gè)1mm直徑管道內(nèi)高速旋轉(zhuǎn)，改變旋轉(zhuǎn)的方向，然后就可以掃描一個(gè)較大的范圍。Magic Leap的創(chuàng)始人比較聰明的地方，是找到這些做高分辨率光纖掃描儀的，由于光的可逆性，倒過來(lái)就能做一個(gè)高分辨率投影儀。如圖，他們6年前的論文，1mm寬9mm長(zhǎng)的光纖就能投射幾寸大的高清蝴蝶圖像?，F(xiàn)在的技術(shù)估計(jì)早就超過那個(gè)時(shí)候了。

而這樣的光纖高分辨率投影儀還不能還原光場(chǎng)，需要在光纖的另一端放上一個(gè)微鏡頭陣列microlens array，來(lái)生成4維光場(chǎng)。你會(huì)疑問這不就和Nvidia的方法一樣了么？不，因?yàn)楣饫w束是掃描性的旋轉(zhuǎn)，這個(gè)microlens array不用做得很密很大，只要顯示掃描到的區(qū)域就好了。相當(dāng)與把大量數(shù)據(jù)在時(shí)間軸上分布開了，和通訊中的分時(shí)一樣，因?yàn)槿搜酆茈y分辨100幀上的變化，只要掃描幀率夠高，人眼就分辨不出顯示器是否旋轉(zhuǎn)顯示的。所以Magic Leap的設(shè)備可以很小，分辨率可以很高。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

他本人也來(lái)Stanford給過一個(gè)Talk，Near-to-Eye Volumetric 3D Displays using Scanned Light。這個(gè)Talk講的應(yīng)該就是Magic Leap早期的原型。（相關(guān)內(nèi)容可參考: Fiber Scanned Displays）

二、感知部分

Q4. 首先為什么增強(qiáng)現(xiàn)實(shí)要有感知部分？

是因?yàn)樵O(shè)備需要知道自己在現(xiàn)實(shí)世界的位置（定位），和現(xiàn)實(shí)世界的三維結(jié)構(gòu)（地圖構(gòu)建），才能夠在顯示器中的正確位置擺放上虛擬物體。舉個(gè)最近的Magic Leap Demo視頻的例子，比如桌子上有一個(gè)虛擬的太陽(yáng)系，設(shè)備佩戴者的頭移動(dòng)得時(shí)候，太陽(yáng)系還呆在原地，這就需要設(shè)備實(shí)時(shí)的知道觀看者視角的精確位置和方向，才能反算出應(yīng)該在什么位置顯示圖像。同時(shí)，可以看到桌面上還有太陽(yáng)的反光，這就要做到設(shè)備知道桌子的三維結(jié)構(gòu)和表面信息，才能正確的投射一個(gè)疊加影像在桌子的影像層上。難點(diǎn)是如何做到整個(gè)感知部分的實(shí)時(shí)計(jì)算，才能讓設(shè)備穿戴者感覺不到延時(shí)。如果定位有延時(shí)，佩戴者會(huì)產(chǎn)生暈眩，并且虛擬物體在屏幕上漂移會(huì)顯得非常的虛假，所謂Magic Leap宣稱的電影級(jí)的真實(shí)（Cinematic Reality）就沒有意義了。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

三維感知部分并不是什么新東西，計(jì)算機(jī)視覺或機(jī)器人學(xué)中的SLAM（Simultaneous Localization And Mapping，即時(shí)定位與地圖構(gòu)建）就是做這個(gè)的，已經(jīng)有30年的歷史了。設(shè)備通過各種傳感器（激光雷達(dá)，光學(xué)攝像頭，深度攝像頭，慣性傳感器）的融合將得出設(shè)備自己在三位空間中的精確位置，同時(shí)又能將周圍的三位空間實(shí)時(shí)重建。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

最近SLAM技術(shù)尤其火爆，去年到今年兩年時(shí)間內(nèi)巨頭們和風(fēng)投收購(gòu)和布局了超級(jí)多做空間定位技術(shù)的公司。因?yàn)槟壳白钆１频?大科技技術(shù)趨勢(shì)：無(wú)人車，虛擬現(xiàn)實(shí)，無(wú)人機(jī)，他們都離不開空間定位。SLAM是完成這些偉大項(xiàng)目基礎(chǔ)中的基礎(chǔ)。我也研究SLAM技術(shù)，所以接觸的比較多，為了方便大家了解這個(gè)領(lǐng)域，這里簡(jiǎn)單提幾個(gè)SLAM界最近的大事件和人物：

1、（無(wú)人車）Stanford的機(jī)器人教授Sebastian Thrun是現(xiàn)代SLAM技術(shù)的開創(chuàng)者，自從贏了DARPA Grand Challenge的無(wú)人車大賽后，去了Google造無(wú)人車了。SLAM學(xué)術(shù)圈的大部分研究派系都是Sebastian徒子徒孫。
2、（無(wú)人車）Uber在今年拿下了卡耐基梅隆CMU的NREC（國(guó)家機(jī)器人工程研發(fā)中心），合作成立高等技術(shù)研發(fā)中心ATC。這些原來(lái)做火星車的定位技術(shù)的研究人員都去Uber ATC做無(wú)人車了。
3、（虛擬現(xiàn)實(shí)）最近Surreal Vision被Oculus Rift收購(gòu)，其中創(chuàng)始人Richard Newcombe是大名鼎鼎的DTAM，KinectFusion（HoloLens的核心技術(shù)）的發(fā)明人。Oculus Rift還在去年收購(gòu)了13th Labs（在手機(jī)上做SLAM的公司）。
4、（虛擬現(xiàn)實(shí)）Google Project Tango 今年發(fā)布世界上第一臺(tái)到手就用的商業(yè)化SLAM功能的平板。Apple五月收購(gòu)Metaio AR，Metaio AR 的 SLAM 很早就用在了AR的app上了。Intel 發(fā)布Real Sense，一個(gè)可以做SLAM的深度攝像頭，在CES上Demo了無(wú)人機(jī)自動(dòng)壁障功能和自動(dòng)巡線功能。
5、（無(wú)人機(jī)）由原來(lái)做Google X Project Wing 無(wú)人機(jī)的創(chuàng)始人MIT機(jī)器人大牛Nicholas Roy 的學(xué)生Adam Bry創(chuàng)辦的Skydio，得到A16z的兩千萬(wàn)估值的投資，挖來(lái)了Georgia Tech的SLAM大牛教授Frank Dellaert 做他們的首席科學(xué)家。（相關(guān)內(nèi)容：http://www.cc.gatech.edu/~dellaert/FrankDellaert/Frank_Dellaert/Frank_Dellaert.html）

SLAM作為一種基礎(chǔ)技術(shù)，其實(shí)全世界做SLAM或傳感器融合做得好的大?？赡懿粫?huì)多于100人，并且大都互相認(rèn)識(shí)。這么多大公司搶這么點(diǎn)人，競(jìng)爭(zhēng)激烈程度可想而知，所以Magic Leap作為一個(gè)創(chuàng)業(yè)公司一定要融個(gè)大資，才能和大公司搶人才資源。

Q5. Magic Leap的感知部分的技術(shù)是怎么樣的？

這張照片是Gary教授在Magic Leap Stanford 招聘會(huì)中展示了Magic Leap在感知部分的技術(shù)架構(gòu)和技術(shù)路線。可以看到以Calibration為中心，展開成了4支不同的計(jì)算機(jī)視覺技術(shù)棧。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

1、從圖上看，整個(gè)Magic Leap感知部分的核心步驟是Calibration（圖像或傳感器校準(zhǔn)），因?yàn)橄馦agic Leap或Hololens這類主動(dòng)定位的設(shè)備，在設(shè)備上有各種用于定位的攝像頭和傳感器，攝像頭的參數(shù)和攝像頭之間關(guān)系參數(shù)的校準(zhǔn)是開始一切工作的第一步。這步如果攝像頭和傳感器參數(shù)都不準(zhǔn)，后面的定位都是無(wú)稽之談。從事過計(jì)算機(jī)視覺技術(shù)的都知道，傳統(tǒng)的校驗(yàn)部分相當(dāng)花時(shí)間，需要用攝像頭拍攝Chess Board，一遍一遍的收集校驗(yàn)用的數(shù)據(jù)。但Magic Leap的Gary，他們發(fā)明了一種新的Calibration方法，直接用一個(gè)形狀奇特的結(jié)構(gòu)體做校正器，攝像頭看一遍就完成了校正，極為迅速。這個(gè)部分現(xiàn)場(chǎng)不讓拍照。

2、有了Calibration部分后，開始最重要的三維感知與定位部分（左下角的技術(shù)棧），分為4步。

2.1 首先是Planar Surface Tracking（平面表面跟蹤）。大家可以在虛擬太陽(yáng)系的Demo中看到虛擬太陽(yáng)在桌子上有反光，且這個(gè)反光會(huì)隨著設(shè)備佩戴者的移動(dòng)而改變位置，就像是太陽(yáng)真的懸在空中發(fā)出光源，在桌子表面反射產(chǎn)生的。這就要求設(shè)備實(shí)時(shí)地知道桌子的表面在哪里，并且算出虛擬太陽(yáng)與平面的關(guān)系，才能將太陽(yáng)的反光的位置算出來(lái)，疊在設(shè)備佩戴者眼鏡相應(yīng)的位子上，并且深度信息也是正確的。難點(diǎn)在平面檢測(cè)的實(shí)時(shí)性和給出平面位置的平滑性（否則反光會(huì)有跳變）從Demo中可以看出Magic Leap在這步上完成得很好。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

2.2 然后是Sparse SLAM（稀疏SLAM）；Gary在Info Session上展示了他們實(shí)時(shí)的三維重構(gòu)與定位算法。為了算法的實(shí)時(shí)性，他們先實(shí)現(xiàn)了高速的稀疏或半稀疏的三維定位算法。從效果上看，和目前開源的LSD算法差不了太多。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

2.3 接著是Sensors; Vision and IMU（視覺和慣性傳感器融合）。

導(dǎo)彈一般是用純慣性傳感器做主動(dòng)定位，但同樣的方法不能用于民用級(jí)的低精度慣性傳感器，二次積分后一定會(huì)漂移。而光靠視覺做主動(dòng)定位，視覺部分的處理速度不高，且容易被遮檔，定位魯棒性不高。將視覺和慣性傳感器融合是最近幾年非常流行的做法。

舉例：

Google Tango在這方面就是做IMU和深度攝像頭的融合，做的很好；大疆的無(wú)人機(jī)Phantom 3或Inspire 1將光流單目相機(jī)和無(wú)人機(jī)內(nèi)的慣性傳感器融合，在無(wú)GPS的情況下，就能達(dá)到非常驚人的穩(wěn)定懸停；Hololens可以說在SLAM方面是做得相當(dāng)好，專門定制了一個(gè)芯片做SLAM，算法據(jù)說一脈相承了KinectFusion的核心，親自測(cè)試感覺定位效果很贊（我可以面對(duì)白色無(wú)特征的墻壁站和跳，但回到場(chǎng)中心后定位還是很準(zhǔn)確的，一點(diǎn)都不飄。）

2.4 最后是3D Mapping and Dense SLAM（3D地圖重建）。下圖展示了Magic Leap山景城辦公室的3D地圖重建：僅僅是帶著設(shè)備走了一圈，就還原了整個(gè)辦公室的3D地圖，并且有很精致的貼圖。書架上的書都能重建的不變形。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

因?yàn)锳R的交互是全新的領(lǐng)域，為了讓人能夠順利地和虛擬世界交互，基于機(jī)器視覺的識(shí)別和跟蹤算法成了重中之重。全新人機(jī)交互體驗(yàn)部分需要大量的技術(shù)儲(chǔ)備做支持。

接下來(lái)的三個(gè)分支，Gary沒有細(xì)講，但是可以看出他們的布局。我就隨便加點(diǎn)注解，幫助大家理解。

3.1 Crowdsourcing眾包。用于收集數(shù)據(jù)，用于之后的機(jī)器學(xué)習(xí)工作，要構(gòu)建一個(gè)合理的反饋學(xué)習(xí)機(jī)制，動(dòng)態(tài)的增量式的收集數(shù)據(jù)。

3.2 Machine Learning & Deep Learning機(jī)器學(xué)習(xí)與深度學(xué)習(xí)。需要搭建機(jī)器學(xué)習(xí)算法架構(gòu)，用于之后的識(shí)別算法的生產(chǎn)。

3.3 Scenic Object Recognition場(chǎng)景物體識(shí)別。識(shí)別場(chǎng)景中的物體，分辨物體的種類，和特征，用于做出更好的交互。比如你看到一個(gè)小狗的時(shí)候，會(huì)識(shí)別出來(lái)，然后系統(tǒng)可以把狗狗p成個(gè)狗型怪獸，你就可以直接打怪了。

3.4 Behavior Recognition行為識(shí)別。識(shí)別場(chǎng)景中的人或物的行為，比如跑還是跳，走還是坐，可能用于更加動(dòng)態(tài)的游戲交互。順便提一下，國(guó)內(nèi)有家Stanford校友辦的叫格林深瞳的公司也在做這個(gè)方面的研究。

跟蹤方面

4.1 Gesture Recognition手勢(shì)識(shí)別。用于交互，其實(shí)每個(gè)AR/VR公司都在做這方面的技術(shù)儲(chǔ)備。

4.2 Object Tracking物體追蹤。這個(gè)技術(shù)非常重要，比如Magic Leap的手捧大象的Demo，至少你要知道你的手的三維位置信息，實(shí)時(shí)Tracking，才能把大象放到正確的位子。

4.3 3D Scanning三維掃描。能夠?qū)F(xiàn)實(shí)物體，虛擬化。比如你拿起一個(gè)藝術(shù)品，通過三維掃描，遠(yuǎn)處的用戶就能夠在虛擬世界分享把玩同樣的物體。

4.4 Human Tracking人體追蹤。比如：可以將現(xiàn)實(shí)中的每個(gè)人物，頭上可以加個(gè)血條，能力點(diǎn)之類。

5.1 Eye Tracking眼動(dòng)跟蹤。Gary解釋說，雖然Magic Leap的呈像不需要眼動(dòng)跟蹤，但因?yàn)橐?jì)算4維光場(chǎng)，Magic Leap的渲染計(jì)算量巨大。如果做了眼動(dòng)跟蹤后，就可以減少3D引擎的物體渲染和場(chǎng)景渲染的壓力，是一個(gè)優(yōu)化的絕佳策略。

5.2 Emotion Recognition情感識(shí)別。如果Magic Leap要做一個(gè)Her電影中描繪的人工智能操作系統(tǒng)，識(shí)別主人得情感，可以做出貼心的情感陪護(hù)效果。

5.3 Biometrics生物識(shí)別。比如要識(shí)別現(xiàn)實(shí)場(chǎng)景中的人，在每個(gè)人頭上顯示個(gè)名字啥的。人臉識(shí)別是其中一種，國(guó)內(nèi)有家清華姚班師兄弟們開得公司Face++就是干這個(gè)干的最好的。

總結(jié)：簡(jiǎn)單來(lái)講感知這個(gè)部分Magic Leap其實(shí)和很多其他的公司大同小異，雖然有了Gary的加盟，野心非常的寬廣，但這部分競(jìng)爭(zhēng)非常激烈。

Q6: 就算Magic Leap已經(jīng)搞定了感知和顯示，那么接下來(lái)的困難是什么？

1、計(jì)算設(shè)備與計(jì)算量

Magic Leap要計(jì)算4維光場(chǎng)，計(jì)算量驚人。不知道Magic Leap現(xiàn)在是怎么解決的。如果Nvidia不給造牛逼的移動(dòng)顯卡怎么辦？難道自己造專用電路？背著4塊泰坦X上路可不是鬧著玩的。

下圖是，今年我參加SIGGraph 2015里，其中一個(gè)VR演示，每個(gè)人背著個(gè)大電腦包玩VR。10年后的人類看今天的人類追求VR會(huì)不會(huì)覺得很好笑，哈哈。

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

2、電池！電池！電池！所有電子設(shè)備的痛

3、一個(gè)操作系統(tǒng)

說實(shí)話，如果說“世界就是你的新桌面”是他們的愿景，現(xiàn)在的確沒有什么操作系統(tǒng)可以支持Magic Leap愿景下的交互。他們必須自己發(fā)明輪子。

4、為虛擬物體交互體驗(yàn)增加物理感受

為了能有觸感，現(xiàn)在交互手套，交互手柄都是 VR 界大熱的話題。從目前的專利上看，并沒有看出Magic Leap會(huì)有更高的見地。說不定某個(gè)Kickstarter最后能夠獨(dú)領(lǐng)風(fēng)騷，Magic Leap再把他收了。

【版權(quán)聲明】本文經(jīng)作者本人同意，并以CC協(xié)議：BY-NC-ND 4.0進(jìn)行授權(quán)（點(diǎn)擊可查詢協(xié)議文本），原文發(fā)布于知乎（點(diǎn)擊可查詢?cè)?/strong>）；另外作者也在招聘能人志士，簡(jiǎn)歷可發(fā)me@botao.hu。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

分享：

相關(guān)文章

Magic Leap Hololens 增強(qiáng)現(xiàn)實(shí) AR MIT FDDB 深度學(xué)習(xí) NVIDIA

RIOS譚章熹：RISC-V會(huì)服務(wù)真正的元宇宙硬件 | GAIR ...

AR 隱形眼鏡通過毒理學(xué)測(cè)試，閉著眼睛看書的時(shí)代真的 ...

同獲?？?、訊飛、全志等投資，產(chǎn)業(yè)大佬們看上它什么 ...

華為比蘋果更需要 AR 眼鏡

喵醬

精神病喵

這個(gè)作者很撈逼，雷鋒網(wǎng)拒絕為其負(fù)責(zé)=_=

發(fā)私信

當(dāng)月熱門文章

最新文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年

跨境電商如果還在靠堆人力，很快就要被淘汰 | 鯨犀百人談No.34

錯(cuò)過中國(guó)直播帶貨，別再失守美國(guó)私域黃金期 | 鯨犀百人談No.33

驗(yàn)證碼的發(fā)展史與未來(lái)預(yù)測(cè) | 科普

機(jī)器學(xué)習(xí)算法中分類知識(shí)總結(jié)！

神經(jīng)網(wǎng)絡(luò)淺講：從神經(jīng)元到深度學(xué)習(xí)

熱門搜索

Apple Watch iPhone 6 硬件 Nexus 榮耀越獄 Kindle Fire 自動(dòng)駕駛汽車電子商務(wù) Lyft 快手

震驚世界的Magic Leap與微軟的Hololens有哪些異同？

震驚世界的Magic Leap與微軟的Hololens有哪些異同？