談了這么久的Project Tango？我們終于把它講清楚

本文作者：胡金暉

2016-05-22 11:10

導(dǎo)語(yǔ)：Google Project Tango發(fā)布初期曾經(jīng)一度被稱為黑科技，但現(xiàn)如今已慢慢走進(jìn)我們的生活。

雷鋒網(wǎng)按：本文作者胡金暉，UCVR聯(lián)合創(chuàng)始人，CTO，英國(guó)King's College London電子工程系博士，專攻計(jì)算機(jī)視覺(jué)、圖像處理。

Project Tango發(fā)布初期曾經(jīng)一度被稱為黑科技，但現(xiàn)如今已慢慢走進(jìn)我們的生活。如果說(shuō)Kinect是3D感應(yīng)技術(shù)的開(kāi)創(chuàng)者，那么Project Tango就算是3D感應(yīng)技術(shù)領(lǐng)路人了。Project Tango將光學(xué)傳感器、慣性傳感器與計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行了完美的結(jié)合。

談了這么久的Project Tango？我們終于把它講清楚

Project Tango誕生記

說(shuō)到Project Tango就要說(shuō)起ATAP（All Things Are Possible，ATAP是Google收購(gòu)Motorola（后來(lái)又賣(mài)給了聯(lián)想）后保留的一個(gè)重要部門(mén)），更要說(shuō)起Johnny Lee。

如果你打開(kāi)上面Project Tango的介紹視頻，第一眼看到的一個(gè)面目和藹的胖子，就是那個(gè)在2007年底把Wii玩出花的大神。07年12月John神在YouTube上傳了一系列視頻，記錄了用Wii遙控手柄追蹤人的手指，通過(guò)改裝后的Wii遙控手柄和投影儀制造出多點(diǎn)觸摸電子白板，還有用Wii遙控手柄追蹤人的頭部位置，與此同時(shí)，游戲畫(huà)面也為了適應(yīng)觀眾的視角而發(fā)生改變。從這幾個(gè)實(shí)驗(yàn)中，我們可以看到當(dāng)下Leap Motion、Oculus Rift等下一代人機(jī)交互方式的影子。

之后他加入了微軟的Project Natal（該項(xiàng)目的成果是風(fēng)靡全球的Kinect），后來(lái)跳槽到Google X，再之后加入Motorola ATAP（All Things Are Possible），最終帶領(lǐng)團(tuán)隊(duì)在2014年6月5日啟動(dòng)Project Tango。

Project Tango三大核心技術(shù)

眾所周知Project Tango包含三塊技術(shù)：運(yùn)動(dòng)追蹤（Motion Tracking），深度感知（Depth Perception）和區(qū)域?qū)W習(xí)（Area Learning）。我們可以通過(guò)John神的職業(yè)道路，由簡(jiǎn)入繁來(lái)看看Project Tango里面的黑科技是如何一步一步實(shí)現(xiàn)的。

首先就是John神的成名之作：Wii實(shí)現(xiàn)頭動(dòng)追蹤。他將Wii捕捉系統(tǒng)翻了個(gè)個(gè)，將含有IR相機(jī)的Wii手柄作為接收器，并把Wii的“感應(yīng)棒”作為一個(gè)含有兩個(gè)紅外點(diǎn)光源的發(fā)射器，如下圖：

談了這么久的Project Tango？我們終于把它講清楚

這就形成了一個(gè)典型的單目視覺(jué)系統(tǒng)。接收器拍攝到的圖像是三維空間的場(chǎng)景在二維空間的投影，要識(shí)別場(chǎng)景的“深度”信息，就是一種逆向求解的過(guò)程。單目視覺(jué)系統(tǒng)一般采用對(duì)應(yīng)點(diǎn)標(biāo)定法，即通過(guò)不同坐標(biāo)系中對(duì)應(yīng)點(diǎn)的對(duì)應(yīng)坐標(biāo)求解坐標(biāo)系的轉(zhuǎn)換關(guān)系，說(shuō)起來(lái)很繞口，但是簡(jiǎn)單解釋就是好比你一只眼睛看一根木棍（我們假定木棍不會(huì)在水平面旋轉(zhuǎn)），雖然沒(méi)有了雙目的立體視覺(jué)，但是通過(guò)觀看木棍的長(zhǎng)度和位置變化你就可以判斷木棍的大概位置。同理John神的Demo中接收器拍攝到的圖像大概是這個(gè)樣子。

談了這么久的Project Tango？我們終于把它講清楚

可能這個(gè)例子里面的原理非常之簡(jiǎn)單，但要知道他提出的這個(gè)VR Display概念要比Oculus早了近5年。

運(yùn)動(dòng)追蹤

Project Tango的第一個(gè)核心技術(shù)“運(yùn)動(dòng)追蹤”的三維動(dòng)態(tài)捕捉就是利用了上面提到的單目視覺(jué)技術(shù)的升級(jí)版Feature Tracking（Google稱為特征捕捉）。特征捕捉如何理解呢？再回到John神的例子里，我們不再固定接收器的位置了，反而是拿著接收器（這里我們不再叫它接收器了，叫采集設(shè)備或相機(jī)）移動(dòng)；而對(duì)面只有兩個(gè)光點(diǎn)的發(fā)射器也變成一個(gè)一個(gè)的光點(diǎn)貼在John神家里屋子的各個(gè)角落。

當(dāng)我們移動(dòng)相機(jī)時(shí)不斷地一幀一幀進(jìn)行拍攝，因?yàn)榕臄z到的光點(diǎn)的相對(duì)位置在不斷變化（這里“變化”是指拍攝到的兩幀之間同一個(gè)光點(diǎn)的相對(duì)位置變化），通過(guò)計(jì)算我們可以得到相機(jī)的移動(dòng)距離。簡(jiǎn)單來(lái)說(shuō)Tango設(shè)備在不斷循環(huán)的一個(gè)過(guò)程就是：拍攝——識(shí)別特征點(diǎn)（個(gè)人估計(jì)是SIFT點(diǎn)）——匹配特征點(diǎn)——篩去錯(cuò)誤匹配——坐標(biāo)換算。當(dāng)然Project Tango的運(yùn)動(dòng)追蹤不僅如此，他還能通過(guò)一個(gè)內(nèi)置的6軸慣性傳感器（加速度計(jì)和陀螺儀）來(lái)捕捉相機(jī)的加速度和運(yùn)動(dòng)方向。

當(dāng)融合了以上兩類傳感器的數(shù)據(jù)之后Project Tango就“完美”（其實(shí)還有瑕疵）實(shí)現(xiàn)了三維運(yùn)動(dòng)追蹤。

區(qū)域?qū)W習(xí)

為什么說(shuō)還有瑕疵的？因?yàn)檫\(yùn)動(dòng)追蹤只是單純得到了相機(jī)移動(dòng)的軌跡，然而對(duì)于相機(jī)所處的場(chǎng)景是零認(rèn)知。所以一旦設(shè)備被關(guān)掉，它之前的運(yùn)動(dòng)軌跡就會(huì)被“忘掉”。最大的問(wèn)題還是運(yùn)動(dòng)追蹤中所累積的誤差，或者叫漂移，在長(zhǎng)距離使用后真實(shí)位置會(huì)和運(yùn)算位置有很大差異。

為解決這個(gè)問(wèn)題，John神團(tuán)隊(duì)為T(mén)ango設(shè)備設(shè)定了一種學(xué)習(xí)模式。這應(yīng)該是他在Google X里面無(wú)人駕駛汽車(chē)研究成果的冰山一角。這種學(xué)習(xí)模式理解起來(lái)就簡(jiǎn)單很多了，為了讓Tango設(shè)備具有一定記憶，而不再像一個(gè)被蒙著眼睛的人一樣需要靠數(shù)自己走了多少步來(lái)計(jì)算距離，Project Tango可以讓用戶預(yù)先錄入某個(gè)場(chǎng)景（這里要特別提醒的是，錄入的數(shù)據(jù)不光包括了運(yùn)動(dòng)追蹤里面所識(shí)別的特征點(diǎn)，還包含了場(chǎng)景本身），當(dāng)用戶重回這個(gè)場(chǎng)景的時(shí)候Tango設(shè)備會(huì)自動(dòng)用錄入的數(shù)據(jù)來(lái)糾正運(yùn)動(dòng)追蹤的數(shù)據(jù)，這個(gè)糾正的過(guò)程中錄入場(chǎng)景里的那些特征點(diǎn)會(huì)被當(dāng)作觀測(cè)點(diǎn)，一旦發(fā)現(xiàn)與當(dāng)下特征點(diǎn)匹配的觀測(cè)點(diǎn)，系統(tǒng)便會(huì)修正當(dāng)下的追蹤數(shù)據(jù)。這就是Project Tango的第二大技術(shù)核心——區(qū)域?qū)W習(xí)。

深度感知

如果說(shuō)把深度感知作為Project Tango的第三大技術(shù)核心，我覺(jué)得有點(diǎn)虛，畢竟Google也是采用的第三方的深度傳感器。不過(guò)對(duì)此Google并沒(méi)有掖著藏著，而是很大方的表明Tango設(shè)備可以選擇任意一種現(xiàn)今流行的深度感知技術(shù)。而對(duì)這項(xiàng)技術(shù)的順利應(yīng)用多半也要?dú)w功于John神在Project Natal的經(jīng)歷了。Kinect一代的推出震動(dòng)了業(yè)界，震動(dòng)了學(xué)術(shù)界，同時(shí)也把結(jié)構(gòu)光（Structured Light）的概念推廣了出去。那么他到底是怎么實(shí)現(xiàn)深度檢測(cè)的呢？檢測(cè)到的“深度”又是什么概念呢？

結(jié)構(gòu)光顧名思義是有特殊結(jié)構(gòu)（模式）的光，比如離散光斑，條紋光，編碼結(jié)構(gòu)光，等等。他們被投射到待檢測(cè)物體或平面上，看上去就好像標(biāo)尺一樣。根據(jù)用處不同，投影出來(lái)的結(jié)構(gòu)光也可以分為不可見(jiàn)的紅外光斑，黑白條紋可見(jiàn)光，單束線性激光，等等。比如Kinect投射出來(lái)的就是紅外光斑，設(shè)想你玩游戲的時(shí)候要是一片黑白條紋光打到你身上，這畫(huà)面感豈不是很怪。

談了這么久的Project Tango？我們終于把它講清楚

人們發(fā)現(xiàn)把這些光投到不同深度的平面上光的紋路會(huì)發(fā)生變化，那么如果能采集到這些紋理變化，并且能精準(zhǔn)的計(jì)算這些變化豈不是可以算出不同的深度？

回歸正題，Kinect的離散光斑是如何實(shí)現(xiàn)深度檢測(cè)的呢，我們知道如果拿一個(gè)手電照射墻壁，站近或站遠(yuǎn)，墻上的光斑是不同大小的，從不同角度照射墻，光斑也會(huì)呈現(xiàn)不同的橢圓。這就是基本原理了。但如何使一個(gè)紅外光源按照不同角度射出？并且還要變成一堆離散的光斑？

這就要拿出它的發(fā)明者以色列PrimeSense公司的專利圖了，他們非常聰明地在紅外發(fā)射器前面加了一個(gè)特殊設(shè)計(jì)的diffuser（光柵、擴(kuò)散片）可以使紅外光線能從不同角度射出。另一個(gè)攝像頭再去拍攝這些光斑然后進(jìn)行計(jì)算從而得出每一個(gè)光斑所在的深度。每種結(jié)構(gòu)光的掃描精度，所對(duì)應(yīng)的算法，以及應(yīng)用場(chǎng)景都有所不同。例如用于電子產(chǎn)業(yè)元器件錫膏檢查（SPI/ AOI）一般就是可見(jiàn)的條紋光。另外幾種結(jié)構(gòu)光就不多做介紹了，總之只需要知道他們對(duì)深度感知的精準(zhǔn)度會(huì)遠(yuǎn)遠(yuǎn)高于Kinect這種離散光斑類型的結(jié)構(gòu)光（可以達(dá)到微米級(jí)），并且算法也有很大出入。

談了這么久的Project Tango？我們終于把它講清楚

除了結(jié)構(gòu)光Project Tango還提到了TOF（Time of Flight飛翔的時(shí)間？）一個(gè)激光發(fā)射器，一個(gè)接收器，一個(gè)運(yùn)算光程的芯片組成。通過(guò)計(jì)算不同的光程來(lái)獲取深度信息，它也是一種深度傳感器。

這些深度傳感器輸出稱之為“點(diǎn)云”的數(shù)據(jù)，包含了所有被采集到深度的點(diǎn)的三維信息。

談了這么久的Project Tango？我們終于把它講清楚

但是這里還隱藏了一個(gè)技術(shù)難點(diǎn)，因?yàn)門(mén)ango設(shè)備是在一邊移動(dòng)一邊采集的，如何把上一幀采集的“點(diǎn)云”信息和當(dāng)下幀采集的“點(diǎn)云”進(jìn)行匹配，并且顯示在同一世界坐標(biāo)中就是難點(diǎn)所在。Project Tango巧妙的結(jié)合運(yùn)動(dòng)追蹤的軌跡數(shù)據(jù)達(dá)到了對(duì)“點(diǎn)云”的實(shí)時(shí)拼接。要知道“點(diǎn)云”的數(shù)量一般在幾百或者上千。算法已經(jīng)不易，運(yùn)算量更是大的離譜，而Project Tango還把它做進(jìn)了移動(dòng)設(shè)備里。

結(jié)論

當(dāng)這三大技術(shù)匯聚，Project Tango為移動(dòng)平臺(tái)帶來(lái)了一種全新的空間感知技術(shù)，它可以讓移動(dòng)設(shè)備像人眼一樣感知你所在的房間，找到行走的路，并且感知到哪里是墻，哪里是地，以及所有你身邊的物體。

談了這么久的Project Tango？我們終于把它講清楚

其實(shí)這段很酷炫的話只有一個(gè)關(guān)鍵詞，那就是“移動(dòng)平臺(tái)”。為什么？此時(shí)先拿出一個(gè)上文都沒(méi)有提過(guò)的詞語(yǔ)SLAM（Simultaneous Localization And Mapping，同步定位與地圖構(gòu)建）。它是機(jī)器人領(lǐng)域里面最重要的一個(gè)概念，沒(méi)有之一。

就是希望機(jī)器人能夠在某個(gè)環(huán)境中認(rèn)識(shí)這個(gè)環(huán)境，找到自己的位置，并且規(guī)劃出合理的道路。然而自1986年這個(gè)概念被提出以來(lái)，運(yùn)算復(fù)雜度就一直是它的一個(gè)有待解決的問(wèn)題。可能大家也發(fā)現(xiàn)了，Tango設(shè)備就是一種SLAM設(shè)備，并且Google把它實(shí)現(xiàn)在了移動(dòng)設(shè)備端。John神和他的團(tuán)隊(duì)靠的不是魔法，而是對(duì)于光學(xué)傳感器和慣性傳感器與計(jì)算機(jī)視覺(jué)技術(shù)的巧妙結(jié)合。利用光學(xué)傳感器來(lái)校正慣性傳感器的誤差累計(jì)或者說(shuō)“漂移”問(wèn)題，利用慣性傳感器的小尺寸，低成本，以及實(shí)時(shí)信息輸出來(lái)降低光學(xué)傳感器的運(yùn)算量，再配合上成熟的深度感應(yīng)器（其實(shí)也是光學(xué)感應(yīng)器的一類）從而實(shí)現(xiàn)了這個(gè)人們眼中的黑科技。

Project Tango的價(jià)值并不是把某個(gè)技術(shù)做到了登峰造極，而是將多種技術(shù)完美融合在一起，做到了1+1+1大于3的功效。并且把這些技術(shù)融合在了我們每天手邊拿著的設(shè)備上。在AR，VR，MR盛行的今天，Project Tango的場(chǎng)景掃描和運(yùn)動(dòng)追蹤功能正是現(xiàn)在AR，VR，MR設(shè)備最缺失的幾種輸入信息方式。再加上Google最近發(fā)布的DayDream VR平臺(tái)和Google移動(dòng)操作系統(tǒng)的最新版本Android N，可見(jiàn)Google在移動(dòng)VR上的布局是多么宏大。不過(guò)，此時(shí)看來(lái)Project Tango還處在“Tech Demo”階段，究竟能給AR，VR帶來(lái)多大的推動(dòng)力，我們拭目以待。

談了這么久的Project Tango？我們終于把它講清楚

本文為雷鋒網(wǎng)獨(dú)家特約稿件，轉(zhuǎn)載請(qǐng)聯(lián)系授權(quán)，注明作者、出處，不得刪改。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

胡金暉

專欄作者

UCVR 聯(lián)合創(chuàng)始人，CTO。英國(guó)King‘s College London電子工程系博士。專攻計(jì)算機(jī)視覺(jué)，圖像處理，研究涉及機(jī)器學(xué)習(xí)，三維重構(gòu)，人機(jī)交互等領(lǐng)域技術(shù)，曾在香港應(yīng)用科學(xué)院主持多個(gè)科技項(xiàng)目研發(fā)。

發(fā)私信

當(dāng)月熱門(mén)文章

談了這么久的Project Tango？我們終于把它講清楚

Project Tango誕生記

Project Tango三大核心技術(shù)

運(yùn)動(dòng)追蹤

區(qū)域?qū)W習(xí)

深度感知

結(jié)論

談了這么久的Project Tango？我們終于把它講清楚