機(jī)器也能看見世界，這背后的技術(shù)是什么？

本文作者：速騰邱純鑫

2016-05-20 16:43

導(dǎo)語：你知道Realsense、Kinect、無人機(jī)和無人駕駛汽車的核心技術(shù)有什么區(qū)別嗎？

去年CES大會期間，英特爾首次展示了Realsense實(shí)感技術(shù)，一年之后也就是上個月的2016 IDF大會上，英特爾終于向外界推出了Realsense技術(shù)的SDK和機(jī)器人開發(fā)工具包以及無人機(jī)平臺。搭載Realsense 的3D攝像頭能夠幫助機(jī)器實(shí)現(xiàn)查看環(huán)境物體“深度”信息，通俗點(diǎn)講，只需一個手勢、一個眼神或者一個動作，電腦就知道你想做什么。

看似很酷炫的技術(shù)，實(shí)際上并沒有外界想得那么高大上。

Realsense之所以能夠識別物體的深度信息，關(guān)鍵在于其具備三維重建功能。而能與Realsense齊名甚至是比Realsense更好的產(chǎn)品比比皆是，我們所知道的無人機(jī)、機(jī)器人以及無人駕駛汽車當(dāng)中的壁障或路徑規(guī)劃等功能都基于三維重建技術(shù)。

說到這里你也許會認(rèn)為這些產(chǎn)品的技術(shù)原理并無差異，那么事實(shí)真是如此嗎？

隨著三維重建的技術(shù)方案在不斷成熟，其方案也是層出不窮。目前，業(yè)界主流的方案就有視覺和激光雷達(dá)兩大類，例如Realsense和Leap motion以及Kinect就是用視覺方法來實(shí)現(xiàn)環(huán)境感知功能，而激光雷達(dá)則是無人駕駛和掃地機(jī)器人等領(lǐng)域的核心一環(huán)。那么為什么出現(xiàn)多種方案呢？它們到底有什么差異？

單目/雙目視覺

這種技術(shù)是利用攝像頭來獲取象物體表面信息，根據(jù)攝像頭的數(shù)量，我們可以分為單目視覺和雙目視覺。

談到三維重建技術(shù)，最早可以追溯到上世紀(jì)60年代，當(dāng)時的研究人員已經(jīng)展開了雙目視覺的研究，正是因?yàn)殡p目立體視覺的出現(xiàn)，業(yè)界才向現(xiàn)代計(jì)算機(jī)視覺技術(shù)邁進(jìn)了一大步，從以往二維圖像的分析導(dǎo)入到了三維場景，說雙目視覺技術(shù)是三維重建的鼻祖并不為過。

其原理比較簡單，雙目視覺設(shè)備直接通過兩個紅外傳感器/攝像頭從不同角度同時獲得被測物的兩幅數(shù)字圖像，然后基于視差原理恢復(fù)出物體的三維幾何信息，重建物體三維輪廓及位置，這種沒有主動發(fā)射光源的也被叫做被動三維視覺。

然而，在有兩個攝像頭的情況下如何甄別是否是同一個信息點(diǎn)是一個難題，這對軟件算法提出了很高的要求。在這樣的背景下，單目視覺問世了。

單目視覺，顧名思義，只用一個攝像頭來接收信息，因?yàn)楸入p目視覺系統(tǒng)少了一個接收端，所以在攝像頭的另一側(cè)需要一個結(jié)構(gòu)光發(fā)射光源來填補(bǔ)空缺，相應(yīng)的我們可以稱之為主動視覺。英特爾Realsense是典型的單目攝像頭+結(jié)構(gòu)光的代表。因?yàn)榻Y(jié)構(gòu)光發(fā)射的是一個已知的圖案，僅有的攝像頭接收到了經(jīng)過物體表面反射的圖案之后，就可以經(jīng)過圖像處理計(jì)算出和原始圖案的差異，最后就實(shí)現(xiàn)了三維重構(gòu)。

使用視覺方法做三維重構(gòu)的短板很明顯，單目和雙目魯棒性都很差，這種系統(tǒng)的精度會隨著周圍環(huán)境的變化而受到影響，我們分別以雙目和單目視覺舉個例子：目前好的雙目視覺方案精度可以做到幾毫米甚至是零點(diǎn)幾毫米，但這是在最佳環(huán)境下的數(shù)值，當(dāng)外界光線由強(qiáng)變?nèi)鯐r，雙目視覺的精度會大打折扣，因?yàn)殡p目攝像頭感知圖像的能力會變?nèi)?，獲取的圖案也自然而然變得越來越模糊，這與手機(jī)攝像頭的拍攝原理類似。

而單目視覺恰恰相反，結(jié)構(gòu)光的硬傷是“見光死”，它只適合光線較暗的環(huán)境，如果周圍的光線很強(qiáng)，攝像頭就很難準(zhǔn)確的識別亮點(diǎn)，所以結(jié)構(gòu)光法到了室外就顯得有些水土不服了。

看到這里，也許你就理解了為什么英特爾選擇在一個光線很暗的環(huán)境下演示搭載Realsense模組的昊翔Typhoon H壁障功能。說句題外話，因?yàn)閱文亢碗p目有本質(zhì)的區(qū)別，最近鬧得不可開交的大疆（雙目視覺原理）和Yuneec昊翔侵權(quán)案被業(yè)內(nèi)人士認(rèn)為并不成立。

無論是單目和雙目，其測距方法都是基于三角測距法，測距范圍最大只能做到5-8m，這就決定了視覺方法不適合無人駕駛汽車，其最大的應(yīng)用場景還是室內(nèi)掃地機(jī)器人以及游戲設(shè)備。另外，這種方案的硬件成本只有幾百元人民幣，非常適合消費(fèi)類的電子產(chǎn)品。

因?yàn)椴捎靡曈X方案的產(chǎn)品有很多，我們只以Realsense為例看下視覺方案的產(chǎn)品特性。

機(jī)器也能看見世界，這背后的技術(shù)是什么？

根據(jù)英特爾官方的信息，Realsense有近距離使用和遠(yuǎn)距離使用兩個版本，近距離版本內(nèi)置了F200 3D圖像處理器的芯片，一個紅外激光發(fā)射器和一個接收圖像信息的紅外傳感器，其采用的是典型的單目+結(jié)構(gòu)光的方案；遠(yuǎn)距離版本則采用了R200 3D圖像處理芯片，另外比近距離版本多配置了一個紅外傳感器（雙目），這意味著該版本直接模仿人眼的“視差原理”，通過打出一束紅外光，以左紅外傳感器和右紅外傳感器追蹤這束光的位置，然后用三角定位原理來計(jì)算出 3D 圖像中的“深度”信息。后者每秒可以采集1000萬個3D點(diǎn)，可以識別跟蹤手上的22個關(guān)節(jié)點(diǎn)，根據(jù)手部運(yùn)動來實(shí)現(xiàn)手勢操控，并能識別面部的78個特征點(diǎn)，實(shí)現(xiàn)面部解鎖、表情識別。

除了Realsense，Kinect、和LeapMotion以及國內(nèi)的奧比中光等都用的是基于視覺的三維建模方案，當(dāng)然任何一家廠商的方案都有自己的特點(diǎn)，根據(jù)各自應(yīng)用場景的不同都有一定的差異。

激光雷達(dá)

既然視覺方案存在這么多的缺陷，就必然需要另外一種技術(shù)來完成它不能完成的使命，激光雷達(dá)就是其中之一。作為機(jī)器人、無人機(jī)和無人駕駛領(lǐng)域的新寵，激光雷達(dá)是這兩年才開始火起來的。

激光雷達(dá)之所以能夠受到業(yè)界的追捧，很關(guān)鍵的原因就是激光解決了上述視覺方案中受光線強(qiáng)度影響的問題，如果在室外，用它來實(shí)現(xiàn)壁障、路徑規(guī)劃等功能再合適不過了。

和視覺方式一樣，激光雷達(dá)實(shí)現(xiàn)三維重建大體也可以分為兩類，一類是基于三角測量法，另一種被稱為ToF測距法，這兩種方式不僅僅是文字和原理上的差異，二者的性能以及價格都不在一個等級上。

基于三角測量算法的激光雷達(dá)多為非實(shí)時性激光雷法，其原理如下：激光從激光頭發(fā)射，到物體表面之后會形成一條反射光，另一側(cè)的陣列CCD可以實(shí)時感應(yīng)到反射回來的信息，因?yàn)榧す忸^的發(fā)射角度α和信號接收端的角度β是已知的，激光頭和CCD的距離為固定的，根據(jù)正弦定理就可以算出雷達(dá)與物體的距離。這種方案技術(shù)門檻不高，開發(fā)周期也不長，硬件成本可以做到幾百元的級別。

既攻克了視覺方案的瓶頸，又繼承了其成本低廉的優(yōu)勢，這樣的方案看似很完美。但它依然存在兩個缺陷：首先，基于三角測距法的激光雷達(dá)沒有擺脫測距范圍短的缺陷，大多數(shù)產(chǎn)品都在5-6m范圍內(nèi)；其次，因?yàn)榘l(fā)射的是單點(diǎn)激光，再加上一般廠商的激光出點(diǎn)數(shù)只有4k左右，其重構(gòu)三維信息的速度會比較慢。如果應(yīng)用在掃地機(jī)器人上，這樣的參數(shù)是綽綽有余的，目前國內(nèi)的思嵐科技和國外的Neato用的就是這一方案。

ToF（Time Of Flight）的原理是通過測量光脈沖之間的傳輸延遲時間來計(jì)算對象物體的距離。使用ToF的激光雷達(dá)在測出物體輪廓邊沿與設(shè)備間的相對距離后，這些輪廓信息可組成點(diǎn)云數(shù)據(jù)，最終得出3D環(huán)境地圖，這種激光雷達(dá)的精度可以做到厘米級別。它是目前最適合無人駕駛汽車的技術(shù)之一，谷歌無人駕駛汽車上使用的就是國外廠商Velodyne的64線實(shí)時性激光雷達(dá)。

這種激光雷達(dá)在無人駕駛汽車當(dāng)中充當(dāng)了眼睛的角色。Velodyne的員工曾拆解夠上述這款64線激光雷達(dá)，其硬件構(gòu)造由發(fā)射系統(tǒng)、接收系統(tǒng)、信息處理等部分組成（如下圖）。

機(jī)器也能看見世界，這背后的技術(shù)是什么？激光從兩側(cè)發(fā)射，遇到障礙物之后反射的信息被中間接收處接收，通過折返的時間進(jìn)行一系列的數(shù)據(jù)分析，最后就可以得出障礙物的距離以及輪廓信息，需要注意的是，在無人駕駛汽車行駛的過程中，這個64線激光雷達(dá)也在不停地轉(zhuǎn)動以記錄全方位的環(huán)境信息，激光接收端收集到的數(shù)據(jù)實(shí)際上是無數(shù)個數(shù)據(jù)組成的點(diǎn)云數(shù)據(jù)。遺憾的是，Velodyne并不提供點(diǎn)云數(shù)據(jù)算法，最終的數(shù)據(jù)處理還是要交到汽車廠商手上。

然而，Velodyne閹割掉的環(huán)節(jié)正是激光雷達(dá)的關(guān)鍵環(huán)節(jié)。因?yàn)榧す饫走_(dá)的難點(diǎn)就在于如何通過硬件進(jìn)行高速數(shù)據(jù)采集并通過算法實(shí)時處理，獲得高精度原始點(diǎn)云數(shù)據(jù)。硬件系統(tǒng)可以支持一秒進(jìn)行上百萬次的測量，所以軟件算法需要不斷優(yōu)化，減少計(jì)算量并提高精度，通俗點(diǎn)講，沒有點(diǎn)云算法，激光雷達(dá)的硬件條件再好也沒有辦法完成高精度的測量。

這就是為什么我們會說實(shí)時性激光雷達(dá)軟件算法的技術(shù)壁壘很高，縱觀全球市場能提供點(diǎn)云算法的廠商屈指可數(shù)，國內(nèi)具備這一實(shí)力的更是鳳毛麟角。有人說，國外占據(jù)了激光雷達(dá)的主導(dǎo)位置，我卻不這么認(rèn)為。因?yàn)閲獾募す饫走_(dá)產(chǎn)品一直居高不下，而且產(chǎn)品成熟度并不高，即便是目前車用激光雷達(dá)市場的代表——Velodyne也被貼上了“低性價比”的標(biāo)簽（Velodyne 64線激光雷達(dá)目前售價7萬5千美元）。所以幾乎可以認(rèn)為大家都是站在同一起跑線上的，這對國內(nèi)廠商來說是個空前的機(jī)會。以深圳騰聚創(chuàng)科技為例，雖然創(chuàng)立只有兩年的時間，但公司的技術(shù)團(tuán)隊(duì)在點(diǎn)云算法上有10年的經(jīng)驗(yàn)積累，而且取得了重大突破，目前，速騰已經(jīng)和國內(nèi)汽車廠商展開了合作，在性能和價格上都能顛覆現(xiàn)有的激光雷達(dá)，預(yù)計(jì)今年下半年會正式推出。

類似的技術(shù)還有毫米波雷達(dá)以及其它傳感器的方案等等，它們也各有特點(diǎn)，我就不再贅述了?，F(xiàn)在討論它們孰優(yōu)孰劣還為時過早，但可以確定的是激光雷達(dá)的成本降下來之后，必然是廠商的最佳選擇，同時也會成為無人機(jī)、機(jī)器人和無人駕駛市場化的重要推手。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

速騰邱純鑫

編輯

速騰聚創(chuàng)CEO，多年來致力于機(jī)器人視覺導(dǎo)航與控制技術(shù)研究。聯(lián)系郵箱：cxqiu@sz-sti.com

發(fā)私信

當(dāng)月熱門文章

機(jī)器也能看見世界，這背后的技術(shù)是什么？

機(jī)器也能看見世界，這背后的技術(shù)是什么？