14
本文作者: 金紅 | 2017-04-08 19:34 | 專(zhuān)題:雷峰網(wǎng)公開(kāi)課 |
市場(chǎng)上空間定位的技術(shù)方案分為單目、雙目以及激光雷達(dá)三大陣營(yíng),其中激光雷達(dá)由于成本高昂市場(chǎng)接受度較低,而在都是基于計(jì)算機(jī)視覺(jué)的單目和雙目中,雙目則顯得更受歡迎。在國(guó)內(nèi)做計(jì)算機(jī)視覺(jué)技術(shù)方案的企業(yè)如圖漾、速感、人加智能等大多選擇了雙目,而選擇了單目的歡創(chuàng)科技則成為了少數(shù)派。那么,雙目為何比單目更受市場(chǎng)青睞,兩者之間的技術(shù)差異在哪里,單目又是如何實(shí)現(xiàn)空間定位與位置追蹤?本期雷鋒網(wǎng)硬創(chuàng)公開(kāi)課邀請(qǐng)到歡創(chuàng)科技CEO周琨,詳細(xì)講解單目定位技術(shù)。
本期公開(kāi)課包含但不限于以下內(nèi)容:
視覺(jué)目標(biāo)定位(位姿測(cè)量)
單目視覺(jué)定位
基于PnP的單目視覺(jué)定位
單目與雙目比較
單目視覺(jué)定位在VR中的應(yīng)用
周琨,清華大學(xué)深圳研究生院碩士生導(dǎo)師,深圳市高層次人才,南山區(qū)領(lǐng)航人才,深圳市歡創(chuàng)科技有限公司CEO,清華大學(xué)本科、碩士,師從973首席科學(xué)家,長(zhǎng)江學(xué)者戴瓊海教授。十余年IT和人機(jī)交互技術(shù)行業(yè)產(chǎn)品研發(fā)和技術(shù)管理經(jīng)驗(yàn)。先后就職于貝爾實(shí)驗(yàn)室,中國(guó)移動(dòng),對(duì)視覺(jué)人機(jī)交互技術(shù)進(jìn)行了非常深入的研究,作為主要發(fā)明人,擁有二十余項(xiàng)國(guó)際和國(guó)家專(zhuān)利,并先后獲得山東省科技進(jìn)步二等獎(jiǎng)和深圳市科學(xué)技術(shù)專(zhuān)利獎(jiǎng)。2014年初創(chuàng)辦歡創(chuàng)科技,擔(dān)任CEO職位,引領(lǐng)公司致力于計(jì)算機(jī)視覺(jué)空間定位與位置追蹤技術(shù)的研究和產(chǎn)業(yè)化,目前產(chǎn)品已經(jīng)廣泛應(yīng)用于電視機(jī)、VR與機(jī)器人領(lǐng)域。
以下為嘉賓分享內(nèi)容實(shí)錄。相對(duì)視頻文中做了刪減,完整內(nèi)容可觀看視頻。關(guān)注雷鋒網(wǎng)旗下微信公眾號(hào)「新智造」,回復(fù)「PPT」可獲取嘉賓完整PPT。
從工程意義上來(lái)說(shuō),測(cè)量一個(gè)物體相對(duì)于另一個(gè)物體的位置與姿態(tài),即所謂的位姿測(cè)量。從數(shù)學(xué)意義上來(lái)講,測(cè)量?jī)蓚€(gè)坐標(biāo)系間的平移與旋轉(zhuǎn)變換關(guān)系,包括3個(gè)位置(Translational)和3個(gè)旋轉(zhuǎn)角(Rotational)共6個(gè)位姿量(即6DOF)。理論上,只要已知空間不共線的3點(diǎn)在兩個(gè)坐標(biāo)系下的坐標(biāo),就能唯一確定兩坐標(biāo)系間的位姿關(guān)系,因此,位姿測(cè)量的關(guān)鍵就是如何得到特征點(diǎn)在這兩個(gè)坐標(biāo)系下的坐標(biāo)。
自定位(inside-out),即通過(guò)相機(jī)拍攝視野坐標(biāo)系,以及坐標(biāo)系的特征點(diǎn),從而判斷相機(jī)相對(duì)坐標(biāo)系自身的坐標(biāo)。比如我們常用的SLAM,這方面雷鋒網(wǎng)之前也有嘉賓做過(guò)介紹,它的特點(diǎn)是便攜、視角理論無(wú)限大、定位精度不高。主要應(yīng)用領(lǐng)域包括移動(dòng)機(jī)器人、無(wú)人機(jī)、VR、AR。
外定位(outside-in),比較常見(jiàn)的是OptiTrack,特點(diǎn)是安裝復(fù)雜、視角有限、定位精度高。主要應(yīng)用領(lǐng)域包括影視動(dòng)捕、VR、工業(yè)機(jī)器人。
單目定位(mono camera)
特點(diǎn):系統(tǒng)簡(jiǎn)單,運(yùn)算量小,需要目標(biāo)點(diǎn)之間有幾何約束關(guān)系,應(yīng)用場(chǎng)景有限制,成本較低。
雙目定位(stereo camera)
特點(diǎn):系統(tǒng)復(fù)雜,運(yùn)算量大,可以單幀單目標(biāo)點(diǎn)定位,對(duì)目標(biāo)物體無(wú)幾何約束,,應(yīng)用場(chǎng)合靈活,成本較高。
多目定位(multiple camera)
特點(diǎn):系統(tǒng)非常復(fù)雜,運(yùn)算量特別巨大,對(duì)目標(biāo)物體無(wú)幾何約束要求,應(yīng)用場(chǎng)合受限,成本很高。
目前關(guān)于雙目定位的研究與市場(chǎng)應(yīng)用相對(duì)比較多,而單目定位則相對(duì)比較少,所以,今天我就重點(diǎn)講下單目定位。
顧名思義,單目視覺(jué)定位就是僅利用一臺(tái)攝像機(jī)完成定位工作。單目視覺(jué)定位的方法主要有兩種:基于單幀圖像的定位方法和基于兩幀或多幀的定位方法。
基于單幀圖像的定位方法包括基于特征點(diǎn)的定位(Perspective-n-Point)、基于直線特征的定位,關(guān)鍵點(diǎn)在于快速準(zhǔn)確地實(shí)現(xiàn)模板與投影圖像之間的特征匹配。
基于兩幀或多幀的定位方法的關(guān)鍵在于實(shí)現(xiàn)多幀投影圖像之間的對(duì)應(yīng)特征元素匹配,如SLAM。
P-n-P,即Perspective-n-Points,指給定世界(剛體)坐標(biāo)系下的n個(gè)3d坐標(biāo)點(diǎn),以及這些點(diǎn)在圖像中的2d投影坐標(biāo),求解世界(剛體)相對(duì)相機(jī)的姿態(tài)和位置(求解R,t)。要想求解出世界(剛體)相對(duì)相機(jī)的姿態(tài)和位置,必須知道至少4個(gè)點(diǎn),也就是n要大于等于4,當(dāng)然這是必要條件,不是充分條件,充分必要條件是n等于6。
雙目視覺(jué)定位原理是指通過(guò)三角測(cè)量原理來(lái)對(duì)目標(biāo)點(diǎn)的三維空間位置進(jìn)行定位。雙目視覺(jué)定位的算法流程:相機(jī)標(biāo)定、雙目標(biāo)定、圖像處理、特征檢測(cè)、立體匹配、三維測(cè)量、姿態(tài)測(cè)量。
圖像提取精度問(wèn)題
單目&雙目:如何提取目標(biāo)的高精度圖像
匹配問(wèn)題
單目:如何將剛體目標(biāo)點(diǎn)同投影點(diǎn)匹配
雙目:如何將兩個(gè)攝像機(jī)中的目標(biāo)點(diǎn)匹配
標(biāo)定問(wèn)題
單目:如何將相機(jī)內(nèi)參估計(jì)準(zhǔn)確
雙目:如何將相機(jī)內(nèi)參和外參估計(jì)準(zhǔn)確
有趣的系統(tǒng)問(wèn)題
單目:攝像機(jī)簡(jiǎn)單,目標(biāo)復(fù)雜,需解決剛體目標(biāo)點(diǎn)布局問(wèn)題
雙目:攝像機(jī)復(fù)雜,目標(biāo)簡(jiǎn)單,需解決攝像機(jī)基線設(shè)置問(wèn)題
由于存在幾何模型約束優(yōu)勢(shì),單目視覺(jué)會(huì)有更高精度與魯棒性(以下為仿真實(shí)驗(yàn)結(jié)果)
單目視覺(jué)有效視場(chǎng)更大:剛體定位不僅不依賴多個(gè)相機(jī),定位空間還可以通過(guò)多個(gè)相機(jī)進(jìn)行擴(kuò)展而不發(fā)生視場(chǎng)范圍損失。
應(yīng)用場(chǎng)景需要知道3DOF還是6DOF?
單目視覺(jué):要么不能輸出位姿,要么輸出6DOF
雙目視覺(jué):可輸出3DOF、6DOF(滿足一定條件)
應(yīng)用場(chǎng)景對(duì)目標(biāo)物體有無(wú)約束?
單目視覺(jué):必須已知?jiǎng)傮w上4個(gè)及以上的目標(biāo)點(diǎn)的幾何約束
雙目視覺(jué):無(wú)須知道幾何約束,適應(yīng)范圍廣
應(yīng)用場(chǎng)景對(duì)成本、視角要求如何?
單目視覺(jué):成本更低、有效視角更大
雙目視覺(jué):成本更高、有效視角更小
Oculus:?jiǎn)文抗鈱W(xué)攝像頭 + 數(shù)十個(gè)LED主動(dòng)光源
Sony PSVR:雙目光學(xué)攝像頭+ 9個(gè)LED主動(dòng)光源
HTC Vive:激光 +光敏二極管陣列
詳解Oculus 定位方案
定位器:1百萬(wàn)像素,全局曝光攝像頭,52fps.
手柄:環(huán)形紅外定位點(diǎn)帶+IMU
頭盔:面板紅外定位點(diǎn)+頭盔后部三角形上的紅外定位點(diǎn)+IMU
定位方式:手柄和頭盔通過(guò)無(wú)線控制紅外定位點(diǎn)發(fā)光時(shí)間與攝像頭曝光時(shí)間同步;PC使用從圖像獲得的定位點(diǎn)信息與IMU數(shù)據(jù)融合,獲得頭盔和手柄的位置信息。
缺陷:覆蓋范圍比HTC小,達(dá)到roomscale需要更多的定位器;所有定位信息統(tǒng)一計(jì)算,不利于擴(kuò)展到多人或更多設(shè)備。
穩(wěn)定性(Robustness)
定位精度(Precision):靜態(tài)精度(HTC:Translational RMSE: 1.5mm)和動(dòng)態(tài)精度
靜態(tài)抖動(dòng)(Static jitter)
范圍(Range)
成本(Cost)
六軸工業(yè)機(jī)器人測(cè)量,以工業(yè)機(jī)器人輸出值為Ground truth,并以此為準(zhǔn)進(jìn)行比對(duì)。
提高標(biāo)定精度——高幀率連續(xù)空間采樣
提高圖像提取精度——亞亞像素級(jí)的圖像提取精度
多傳感器融合——加入IMU,利用IMU信息提高信噪比
去除干擾點(diǎn)——通過(guò)調(diào)制光線,去除環(huán)境光照影響
新智造:對(duì)于機(jī)器人是移動(dòng)避障來(lái)說(shuō),單目是否比雙目更好?
周琨:從定位精度和魯棒性來(lái)說(shuō),雙目還是比單目好一些,如果從單目的場(chǎng)景來(lái)說(shuō),物體的復(fù)雜性會(huì)更高,而且單目的成本更低,但是對(duì)于機(jī)器人來(lái)說(shuō),成本不是太大問(wèn)題,所以用雙目做機(jī)器人的移動(dòng)避障會(huì)更好些。
新智造:做ADAS的話,單目和雙目的差別在哪里?
周琨:ADAS我研究的不多,我就以我認(rèn)知的來(lái)說(shuō)下。因?yàn)槠?chē)是高速移動(dòng)的物體,所以ADAS的反應(yīng)速度非常快,單目的好處是視角范圍比較大,雙目的局限就在于它的視角會(huì)受限,不過(guò)單目只有一只“眼睛”,3D定位的話尺度問(wèn)題不好解決,雙目的定位范圍要大些,精度可以做的比較高些。所以說(shuō)兩者之間還是有差別的。
新智造:跟蹤定位未來(lái)有什么有前景的研究方向嗎?
周琨:目前主要是兩個(gè)方向,一個(gè)是SLAM,這個(gè)是非常大的研究方向,不過(guò)到現(xiàn)在其實(shí)都不太成熟,到目前為止我見(jiàn)過(guò)最成熟的產(chǎn)品就是微軟的HoloLens,就是有很多攝像頭才能做到魯棒性比較好,閉環(huán)做的比較好,無(wú)論是tango還是高通在VR上的的SLAM,都容易受到環(huán)境因素的影響,包括光照、白墻等等,離實(shí)用還是有比較大的距離,所以說(shuō)這是一個(gè)比較大的研究方向。
第二個(gè)就是在工業(yè)應(yīng)用領(lǐng)域,這個(gè)時(shí)候需要解決的問(wèn)題是精度,也就是說(shuō)不用考慮成本問(wèn)題,研究方向就是如何提高精度,毫米不夠就亞毫米。
新智造:在工業(yè)機(jī)器人中視覺(jué)應(yīng)用廣嗎,有哪些常用的應(yīng)用?
周琨:在工業(yè)機(jī)器人領(lǐng)域,視覺(jué)應(yīng)用會(huì)越來(lái)越廣泛,比如倉(cāng)儲(chǔ)機(jī)器人都是無(wú)人值守的,自己完成搬運(yùn)工作,那么它需要“眼睛”來(lái)識(shí)別環(huán)境,目前比較常見(jiàn)的定位方案是Kiva的標(biāo)記點(diǎn),未來(lái)一定是使用SLAM方案,機(jī)器人可以自行規(guī)劃路線;第二個(gè)場(chǎng)景是制造,雖然說(shuō)機(jī)械臂可以進(jìn)行定位,但是僅適用于大批量重復(fù)性的制造,如果你需要經(jīng)常對(duì)這個(gè)加工的目標(biāo)不停的改變,你就需要輔助定位裝置幫你進(jìn)行重新設(shè)定,這個(gè)時(shí)候它的優(yōu)勢(shì)就出來(lái)了。
新智造:能否通過(guò)其他傳感器獲得攝像頭的位姿,而不是通過(guò)圖像計(jì)算獲得?
周琨:實(shí)際上現(xiàn)在我們常見(jiàn)的應(yīng)用都會(huì)加入多個(gè)傳感器來(lái)獲得攝像頭的位姿,最常見(jiàn)的就是MU,六軸或九軸的傳感器輔助獲得攝像頭的位姿,比如攝像頭出現(xiàn)遮擋,往往需要MU輔助獲得攝像頭的位姿,還有一種假如在室外,通過(guò)GPS獲得經(jīng)緯度,通過(guò)氣壓計(jì)獲得高度信息,其實(shí)這也是多傳感器融合的情況。
新智造:在圖像采集完后對(duì)圖像處理,放大目標(biāo)圖像的灰度值,縮小非目標(biāo)的灰度值中,如何使這個(gè)比例能更協(xié)調(diào),而不只是根據(jù)主觀推斷?
周琨:根據(jù)我們的經(jīng)驗(yàn)比較難做,因?yàn)楹茈y區(qū)分目標(biāo)與非目標(biāo),所以我們常見(jiàn)的做法是盡可能在原始數(shù)據(jù)時(shí)讓目標(biāo)與非目標(biāo)的區(qū)分度更大一些,方法很多,比如說(shuō)可以通過(guò)增大目標(biāo)物體的特征,比如亮度,或者通過(guò)調(diào)制光,把目標(biāo)的特征點(diǎn)與非目標(biāo)的特征點(diǎn)放大,然后再去放大灰度值,就是第一步就把問(wèn)題解決,就很容易區(qū)分目標(biāo)與非目標(biāo)。所以,我傾向于解決問(wèn)題解決前面,而不是放到后面去解決,這樣會(huì)很難的。
新智造:對(duì)于小目標(biāo)如何提取穩(wěn)定特征點(diǎn)?
周琨:最笨的方法是提高相機(jī)的分辨率,很容易把目標(biāo)的像素點(diǎn)提高,獲得的信息就多了,特征點(diǎn)容易穩(wěn)定,帶來(lái)的壞處就是增加成本,如果在不增加成本的情況下獲取穩(wěn)定的特征點(diǎn)呢?其實(shí)我們也做了一些工作,就像PPT里講的做到了亞亞像素的精度,采用的策略是盡可能采集樣本的數(shù)量,帶來(lái)的壞處就是可能數(shù)據(jù)量增加幀數(shù)會(huì)下降,那么如何在樣本數(shù)量增加的同時(shí)保障幀數(shù)不下降,這個(gè)是需要解決的問(wèn)題,但是方法無(wú)外乎就是這些!
新智造:圖像匹配過(guò)程中有什么方法可以提高匹配精度?特征比較少的場(chǎng)景怎么解決?
周琨:圖像匹配過(guò)程中首先要找特征點(diǎn),要想提高匹配精度就要盡可能找出更多的特征點(diǎn)。無(wú)論是雙目還是單目,最難的場(chǎng)景是面對(duì)一面白墻,沒(méi)有任何特征點(diǎn),這個(gè)時(shí)候要想提高匹配精度就很難,這個(gè)也是一個(gè)世界難題,目前就我所知還沒(méi)有特別好的辦法能解決,如果非要去解決,那就人為制造特征點(diǎn),比如打散斑,也就是結(jié)構(gòu)光,這個(gè)時(shí)候能夠提高匹配精度。簡(jiǎn)單來(lái)說(shuō)就是盡量找特征,沒(méi)有特征的話就人為制造特征。
新智造:多傳感器的時(shí)間戳同步問(wèn)題怎么解決?
周琨:如果你用CMOS傳感器它就比較容易實(shí)現(xiàn),因?yàn)楹枚郈MOS傳感器都有時(shí)間戳同步功能,如果CMOS傳感器你還需要用到MU,想要實(shí)現(xiàn)時(shí)間戳同步,就需要確定一個(gè)同步的中心元,像在VR里面,比如我有兩個(gè)攝像機(jī)和手柄,這個(gè)時(shí)候你需要用頭盔做這個(gè)同步的中心,它發(fā)射命令出來(lái),所有攝像頭也好手柄也好向它對(duì)齊,關(guān)鍵是做到這一步,其他方面我覺(jué)得沒(méi)什么。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。