丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給金紅
發(fā)送

0

PerceptIn 張哲:SLAM剛剛開始的未來之風(fēng)起獅城|ICRA 2017

導(dǎo)語:本文為PerceptIn聯(lián)合創(chuàng)始人兼CEO張哲參加今年5月29日至6月3在新加坡舉行的ICRA大會(huì)關(guān)于各個(gè)種類的SLAM及相關(guān)研究應(yīng)用的看法和思考。

雷鋒網(wǎng)按:本文為PerceptIn聯(lián)合創(chuàng)始人兼CEO張哲參加今年5月29日至6月3在新加坡舉行的ICRA大會(huì)的感想,主要分享作者關(guān)于各個(gè)種類的SLAM及相關(guān)研究應(yīng)用的看法和思考。

張哲,紐約州立大學(xué)機(jī)器人方向博士,清華大學(xué)自動(dòng)化系本科。研發(fā)方向:地圖重建、位置跟蹤、機(jī)器人自主避障導(dǎo)航、設(shè)備端和云端的算法優(yōu)化。2009-2014年在微軟,2014-2016年初在Magic Leap工作。 

PerceptIn 張哲:SLAM剛剛開始的未來之風(fēng)起獅城|ICRA 2017

右一為PerceptIn CEO張哲,正在為參會(huì)人員演示給開發(fā)者用的視覺模組

2017年的ICRA大會(huì) (International Conference on Robotics and Automation) 6月初在新加坡剛剛結(jié)束。ICRA作為國際機(jī)器人頂級學(xué)術(shù)會(huì)議之一,從1984年開始到今年已經(jīng)是第34個(gè)年頭?,F(xiàn)在有意愿的申辦方要提前3年申請,即使被IEEE接受申請成為主辦方,都需要提前兩年每年學(xué)習(xí)當(dāng)屆主辦方的經(jīng)驗(yàn)教訓(xùn)。在新加坡會(huì)議現(xiàn)場,專門有2018澳大利亞布里斯班和2019加拿大蒙特利爾的宣傳展臺。這次的ICRA是機(jī)器人學(xué)術(shù)屆和工業(yè)界的一次盛會(huì),不但來自各大洲的學(xué)校和研究機(jī)構(gòu)的教授、學(xué)生、研究員們來演講或?qū)W習(xí)最新的成果,工業(yè)界機(jī)器人和“泛機(jī)器人”相關(guān)的公司也紛紛前來參展和學(xué)習(xí)。機(jī)器人研究的方向和種類繁多,但計(jì)算機(jī)視覺,SLAM (同步定位和建圖),建圖,空中機(jī)器人 (泛指各類無人機(jī)),距離感知,RGB-D感知這幾個(gè)話題的track加在一起已經(jīng)占到所有track的一半左右。筆者根據(jù)這次的大會(huì)所見所聞和自己在機(jī)器人領(lǐng)域十多年 (尤其是最近一年多在PerceptIn全面推進(jìn)軟硬件一體化智能感知方案的產(chǎn)品化落地) 的切身感受,在這里和大家分享各個(gè)種類的SLAM及相關(guān)研究應(yīng)用的看法和思考。

 本文純屬個(gè)人觀點(diǎn),僅供大家參考。SLAM技術(shù)基本知識的詳細(xì)介紹請參見筆者將近一年前的博客文章。

稀疏SLAM

稀疏SLAM指的是前端用從圖像提取來的較稀疏的特征點(diǎn)而不是從深度攝像頭來的稠密點(diǎn)云,或不提取特征點(diǎn)直接試圖計(jì)算深度的直接法 (后面有專門的討論)。稀疏SLAM在理論和實(shí)現(xiàn)上已經(jīng)趨于成熟,借助六軸陀螺儀imu (inertial measurement unit) 的視覺慣導(dǎo)融合的緊耦合方法已經(jīng)成為標(biāo)配。在幾何方面,稀疏SLAM從前端到后端已經(jīng)做的非常細(xì)致,以致于大量算法微調(diào)的細(xì)節(jié)出現(xiàn)在論文里面,在這里舉一些比較典型的例子:

  • 特征點(diǎn)從哪里來的問題分為了KLT (Kanade-Lucas-Tomasi) pipeline和FREAK (Fast Retina Keypoint) pipeline: 前者的原理是基于亮度恒定、時(shí)間連續(xù)、空間一致來對像素做跟蹤匹配,這種方法幾何信息算的好、跟蹤時(shí)間長,但是會(huì)飄,后者相對不飄但跟蹤時(shí)間短,其原因是FREAK的DoG (Difference of Gaussian) 極值在相鄰幀重復(fù)性差。

  • 特征點(diǎn)被如何用的問題分為了SLAM特征點(diǎn)和MSCKF特征點(diǎn):SLAM特征點(diǎn)被加入狀態(tài)向量并被更新,MSCKF特征點(diǎn)在測量的相關(guān)公式中被忽視 (marginalize) 掉來生成位姿之間的約束。這樣做的目的在于既保持了準(zhǔn)確性又照顧到了處理時(shí)間不會(huì)太長。

  • 諸如此類還有很多如何用imu來選好的特征點(diǎn),如何在后端優(yōu)化中融合imu帶來的約束,sliding window有多長,哪部分用NEON/GPU實(shí)現(xiàn)了,標(biāo)定里面哪個(gè)參數(shù)最重要,預(yù)積分的處理在還算合理的情況怎么能更合理等等。

然而即使稀疏SLAM算法日趨成熟,但對硬件的依賴度反而變大,深層次的原因是因?yàn)樗惴〒傅姆浅7浅<?xì),對硬件的要求也都是非常細(xì)致并明確的,比如大家偏好大視角鏡頭但大視角的邊界畸變最嚴(yán)重,到底好不好用、怎么用、用什么模型;比如相機(jī)和imu的同步最好是確定的硬件同步,不但希望能保證順序和微秒級的精確,還希望能在每幀圖的那一剎那正好有一幀imu這樣預(yù)積分才最準(zhǔn)確;比如需要看的遠(yuǎn)又能拿到準(zhǔn)確的尺度,那必須基線拉大,那么拉到多大呢,著名的做VINS (Visual Inertial Navigation System) 的明尼蘇達(dá)大學(xué)自己搭的硬件是26厘米基線的雙目配上165度的大視角鏡頭,堪稱是跟蹤神器;再比如賓州大學(xué)這次在ICRA發(fā)布的供SLAM跑分的數(shù)據(jù)集,采集數(shù)據(jù)用的是自己搭的一套硬件,由兩個(gè)第二代Tango平板,三個(gè)GoPro相機(jī),和一個(gè)VI Sensor (做這個(gè)的公司早已被GoPro收購),再加上AprilTags的marker跟蹤,融合后的位姿信息作為真值。PerceptIn的第一代雙目慣導(dǎo)模組在大會(huì)的展臺區(qū)引來大家爭相詢問并購買,可見SLAM和各類基于計(jì)算機(jī)視覺的研究人員對一個(gè)好用的硬件需求非常大。

稠密SLAM

稠密SLAM重建目前也相對比較成熟,從最開始的KinectFusion (TSDF數(shù)據(jù)結(jié)構(gòu) + ICP) 到后來的InfiniTAM (用哈希表來索引很稀疏的voxel), ElasticFusion (用surfel點(diǎn)表示模型并用非剛性的圖結(jié)構(gòu)), DynamicFusion (引入了體翹曲場這樣深度數(shù)據(jù)通過體翹曲場的變換后才能融入到TSDF數(shù)據(jù)結(jié)構(gòu)中去來完成有非剛性物體的動(dòng)態(tài)場景重建) 都做的比較成熟。工業(yè)界實(shí)現(xiàn)非常好的是微軟的HoloLens,在臺積電的24核DSP上把mesh simplification這些操作都搞了上去。

這屆ICRA上稠密SLAM重建這部分,很明顯看出大家仍然很喜歡基本的幾何圖元,比如平面,比如法向量,這里不一一贅述。著重說一下讓筆者感到驚喜的是很基礎(chǔ)但非常重要的:給地圖的數(shù)據(jù)結(jié)構(gòu)仍然有很大程度的創(chuàng)新,比如這篇“SkiMap: An Efficient Mapping Framework for Robot Navigation”,這個(gè)東西的本質(zhì)是“Tree of SkipLists” (筆者不知道該翻譯為跳表樹還是樹跳表),3D空間XYZ各一層,前兩層的每個(gè)節(jié)點(diǎn)其實(shí)就是一個(gè)指針指向下一層,最后那層才是voxel有真正的數(shù)據(jù),而各層有個(gè)隱藏層是跳表,保證了查找插入刪除都是O(logn)。這個(gè)數(shù)據(jù)結(jié)構(gòu)對機(jī)器人非常實(shí)用,尤其是不同高度下的快速深度檢索和障礙物檢測。

基于事件相機(jī)的SLAM

一句話來解釋event camera (暫且直譯為事件相機(jī)) 的原理就是事件相機(jī)的每一個(gè)像素都在獨(dú)立異步的感知接收的光強(qiáng)變化。對每個(gè)像素來說,“事件”的本質(zhì)就是變亮或變暗,有“事件”發(fā)生才有輸出,所以很自然的沒有了“幀率”的概念,功耗和帶寬理論上也會(huì)很低。另一方面,事件相機(jī)對亮度變化非常敏感,動(dòng)態(tài)范圍能到120 dB,甚至在對快速旋轉(zhuǎn)等劇烈運(yùn)動(dòng)的響應(yīng)比imu還要好。這種新的傳感器自然被很多做位置跟蹤的研究者們所青睞,ICRA上尤其是歐洲的幾個(gè)有名的實(shí)驗(yàn)室都在玩。然而從工業(yè)界相對實(shí)際的角度看,這個(gè)相機(jī)有以下三個(gè)致命點(diǎn)如果不解決那么就無法大量普及: 

  • 1) 貴,現(xiàn)在的價(jià)格是幾千美元,現(xiàn)場有人說量產(chǎn)了就能一美元,這顯然沒法讓人信服,CMOS已經(jīng)應(yīng)用這么多年現(xiàn)在一個(gè)global shutter的CMOS也不可能只要一美元,雖然筆者又專門到做事件相機(jī)的公司展臺去詳細(xì)聊了價(jià)格的問題,得到的答案是未來兩三年內(nèi)隨著量產(chǎn)是有可能降到$200-$300的; 

  • 2) 大,因?yàn)槊總€(gè)像素的電路十分復(fù)雜,而每個(gè)像素本身的物理大小是20微米左右的,相比于很多CMOS,6μm x 6μm都算很大的了,那么就直接導(dǎo)致事件相機(jī)的物理尺寸很大但像素其實(shí)很低 (比如128 x 128); 

  • 3) 少,“少”是說信息維度信息量不夠,事件相機(jī)的事件一般都在明暗分界線處,所以現(xiàn)場有人就管它叫“edge detector”,但在計(jì)算機(jī)視覺整體尤其是結(jié)合深度學(xué)習(xí)后都在往上層走的大趨勢下,只有一個(gè)事件相機(jī)是遠(yuǎn)遠(yuǎn)不夠的,這也是為什么事件相機(jī)的廠家也在整合imu和傳統(tǒng)相機(jī)做在一起,但這樣的話成本更是居高不下。

基于直接法的SLAM

一句話來解釋direct method (直接法) 的原理就是在默認(rèn)環(huán)境亮度不變 (brightness consistency assumption) 的前提下,對每個(gè)像素 (DTAM) 或感興趣的像素 (Semi-Dense LSD SLAM) 的深度通過inverse depth的表達(dá)進(jìn)行提取,并不斷優(yōu)化來建立相對稠密的地圖,同時(shí)希望實(shí)現(xiàn)相對更穩(wěn)定的位置跟蹤。相比于研究了20多年的基于特征點(diǎn)的方法,直接法比較新,只有五六年的歷史,下面是ICRA上和直接法有關(guān)的幾篇論文,主要都是通過融合額外的傳感器或方法進(jìn)行對原有直接法的改進(jìn)。

  • “Direct Visual-Inertial Navigation with Analytical Preintegration”: 主要講的是連續(xù)時(shí)間意義下的imu kinematic model的閉式解。

  • “Direct Visual Odometry in Low Light Using Binary Descriptors”: 不再基于亮度不變的假設(shè),改用基于二進(jìn)制特征描述不變的假設(shè)。 

  • “Direct Monocular Odometry Using Points and Lines”: 用edge把基于特征點(diǎn)和基于直接法的兩種方法結(jié)合起來。

  • “Illumination Change Robustness in Direct Visual SLAM”: Census效果最好。

那么直接法到底能否大范圍普及呢?筆者從工業(yè)界“比較俗比較短視比較勢利”的角度來看,覺得直接法兩邊不靠非常尷尬: 1) 直接法沒有證明在位置跟蹤方面比前端用傳統(tǒng)特征點(diǎn)的基于濾波 (MSCKF, SR-ISWF) 或者基于優(yōu)化 (OKVIS, VINS-Mono) 要有優(yōu)勢,如果環(huán)境惡劣是由于光線變化,那么直接法的基于環(huán)境亮度不變的假設(shè)也不成立,如果環(huán)境惡劣是由于超級劇烈的高速運(yùn)動(dòng),那么直接法也是得通過imu融合才能爭取不跟丟; 2) 直接法的直接好處是地圖相對稠密,但相對稠密是針對于基于特征點(diǎn)的稀疏而言,如果這個(gè)地圖是為了做跟蹤,那么基于特征點(diǎn)的方法已經(jīng)證明可以做得很好了,如果是為了3D重建,那么大可以用一個(gè)深度相機(jī),如果是被動(dòng)雙目的話,被動(dòng)雙目還原出稠密深度本身也在大幅度進(jìn)步。所以筆者認(rèn)為直接法夠新穎,但新穎的不夠強(qiáng)大,或者說不夠強(qiáng)大到有落地價(jià)值。

這次ICRA大會(huì)的SLAM還有一個(gè)非常大的方向是語義SLAM還有深度學(xué)習(xí),試圖從各個(gè)方面幫助SLAM的幾何部分。這個(gè)話題非常有趣也非常大,限于篇幅不多贅述。大方向上學(xué)術(shù)界SLAM的相對成熟,必然伴隨著工業(yè)界很大量級的產(chǎn)品中集成達(dá)到產(chǎn)品化程度的SLAM方案,那么在工業(yè)界SLAM未來走勢會(huì)是什么樣子呢?筆者有以下幾點(diǎn)看法:

  •  1) SLAM太重要會(huì)導(dǎo)致大廠都想擁有,但有能力搞高質(zhì)量全套的就那么幾家,這幾家也能搞到業(yè)界最好,比如微軟HoloLens,谷歌Tango,蘋果ARKit,注意即使實(shí)力強(qiáng)大到這幾家也都緊密配合自己的硬件,也沒法給出一個(gè)普適方案;

  • 2) 會(huì)有很多出貨量極大但優(yōu)勢不在算法端或者說不需要在算法和軟件的公司,比如各大掃地機(jī)廠商,這些廠商只需要在創(chuàng)業(yè)公司里面挑一家方案成熟度最高、資金儲(chǔ)備最充足、人才儲(chǔ)備最完備、最容易合作的方案廠商合作就好;

  • 3) 留給國內(nèi)外的SLAM初創(chuàng)公司做單點(diǎn)技術(shù)的空間不大,這個(gè)現(xiàn)象不只出現(xiàn)在SLAM上,也會(huì)出現(xiàn)在任何一個(gè)技術(shù)的產(chǎn)品化道路上,然而在SLAM和“泛感知”這一塊相對比較特殊的是需要SLAM和智能感知的產(chǎn)品和方向太多,而感知對硬件的依賴又非常大,整體市場尤其每個(gè)細(xì)分領(lǐng)域遠(yuǎn)遠(yuǎn)沒有達(dá)到飽和的階段。

ICRA 2017,風(fēng)起獅城,SLAM的未來已經(jīng)開始。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:

編輯

雷鋒網(wǎng)編輯,專注新技術(shù)和商業(yè)故事報(bào)道,創(chuàng)業(yè)者或行業(yè)交流可加微信號Duras0820
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說