0
本文作者: 奕欣 | 2018-05-22 15:19 | 專題:ICRA 2017:創(chuàng)新、創(chuàng)業(yè)和解決方法 |
雷鋒網(wǎng) AI 科技評(píng)論按:ICRA 2018 正于近期在澳大利亞布里斯班舉行。ICRA 全稱為「IEEE International Conference on Robotics and Automation」(機(jī)器人與自動(dòng)化會(huì)議),是機(jī)器人技術(shù)領(lǐng)域最有影響力的國(guó)際學(xué)術(shù)會(huì)議之一。雷鋒網(wǎng) AI 科技評(píng)論在去年曾赴新加坡參加 ICRA 2017,并帶回融合產(chǎn)業(yè)與學(xué)術(shù)的專題豐富報(bào)道。詳情可了解去年的 ICRA 2017 大會(huì)專題內(nèi)容:http://www.ozgbdpf.cn/special/289/201705/592e37165105d.html
根據(jù)學(xué)術(shù)會(huì)議慣例,Workshops & Tutorials 將在大會(huì)正會(huì)前后召開(kāi)。作為能夠給予與會(huì)者宏觀啟迪及學(xué)術(shù)縱覽體驗(yàn)的一項(xiàng)重要議程,持續(xù)一整天的 Workshops & Tutorials 自然早早吸引了不少學(xué)者前來(lái)注冊(cè)參會(huì)。
今年 ICRA 2018 共有 1 個(gè)全天 Tutorials 及 22 個(gè)全天 Workshops;此外還有 3 個(gè)半天 Tutorials 及 9 個(gè)全天 Workshops。雷鋒網(wǎng) AI 科技評(píng)論從議程進(jìn)行不完全統(tǒng)計(jì),機(jī)器感知與控制仍然是 ICRA 2018 的關(guān)注重點(diǎn)。所有的 Workshops & Tutorials 中有近一半是圍繞兩個(gè)議程的討論,而基于現(xiàn)實(shí)問(wèn)題的應(yīng)用探討(包括道德倫理)也有 5 個(gè)相關(guān)議題。此外,仿生機(jī)器人、人機(jī)交互、自主系統(tǒng)構(gòu)建等話題也是比較熱門(mén)的關(guān)注方向。
雷鋒網(wǎng) AI 科技評(píng)論選取了其中幾個(gè)研討內(nèi)容做簡(jiǎn)單分享,更詳細(xì)的研討內(nèi)容可參考大會(huì)官網(wǎng)中關(guān)于 Workshops & Tutorials 的介紹:http://icra2018.org/accepted-workshops-tutorials/
由谷歌大腦兩位女研究員 Anelia Angelova 和 Jana Kosecka 組織的 Tutorial「Deep Learning for Robotics Perception」從當(dāng)前非常流行的一些深度學(xué)習(xí)網(wǎng)絡(luò)入手,分享和探討了機(jī)器如何借助機(jī)器學(xué)習(xí)更好感知周?chē)氖澜?,并根?jù)實(shí)際任務(wù)做出更加精準(zhǔn)的反應(yīng)。
值得一提的是,現(xiàn)場(chǎng)還配備了手語(yǔ)翻譯人員,可以說(shuō)是非常人性化了。
目前機(jī)器人需要處理多種感應(yīng)模式,包括「是什么?在哪里?怎么樣?」等問(wèn)題,這就涉及到非常多的問(wèn)題,比如三維重建,視覺(jué)測(cè)距、對(duì)象分類(lèi)、人類(lèi)/物體的姿態(tài)估計(jì)、語(yǔ)義分割、匹配,識(shí)別和本地化等。也就是說(shuō),機(jī)器人需要在這個(gè)過(guò)程中學(xué)會(huì)如何主動(dòng)感知和控制。因此,深度學(xué)習(xí)的流行也為探索這一問(wèn)題提供了一種值得借鑒和學(xué)習(xí)的方法。
最開(kāi)始,機(jī)器人研究者采用神經(jīng)網(wǎng)絡(luò)的初衷是為了進(jìn)行分類(lèi)特征提取,但目前隨著深度學(xué)習(xí)的廣泛應(yīng)用,數(shù)據(jù)驅(qū)動(dòng)模式能夠構(gòu)建強(qiáng)大的端到端訓(xùn)練方法,如今已經(jīng)可以拓展到更多的感知模式和視頻檢測(cè)上,并進(jìn)一步構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)工程在無(wú)監(jiān)督或自我監(jiān)督的訓(xùn)練方式中。
在 Tutorial 里,Angelova 先介紹了從視覺(jué)領(lǐng)域角度上,機(jī)器人在感知領(lǐng)域是如何做探索的。從視覺(jué)角度來(lái)看,分類(lèi)與檢測(cè)是目前機(jī)器人學(xué)最主要的兩個(gè)相關(guān)問(wèn)題。
從分類(lèi)入手,以 AlexNet、Inception、ResNet、DenseNet 等為代表的深度神經(jīng)網(wǎng)絡(luò),在機(jī)器人領(lǐng)域又可分為物體分類(lèi)及場(chǎng)景識(shí)別兩種任務(wù);
從檢測(cè)入手,R-CNN、Fast R-CNN、Faster R-CNN 為代表的深度神經(jīng)網(wǎng)絡(luò)走的是「Two-stage approaches」,即 Bounding box + classification 的方法;而以 YOLO、SSD、Retinanet 為代表的網(wǎng)絡(luò),采用的是「Single-stage approaches」,即 Direct「regression」to locations and classification 的方法。
基于深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性及可行性,我們需要肯定深度神經(jīng)網(wǎng)絡(luò)對(duì)于機(jī)器人在感知上的探索。目前已知的一些網(wǎng)絡(luò)體系架構(gòu)也在快速發(fā)展,通過(guò)引入架構(gòu),標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)算法能夠比較順暢地應(yīng)用于機(jī)器人技術(shù)上。
隨后,基于姿態(tài)估計(jì)和匹配、場(chǎng)景分割和密集預(yù)測(cè)、抓取及從視頻中學(xué)習(xí)等四個(gè)方面,兩位科學(xué)家展示了一些具體的研究成果及應(yīng)用場(chǎng)景。
在三維點(diǎn)云及即時(shí)檢測(cè)、多任務(wù)檢測(cè)上,深度學(xué)習(xí)對(duì)機(jī)器人的研究也有著不少先進(jìn)成果。Binh-Son Hua1、Duc Thanh Nguyen、Lap-Fai Yu、Sai-Kit Yeung1 及 Daniela Rus 組織了一個(gè)名為「Creating Annotated Scene Meshes for Training and Testing Robot Systems」的 Workshop,針對(duì) 3D 場(chǎng)景重建和標(biāo)注的相關(guān)進(jìn)展進(jìn)行了介紹和探討。與較為容易獲取且數(shù)據(jù)量龐大的 2D 圖像數(shù)據(jù)集相比,從現(xiàn)實(shí)世界中捕獲,重建和注釋 3D 場(chǎng)景并非一件容易的事情。
受限于點(diǎn)云本身的無(wú)序性,不同設(shè)備在不同位置掃描物體所獲得的數(shù)據(jù)不盡相同,數(shù)據(jù)難以通過(guò)端到端方法來(lái)處理;點(diǎn)云本身也面臨數(shù)據(jù)缺失的問(wèn)題,比如被掃描模型往往會(huì)被遮擋。
針對(duì)無(wú)序點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)方法研究,目前進(jìn)展還相對(duì)緩慢。在 CVPR 2017 上,斯坦福大學(xué)提出的 PointNet 是第一種直接處理無(wú)序點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。團(tuán)隊(duì)通過(guò)在每個(gè)點(diǎn)訓(xùn)練一個(gè) MLP,把每個(gè)點(diǎn)投到一個(gè) 1024 維空間上,并采用了 Max Pooling 層做為主要的對(duì)稱函數(shù),比較好地解決了順序問(wèn)題。隨后斯坦福大學(xué)在 NIPS 2017 上的 Pointnet++,對(duì) PointNet 做出了更多改進(jìn)。
在本次 Workshop 中,學(xué)者們還探討了數(shù)據(jù)捕獲,實(shí)時(shí)和離線重建,自動(dòng)和交互式注釋,質(zhì)量控制和基準(zhǔn)測(cè)量指標(biāo)等目前的熱點(diǎn)問(wèn)題。
組織者之一的 Daniela Rus 是 MIT 的 CSAIL 主任,在 2016 年的 CCF-GAIR 大會(huì)上,Daniela Rus 教授曾經(jīng)作為大會(huì)嘉賓受邀做主題演講。她曾表示,雖然深度學(xué)習(xí)已經(jīng)取得了非常顯著的成果,但研究者還面臨深度學(xué)習(xí)的三個(gè)挑戰(zhàn)。首先是深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù);其次是深度學(xué)習(xí)并非永遠(yuǎn)不會(huì)犯錯(cuò);再者是它的可解釋性。
不論是機(jī)器感知,或是以三維點(diǎn)云為代表的技術(shù),在利用深度學(xué)習(xí)探索的過(guò)程中,必然還是會(huì)遇到同樣的問(wèn)題。而在深度學(xué)習(xí)與機(jī)器人學(xué)的結(jié)合中,人與機(jī)器人的相互協(xié)作與共同進(jìn)步,也將成為每一年 ICRA 孜孜不倦的目標(biāo)?!溉祟?lèi)和機(jī)器人各有擅長(zhǎng)的事情,我相信未來(lái)會(huì)是一個(gè)人與機(jī)器共同協(xié)作,互補(bǔ)對(duì)方短板的社會(huì),我們也需要努力去創(chuàng)造這種社會(huì)。」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章