有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

本文作者： qqfly

編輯：谷磊

2017-04-03 11:24

導(dǎo)語(yǔ)：現(xiàn)在深度學(xué)習(xí)這么火，大家都會(huì)想著看看能不能用到自己的研究領(lǐng)域里。所以，將深度學(xué)習(xí)融入到機(jī)器人領(lǐng)域的嘗試也是有的。我就自己了解的兩個(gè)方面（視覺(jué)與規(guī)劃）來(lái)介紹一下。

雷鋒網(wǎng)按：本文作者qqfly，上海交通大學(xué)機(jī)器人所博士生，本科畢業(yè)于清華大學(xué)機(jī)械工程系，主要研究方向機(jī)器視覺(jué)與運(yùn)動(dòng)規(guī)劃，會(huì)寫(xiě)一些好玩的內(nèi)容在微信公眾號(hào)：Nao(ID：qRobotics)。本文整理自知乎回答：有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

現(xiàn)在深度學(xué)習(xí)這么火，大家都會(huì)想著看看能不能用到自己的研究領(lǐng)域里。所以，將深度學(xué)習(xí)融入到機(jī)器人領(lǐng)域的嘗試也是有的。我就自己了解的兩個(gè)方面（視覺(jué)與規(guī)劃）來(lái)簡(jiǎn)單介紹一下吧。

物體識(shí)別

這個(gè)其實(shí)是最容易想到的方向了，比較DL就是因?yàn)閳D像識(shí)別上的成果而開(kāi)始火起來(lái)的。

這里可以直接把原來(lái) CNN 的那幾套網(wǎng)絡(luò)搬過(guò)來(lái)用，具體工作就不說(shuō)了，我之前在另一個(gè)回答amazon picking challenge（APC）2016中識(shí)別和運(yùn)動(dòng)規(guī)劃的主流算法是什么？下有提到，2016年的『亞馬遜抓取大賽』中，很多隊(duì)伍都采用了DL作為物體識(shí)別算法。

物體定位

當(dāng)然，機(jī)器視覺(jué)跟計(jì)算機(jī)視覺(jué)有點(diǎn)區(qū)別。機(jī)器人領(lǐng)域的視覺(jué)除了物體識(shí)別還包括物體定位（為了要操作物體，需要知道物體的位姿）。

2016年APC中，雖然很多人采用DL進(jìn)行物體識(shí)別，但在物體定位方面都還是使用比較簡(jiǎn)單、或者傳統(tǒng)的算法。似乎并未廣泛采用DL。

當(dāng)然，這一塊也不是沒(méi)人在做。我們實(shí)驗(yàn)室的張博士也是在做這方面嘗試。我這里簡(jiǎn)單介紹一下張博士之前調(diào)研的一偏論文的工作。

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

這個(gè)工作大概是這樣的：對(duì)于一個(gè)物體，取很多小塊RGB-D數(shù)據(jù)；每小塊有一個(gè)坐標(biāo)（相對(duì)于物體坐標(biāo)系）；然后，首先用一個(gè)自編碼器對(duì)數(shù)據(jù)進(jìn)行降維；之后，用將降維后的特征用于訓(xùn)練Hough Forest。

這樣，在實(shí)際物體檢測(cè)的時(shí)候，我就可以通過(guò)在物體表面采樣RGB-D數(shù)據(jù)，之后，估計(jì)出一個(gè)位姿。

抓取姿態(tài)生成

這個(gè)之前在另一個(gè)問(wèn)題（傳統(tǒng)的RCNN可以大致框出定位物體在圖片中的位置，但是如何將這個(gè)圖片中的位置轉(zhuǎn)化為物理世界的位置？）下有介紹過(guò)，放兩個(gè)圖

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ Using Geometry to Detect Grasp Poses in 3DPoint Clouds

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ High precision grasp pose detection in dense clutter

控制/規(guī)劃

這一塊是我現(xiàn)在感興趣的地方。

簡(jiǎn)單地說(shuō)，我們知道強(qiáng)化學(xué)習(xí)可以用來(lái)做移動(dòng)機(jī)器人的路徑規(guī)劃。所以，理論上將，結(jié)合DL的Function Approximation 與 Policy Gradient，是有可能用來(lái)做控制或規(guī)劃的。當(dāng)然，現(xiàn)在的幾個(gè)工作離取代原來(lái)的傳統(tǒng)方法還有很長(zhǎng)的距離要走，但是也是很有趣的嘗試。

放幾個(gè)工作，具體可以看他們的paper。

1.Learning monocular reactive uav control in cluttered natural environments

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ CMU 無(wú)人機(jī)穿越森林

2. From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ ETH 室內(nèi)導(dǎo)航

3.Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ DeepMind 物體抓取

4. End-to-end training of deep visuomotor policies

有沒(méi)有將深度學(xué)習(xí)融入機(jī)器人領(lǐng)域的嘗試？有哪些難點(diǎn)？

↑ Berkeley 擰瓶蓋等任務(wù)

有哪些難點(diǎn)

1、在視覺(jué)領(lǐng)域，除了物體識(shí)別、還需要進(jìn)行物體定位。這是一個(gè) regression 問(wèn)題，但是目前來(lái)看， regression 的精度還沒(méi)辦法直接用于物體操作，（可能是數(shù)據(jù)量還不夠，或者說(shuō)現(xiàn)在還沒(méi)找到合適的網(wǎng)絡(luò)結(jié)構(gòu)），所以一般還需要采用ICP等算法進(jìn)行最后一步匹配迭代。

2、機(jī)器人規(guī)劃/控制等方面，可能存在的問(wèn)題就比較多了。我之前在雷鋒網(wǎng)『硬創(chuàng)公開(kāi)課』直播（運(yùn)動(dòng)規(guī)劃 | 視頻篇）的時(shí)候有提到我碰到的一些問(wèn)題，這里簡(jiǎn)單列在下面：

可觀性問(wèn)題

簡(jiǎn)單地說(shuō)，我們這些不做DL理論的人，都是先默認(rèn)DL的收斂、泛化能力是足夠的。我們應(yīng)該關(guān)心的是，要給DL喂什么數(shù)據(jù)。也就是說(shuō)，在DL能力足夠強(qiáng)的前提下，哪些數(shù)據(jù)才能讓我需要解決的問(wèn)題變得可觀。

當(dāng)然，目前的幾個(gè)工作都沒(méi)有提到這點(diǎn)，Berkeley的那個(gè)論文里是直接做了一個(gè)強(qiáng)假設(shè)：在給定數(shù)據(jù)（當(dāng)前圖像、機(jī)器人關(guān)節(jié)狀態(tài)）下，狀態(tài)是可觀的。

實(shí)際機(jī)器人操作中，系統(tǒng)狀態(tài)可能跟環(huán)境有關(guān)（例如物體性質(zhì)），所以這一個(gè)問(wèn)題應(yīng)該是未來(lái)DL用在機(jī)器人上所不能繞過(guò)的一個(gè)問(wèn)題。

數(shù)據(jù)量

一方面，我們不了解需要多少數(shù)據(jù)才能讓問(wèn)題收斂。另一方面，實(shí)際機(jī)器人進(jìn)行一次操作需要耗費(fèi)時(shí)間、可能會(huì)造成損害、會(huì)破壞實(shí)驗(yàn)條件（需要人工恢復(fù)）等，采集數(shù)據(jù)會(huì)比圖像識(shí)別、語(yǔ)音識(shí)別難度大很多。

是否可解決