波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

本文作者： qqfly

2017-03-02 09:17

導(dǎo)語：機(jī)器人涵蓋的技術(shù)領(lǐng)域更廣，波士頓動力只是在控制方面做出了逆天成績。現(xiàn)在的機(jī)器人領(lǐng)域還有很多技術(shù)問題沒有解決，所以我們暫時不可能造出科幻電影中的那種通用機(jī)器人

雷鋒網(wǎng)按：本文作者qqfly，上海交通大學(xué)機(jī)器人所博士生，本科畢業(yè)于清華大學(xué)機(jī)械工程系，主要研究方向機(jī)器視覺與運動規(guī)劃，會寫一些好玩的內(nèi)容在微信公眾號：Nao(ID：qRobotics)。本文由雷鋒網(wǎng)獨家首發(fā)。

相信前兩天大家的朋友圈都被 Boston Dynamics 的 Handle 機(jī)器人刷屏了：

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

估計這一幕會讓不少讀者回憶起被『終結(jié)者』所支配的恐懼：

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ 圖片出自科幻電影《終結(jié)者》

然而，作為一個正奮斗在機(jī)器人研究第一線的博士生，我可以負(fù)責(zé)任地告訴你：完全不用擔(dān)心！

與一般的技術(shù)不同，機(jī)器人涵蓋的技術(shù)領(lǐng)域更廣，波士頓動力只是在控制方面做出了逆天成績。現(xiàn)在的機(jī)器人領(lǐng)域還有很多技術(shù)問題沒有解決，所以我們暫時不可能造出科幻電影中的那種通用機(jī)器人。

下面，我就從機(jī)器人研究的幾個方面來說明為什么我們不需要擔(dān)心機(jī)器人取代人類的事情發(fā)生。

（以下非本人熟悉領(lǐng)域的內(nèi)容均為道聽途說，如有誤，歡迎在評論區(qū)指出）

一、硬件、機(jī)構(gòu)：

感謝機(jī)械前輩們幾百年的積累，目前在硬件設(shè)計方面，實際機(jī)器人已經(jīng)很不錯了。下面是幾個比較著名的真實機(jī)器人：

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ （左）波士頓動力的Atlas，（中）日本產(chǎn)綜研的HPR-4C，（右）日本東京大學(xué)的Kenshiro

不論是外貌、自由度配置、驅(qū)動方式，實際的機(jī)器人均有了很不錯的成績。

但是，在能源方面，我們離實用化還有一段很大距離。現(xiàn)在的移動機(jī)器人基本上都需要攜帶一個巨大的電池，續(xù)航能力也不行。以這次的Handle為例，它的電池約為3.7KWh，充滿電能行駛約24km，所以這方面只能寄希望于新一代電池技術(shù)的發(fā)明了。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ 這次 Boston Dynamics 的 Handle 就背著巨大的電池

二、感知：

這個包括兩個部分：

傳感器
信號處理

傳感器：機(jī)器人需要能夠感知周圍環(huán)境和自身狀態(tài)，因此需要安裝不同的傳感器。為了對比，我們看看人體的幾個主要傳感器：聽覺傳感器（耳朵）；視覺傳感器（眼睛）；力矩傳感器；皮膚觸覺傳感器（可以感受到別人觸碰到自己）等。

首先是聽覺傳感器，這個似乎沒有什么特殊的，現(xiàn)在的機(jī)器人都可以配備，普通麥克風(fēng)即可。

其次，是視覺傳感器，現(xiàn)在機(jī)器人的視覺傳感器應(yīng)該比人眼更高級：高精度相機(jī)、紅外相機(jī)、深度相機(jī)、激光雷達(dá)等等。沒辦法，算法不夠，傳感器來湊嘛。

之后，是力矩傳感器，主要用于檢測關(guān)節(jié)力矩。有了精確的關(guān)節(jié)力矩才有可能部署一些控制算法、估計環(huán)境狀態(tài)。當(dāng)然，現(xiàn)在這樣的傳感器也已經(jīng)有了，但就是貴。

最后，也是唯一與人類有較大差距的地方，是皮膚觸覺傳感器：這個基本上還有很多路要走，不信的話看看下圖吧。這是去年RA-Letter上發(fā)表的一篇論文的工作： A Conformable Force/Tactile Skin for Physical Human-Robot Interaction。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

信號處理算法：當(dāng)然，這里的信號處理是廣義的信號處理，包括普通的濾波、傅里葉變換等，也包括物體識別、語音識別等人工智能算法。這個話題就太大了，而且實際機(jī)器人在這方面的研究距離實用的也還比較遠(yuǎn)，我簡單列幾個：

物體識別/語音識別：當(dāng)然，隨著近幾年深度學(xué)習(xí)的發(fā)展，我們在物體識別和語音處理方面的造詣已經(jīng)非常厲害了，但是在實際機(jī)器人上部署的算法也還比較簡單（實際機(jī)器人不僅要識別物體、還要定位物體）。

↑ 這是 Boston Dynamics 之前發(fā)布的 atlas，依舊是采用二維碼進(jìn)行識別

語義理解：前面的語音識別是指根據(jù)聲音識別出文字，這里則是理解識別的文字內(nèi)容。我們現(xiàn)在研究的最高水平，可以參考微軟小冰聊天機(jī)器人，基本還是比較笨的。PS：不要跟我說什么機(jī)器人『嬌嬌』，那是后面有個人在遙控。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

環(huán)境理解/地圖創(chuàng)建：這個簡單地說，就是機(jī)器人對環(huán)境建模的能力，包括地圖創(chuàng)建等?，F(xiàn)在的機(jī)器人在這一塊還是比較弱的，即使配備了激光傳感器等額外的設(shè)備（人僅靠兩只眼睛），也只能在一些特定條件下完成地圖創(chuàng)建，而基于地圖的環(huán)境理解也只能算剛起步不久，如下面這個語義地圖。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ 真正的通用機(jī)器人不僅需要能『看到』環(huán)境，還應(yīng)該能『理解』環(huán)境

當(dāng)然，我覺得之后隨著深度學(xué)習(xí)技術(shù)在地圖創(chuàng)建等領(lǐng)域的應(yīng)用，（考慮到深度學(xué)習(xí)對環(huán)境理解的能力），這個領(lǐng)域估計有可能在十年內(nèi)出現(xiàn)可實用的技術(shù)。

三、規(guī)劃：

規(guī)劃是指根據(jù)任務(wù)和機(jī)器人當(dāng)前狀態(tài)，計算出完成這個任務(wù)的方法。包括且不限于：

任務(wù)規(guī)劃（將大任務(wù)劃分為幾個小的子任務(wù)）
運動規(guī)劃（機(jī)械臂或者足式機(jī)器人各關(guān)節(jié)運動軌跡）
路徑規(guī)劃（其實跟運動規(guī)劃類似，不過傾向于為移動機(jī)器人規(guī)劃形式路徑）

Boston Dynamics 的研究重點一直都是放在控制上，在規(guī)劃等領(lǐng)域并無成果（至少從他們放出的視頻中看不出有這方面研究）。

任務(wù)規(guī)劃：舉個例子，我們想讓機(jī)器人送瓶雪碧，那么機(jī)器人會將這個大任務(wù)分解成幾個子任務(wù)（運動到冰箱前-->打開冰箱-->找到雪碧-->拿出雪碧-->關(guān)上冰箱-->送到人面前），當(dāng)然，可以有更復(fù)雜的任務(wù)。目前，一般是采用MDP或POMDP模型來描述問題，然后用各種規(guī)劃算法求解。總體上說，現(xiàn)在的任務(wù)規(guī)劃強(qiáng)烈依賴于任務(wù)描述方式（人工指定），而且在應(yīng)對大規(guī)模、不完全可觀等復(fù)雜問題時，還沒有可靠的方法。

運動規(guī)劃：舉個例子，機(jī)器人面前有一杯水，讓機(jī)器人將手運動到杯子面前，同時不能碰到桌子等障礙物。這就是運動規(guī)劃，根據(jù)目標(biāo)狀態(tài)點，生成一系列關(guān)節(jié)運動狀態(tài)。是的，現(xiàn)在就連讓機(jī)器人拿起面前的杯子這樣的問題也還沒有完全解決。簡而言之，我們一般是采用基于隨機(jī)采樣的算法進(jìn)行運動規(guī)劃的。隨機(jī)采樣的意思就是：每次規(guī)劃的結(jié)果可能不同，更無法保證規(guī)劃出的路徑是最優(yōu)的。因為自己就做這一塊，所以深知其中的坑。就我個人感覺，要解決運動規(guī)劃問題，需要一個方法論上的創(chuàng)新，拋棄現(xiàn)在這套方法（因為人肯定不是這樣規(guī)劃的啊）。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

路徑規(guī)劃：其實跟運動規(guī)劃是一個問題，但由于路徑規(guī)劃一般是在地面上，問題維度低，可以采用一些奇奇怪怪的規(guī)劃方法（Dijkstra，A*等）。由于問題畢竟簡單，這塊的發(fā)展也比較好，例如各種掃地機(jī)器人就已經(jīng)可以在室內(nèi)環(huán)境中到處跑了。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ 小米的掃地機(jī)器人已能利用二維地圖進(jìn)行路徑規(guī)劃

當(dāng)然，這一塊需要解決的問題可能是：①動態(tài)環(huán)境；②擁擠環(huán)境；③復(fù)雜地形；④地圖不全的環(huán)境等。但是估計未來15年左右可以徹底解決，所以到那時候，無人駕駛車應(yīng)該已經(jīng)可以到處跑了。

四、控制：

控制就是具體執(zhí)行規(guī)劃結(jié)果的過程了，從底層的電機(jī)控制到上層的機(jī)器人全身控制都屬于這個范疇。

機(jī)械臂控制：下圖是大約十年前 Sami Haddadin 做的機(jī)械臂碰撞檢測的demo，基本上已經(jīng)非常厲害了。而且，由于機(jī)械臂控制屬于機(jī)器人自身動力學(xué)問題，所以目前看來，這一領(lǐng)域可以說已經(jīng)是完全攻克了。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

機(jī)械手操作：機(jī)械手的抓取操作問題就沒這么簡單了，因為其中涉及實際物理環(huán)境的建模問題（摩擦力、形狀等），由于模型不精確，所以完全基于模型的方法很難解決這一問題。目前實際應(yīng)用基本還是采用平行夾持器的方式。只有不少研究機(jī)構(gòu)在進(jìn)行靈巧手抓取方面的研究。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

足式機(jī)器人控制：這是更難的地方了，因為機(jī)械臂和機(jī)械手都至少有個相對固定的基座。足式機(jī)器人的base是會隨著接觸而發(fā)生變化的。所以，我一直覺得能做足式機(jī)器人控制的人都是很厲害的人。

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！

↑ Boston Dynamics 的各種足式機(jī)器人

再加上這次的 Handle 機(jī)器人，可以說，Boston Dynamics 以一己之力，將人類的足式機(jī)器人控制水平拉高了一個層次。

四、學(xué)習(xí)：

這個屬于另外一大塊內(nèi)容，由于可以應(yīng)用到其他領(lǐng)域（控制、規(guī)劃、感知等），所以有時候不能單獨列為一類。

機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類。目前，深度學(xué)習(xí)主要在監(jiān)督學(xué)習(xí)方面得到了很好的應(yīng)用；此外，對于強(qiáng)化學(xué)習(xí)，也逐漸以Deep Q Learning等形式出現(xiàn)；但無監(jiān)督學(xué)習(xí)才是機(jī)器學(xué)習(xí)中的最高挑戰(zhàn)。

我們?nèi)祟惸軌蚺e一反三（超強(qiáng)的監(jiān)督學(xué)習(xí)能力）；能夠熟能生巧（超強(qiáng)的強(qiáng)化學(xué)習(xí)能力）；能夠發(fā)明新事物（超強(qiáng)的無監(jiān)督學(xué)習(xí)能力）。

當(dāng)然，機(jī)器學(xué)習(xí)的坑還有很多。因為，正是不斷學(xué)習(xí)讓我們能夠面對不斷變化的環(huán)境。這方面可挖的東西太多了。

五、交互：

這個就是機(jī)器人與人交互的問題。包括識別人、與人交流、與人協(xié)作。在這個角度看，我們現(xiàn)在的機(jī)器人還很不盡如人意：

識別人：雖然人體識別在機(jī)器視覺中已經(jīng)有了很多成果，但是在人機(jī)交互過程中，機(jī)器人不僅要識別到人的存在，還應(yīng)該要能判斷人的動作、意圖，并作出相應(yīng)反饋。

與人交流：這方面，我們現(xiàn)在的聊天機(jī)器人雖然也已經(jīng)做得不錯了，但離通過『圖靈測試』還很遠(yuǎn)，隨便一個普通人都能輕易判斷出對面是一個機(jī)器人。

與人協(xié)作：這個就不說了，我們真實的機(jī)器人還只能這樣：

波士頓動力每出一款機(jī)器人你就說它要統(tǒng)治人類？還早著呢！