0
雷鋒網(wǎng)按:本文來自英特爾中國研究院。
五月末的人機大戰(zhàn)讓世人大開眼界,頂級圍棋手柯潔落下的眼淚、微博的嘆息,都是對AlphaGo這顆強勁“大腦”的贊嘆。然而,讓人工智能走出娛樂和游戲,真正進(jìn)入人類的實際生活,通過實現(xiàn)機器人的自主運動來為人類提供服務(wù)同樣是我們長久以來的夢想。
但是,機器人的自主運動該如何實現(xiàn)?隨著深度學(xué)習(xí)部分解決了機器人的視聽識別問題,增強學(xué)習(xí)技術(shù)有望成為突破機器人自主運動難題的一把利劍。
增強學(xué)習(xí)實際上是“試錯法”這一在生活中廣泛使用的技巧的理論抽象,即為了達(dá)到理想目標(biāo)而不斷試驗,并在實際嘗試中修正方案,從而逐步提高成功率。
比如在圍棋程序中,盤面情況稱為“狀態(tài)”,落子選擇稱為“行為”;根據(jù)狀態(tài)選擇行為的方法就稱為“策略”,根據(jù)當(dāng)前狀態(tài)和行為對輸贏的預(yù)測就稱為“價值”,而當(dāng)前一步的輸贏結(jié)果稱為“回報”。增強學(xué)習(xí)就是修正策略從而實現(xiàn)價值最大化的過程。
在2017年《麻省理工科技評論》全球十大突破性技術(shù)榜單中,增強學(xué)習(xí)技術(shù)高居榜首,并已在棋類運動和電腦游戲領(lǐng)域獲得突破性進(jìn)展,如AlphaGo使用增強學(xué)習(xí)技術(shù)擊敗世界圍棋冠軍柯潔,基于增強學(xué)習(xí)的電腦程序在一系列Atari游戲中超過人類水平等。
那么,針對機器人的運動控制問題,增強學(xué)習(xí)技術(shù)的運用存在哪些難點?我們又可以采取哪些有效的解決方法?今天,我們?yōu)榇蠹曳钌狭终嫜裕?strong>高、大、少;虛、先、近。
與棋類運動和電腦游戲不同,在機器人運動控制領(lǐng)域運用增強學(xué)習(xí)方法主要有以下三個難點:
“高”,即狀態(tài)和行為維數(shù)高。比如讓機器人為我們端杯水,需要增強學(xué)習(xí)算法提供如下的最優(yōu)運動控制策略:憑借具有深度、魚眼和普通圖像拍攝功能的實感TM攝像頭獲得圖像,分析出人和杯子的方向、距離、姿態(tài)以及人的表情,并通過聽覺獲得人發(fā)出命令的方位和急促程度,從而控制機器人(機械腿或底盤)走到人的面前;借助機器人手獲得重量、溫度、滑動信息,依據(jù)人手的方位控制機器人手臂和手指各關(guān)節(jié)的實時角度。這個過程所涉及的狀態(tài)和行為的維數(shù)以百萬計,而對每個狀態(tài)行為進(jìn)行價值(如人的滿意度)計算也非常困難。
機器人模型
“大”,即狀態(tài)信息誤差大。棋類運動中的狀態(tài)(盤面)信息完全準(zhǔn)確,但機器人所面對的狀態(tài)信息,大多存在明顯誤差。如在遞水這個場景中,我們所獲得的人和杯子的方向、距離、姿態(tài)以及人的表情、動作信息都存在誤差。誤差可能是由機械振動或機器人運動等因素造成,也可能是因為傳感器精度不夠高,存在噪聲,亦或是由于算法不夠精確。這些誤差都增加了增強學(xué)習(xí)的難度。
“少”,即樣本量少。不同于人臉等圖像識別任務(wù)中動輒百萬的訓(xùn)練樣本,機器人增強學(xué)習(xí)可獲得的樣本數(shù)量少、成本高,主要原因是:機器人在運動過程中可能出現(xiàn)疲勞和損壞,還可能會對目標(biāo)物或環(huán)境造成破壞;機器人的參數(shù)在運動中會發(fā)生改變;機器人運動需要一定的時間;很多機器人學(xué)習(xí)任務(wù)需要人的參與配合(如上述遞水場景中需要有人接水)。這些都使得獲得大量訓(xùn)練樣本十分困難。
面對上述困難,我們難道就無計可施了嗎?當(dāng)然不是,科學(xué)家們提出了一整套解決問題的思路,主要有如下三點:
一個融合了“虛、先、近”三種策略的機器人運動控制增強學(xué)習(xí)框架
“虛”,即采用虛實結(jié)合的技術(shù)。我們可以通過程序虛擬出環(huán)境讓機器人進(jìn)行預(yù)訓(xùn)練,以克服實際采樣過程中可能出現(xiàn)的種種難題。虛擬軟件不但能模擬機器人的完整運動特性,如有幾個關(guān)節(jié)、每個關(guān)節(jié)能如何運動等,還能模擬機器人和環(huán)境作用的物理模型,如重力、壓力、摩擦力等。機器人可以在虛擬環(huán)境中先進(jìn)行增強學(xué)習(xí)的訓(xùn)練,直到訓(xùn)練基本成功再在實際環(huán)境中進(jìn)一步學(xué)習(xí)。虛實結(jié)合的增強學(xué)習(xí)主要面臨兩個挑戰(zhàn)。一個是如何保證虛擬環(huán)境中的學(xué)習(xí)結(jié)果在實際中仍然有效。面對這一難題,我們可以對虛擬環(huán)境與實際環(huán)境中的差別進(jìn)行隨機性的建模,在虛擬環(huán)境中訓(xùn)練時引入一些噪聲。另一個挑戰(zhàn)是如何實時獲得外部環(huán)境和目標(biāo)的虛擬模型,最新的深度攝像頭可以幫助我們解決這個問題。
“先”,即先驗知識。引入先驗知識可以大幅降低增強學(xué)習(xí)優(yōu)化的難度。先驗知識有很多種,但對于機器人而言,獲得先驗知識比較有效的途徑是“學(xué)徒學(xué)習(xí)”,即讓機器人模仿人的示教動作,再在應(yīng)用中通過增強學(xué)習(xí)優(yōu)化。由于機器人運動所面臨的狀態(tài)維數(shù)極高,通過手工輸入知識非常困難,而人做示范則較為方便,還降低了先驗知識引入的門檻,不太了解機器人技術(shù)的人也可以進(jìn)行。示教主要有三類方法:一是由人拖動機器手做動作;二是使用專門的運動捕捉設(shè)備獲得人的動作;三是直接使用深度攝像頭獲取人的動作。從長遠(yuǎn)看,第三種方法會成為以后的發(fā)展趨勢。
“近”,即近似。由于機器人運動控制的狀態(tài)維數(shù)高、樣本少且存在誤差,所以將維數(shù)高的狀態(tài)近似為不丟失主要信息又能增加可訓(xùn)練性的函數(shù)就成為一項重要的選擇。使用近似方法提高增強學(xué)習(xí)算法性能的一大熱點就是將深度學(xué)習(xí)技術(shù)與增強學(xué)習(xí)相結(jié)合所形成的深度增強學(xué)習(xí)技術(shù),此技術(shù)直接將機器人的狀態(tài)(如傳感器和關(guān)節(jié)狀態(tài)輸入)通過高層的卷積神經(jīng)網(wǎng)絡(luò)映射為機器人的動作輸出,大大提高了機器人基于增強學(xué)習(xí)進(jìn)行運動控制的性能。該技術(shù)在近兩年來取得了突破性的進(jìn)展。
上述解決方法為增強學(xué)習(xí)在機器人動作控制領(lǐng)域的應(yīng)用打開了大門,成為機器人研究的重要方向之一,但目前還存在許多實際難題亟待解決??蒲腥藛T正在對深度增強學(xué)習(xí)、學(xué)徒學(xué)習(xí)(模仿學(xué)習(xí))和虛實結(jié)合學(xué)習(xí)方面進(jìn)行一系列探索。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。