2
雷鋒網(wǎng) AI 科技評論按:對于機(jī)器人強(qiáng)化學(xué)習(xí)來說,基于視覺的物塊堆疊和推動是最常見的任務(wù),為了減小訓(xùn)練過程的成本和安全問題,我們希望最小化訓(xùn)練過程中與環(huán)境交互的次數(shù)。但從相機(jī)這樣復(fù)雜的圖像傳感器中進(jìn)行高效學(xué)習(xí)卻十分困難。為了解決這一問題,伯克利的研究人員提出了一種新型基于模型的強(qiáng)化學(xué)習(xí)方法并發(fā)表了相關(guān)文章介紹了這一成果,雷鋒網(wǎng) AI 科技評論將其編譯如下。
想象一下這樣的場景:一個機(jī)器人試圖通過相機(jī)影像的視覺輸入來學(xué)習(xí)堆疊物塊和推動物體。為了最大限度地降低成本和安全問題,我們希望能夠最小化機(jī)器人的交互學(xué)習(xí)時間,但從相機(jī)這樣復(fù)雜的圖像傳感器中進(jìn)行高效學(xué)習(xí)依舊十分困難。因此本工作提出了 SOLAR——一種新的基于模型的增強(qiáng)學(xué)習(xí)(RL)方法,它直接從視覺輸入和不到一小時的交互中學(xué)習(xí)技能,包括在真正的 Sawyer 機(jī)械臂上執(zhí)行高難度任務(wù)。據(jù)我們所知,SOLAR 是解決機(jī)器人在現(xiàn)實(shí)世界中基于圖像完成任務(wù)的最有效的 RL 方法。
機(jī)器人使用 SOLAR 一個小時內(nèi)學(xué)會了如何堆積木和推杯子
在 RL 設(shè)置中,機(jī)器人通過反復(fù)試錯從自己的經(jīng)驗(yàn)中學(xué)習(xí),以最大限度地降低與當(dāng)前任務(wù)相對應(yīng)的成本函數(shù)。近年來,許多具有挑戰(zhàn)性的任務(wù)都是通過 RL 方法解決的,但這些成功案例大多來自無模型(model-free)的 RL 方法,與基于模型(model-based)的方法相比,這些方法通常需要更多的數(shù)據(jù)。然而,基于模型的方法往往依賴于精準(zhǔn)預(yù)測未來的能力,以便規(guī)劃主體的操作。對于基于圖像學(xué)習(xí)的機(jī)器人來說,預(yù)測未來的圖像本身需要大量的交互訓(xùn)練,因此我們需要解決這個問題。
一些基于模型的 RL 方法不需要精準(zhǔn)的未來預(yù)測,但這些方法通常會對狀態(tài)進(jìn)行嚴(yán)格的假設(shè)。LQR-FLM(linear-quadratic regulator fitted linear models,https://arxiv.org/abs/1504.00702)方法已被證明可以通過對系統(tǒng)動力學(xué)狀態(tài)的近似線性假設(shè)來高效地學(xué)習(xí)新的任務(wù),這個方法同樣可適用于大部分機(jī)器人系統(tǒng)。然而,這種假設(shè)對于基于圖像的學(xué)習(xí),卻是令人望而卻步的,因?yàn)橄鄼C(jī)反饋的像素動態(tài)遠(yuǎn)不是線性能夠表達(dá)的。因此,我們在工作中研究的問題是如何放寬這一假設(shè),以便開發(fā)得到一種基于模型的 RL 方法,在無需精準(zhǔn)未來預(yù)測的情況下解決基于圖像的機(jī)器人任務(wù)呢?
最后,我們通過使用深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)潛在狀態(tài)表示來解決這個問題。當(dāng)機(jī)器人處理來自任務(wù)的圖像時,它可以將圖像編碼為潛在表示,然后將其用作 LQR-FLM 的狀態(tài)輸入來代替圖像本身。其中的關(guān)鍵在于 SOLAR 模型可以學(xué)習(xí)緊湊的潛在狀態(tài)表示,從而實(shí)現(xiàn)對目標(biāo)的精確捕捉;然后模型通過鼓勵潛在狀態(tài)的動力學(xué)傾向于線性表示,來學(xué)習(xí)到一種可以有效用于 LQR-FLM 算法的表示。為此,我們引入了一個明確表示潛在線性動力學(xué)的潛在變量模型,將該模型與 LQR-FLM 相結(jié)合,為 SOLAR 算法提供了基礎(chǔ)。
SOLAR(stochastic optimal control with latent representations)意為具有潛在表示的隨機(jī)最優(yōu)控制,它是基于圖像 RL 設(shè)置的一種有效且通用的解決方案。SOLAR 的關(guān)鍵在于它可以學(xué)習(xí)線性動力學(xué)精準(zhǔn)的潛在狀態(tài)表示,并利用了不依賴于未來預(yù)測的基于模型的 RL 方法。
線性動態(tài)控制
控制理論中最著名的結(jié)果之一是線性二次型調(diào)節(jié)器(LQR),這是一組方程式,為線性動力學(xué)且二次型的系統(tǒng)提供最優(yōu)控制策略。雖然現(xiàn)實(shí)世界的系統(tǒng)幾乎從不是線性的,但是 LQR 的近似值,例如具有擬合線性模型(LQR-FLM)的 LQR 已被證明在各種機(jī)器人控制任務(wù)中表現(xiàn)良好。與其他基于模型的 RL 方法相比,LQR-FLM 一直是學(xué)習(xí)控制技能最有效的 RL 方法之一。線性模型的簡單性以及這些模型不需要準(zhǔn)確預(yù)測未來的特點(diǎn)使得 LQR-FLM 成為一種吸引人的構(gòu)建方法,但是這種方法的關(guān)鍵限制是它通常假定訪問系統(tǒng)狀態(tài),例如機(jī)器人的關(guān)節(jié)配置和感興趣對象的位置,這通常是合理地建模為近似線性。我們通過學(xué)習(xí)可以用作 LQR-FLM 輸入的表示來替代圖像并放寬這個假設(shè)。
使用系統(tǒng)狀態(tài),LQR-FLM 和相關(guān)方法已被用于成功學(xué)習(xí)無數(shù)的任務(wù),包括機(jī)器人操縱和運(yùn)動。我們的目標(biāo)是通過自動學(xué)習(xí)從圖像到 LQR-FLM 的狀態(tài)輸入來擴(kuò)展這些功能。
從圖像中學(xué)習(xí)潛在狀態(tài)
我們建立的圖形模型假設(shè)我們觀察到的圖像是潛在狀態(tài)的函數(shù),并且狀態(tài)根據(jù)由行為的線性動力學(xué)調(diào)制,損失由狀態(tài)和行為的二次函數(shù)給出。
我們希望智能體可以從其視覺輸入中提取一種狀態(tài)表示,其中的狀態(tài)動態(tài)盡可能接近線性。我們設(shè)計(jì)了一個潛在變量模型來實(shí)現(xiàn),其中潛在狀態(tài)服從線性動力學(xué),如下圖所示。深色節(jié)點(diǎn)是我們從與環(huán)境交互中觀察到的圖像、行為與成本。淺色節(jié)點(diǎn)代表系統(tǒng)基本狀態(tài),這是我們希望學(xué)習(xí)的表示形式,我們假設(shè)下一個狀態(tài)是由當(dāng)前狀態(tài)和操作的線性函數(shù)所得。該模型與結(jié)構(gòu)化變分自編碼器(structured variational auto-encoder)有很強(qiáng)的相似之處,該模型以前適用于表示老鼠視頻的特征等應(yīng)用。我們用來適應(yīng)模型的方法也是基于前面工作中提出的方法。
在較高的層級上,該方法將同時學(xué)習(xí)狀態(tài)動力學(xué)和編碼器,將當(dāng)前和先前圖像作為輸入來估計(jì)當(dāng)前狀態(tài)。如果我們對多個機(jī)器人與環(huán)境的交互相對應(yīng)的觀察圖像序列進(jìn)行編碼,可以看到這些狀態(tài)序列是否匹配學(xué)到的線性動力學(xué)行為;如果它們不這樣做,我們將調(diào)整動力學(xué)和編碼器,使它們估計(jì)所得狀態(tài)向線性逼近。該過程的關(guān)鍵在于我們不是直接優(yōu)化模型來使預(yù)測時更精準(zhǔn),而是調(diào)整線性模型匹配主體先前與環(huán)境的交互。這有力地彌補(bǔ)了 LQR-FLM 的不足,使得它也不依賴預(yù)測就能獲得良好的性能。關(guān)于該模型學(xué)習(xí)流程的更多細(xì)節(jié),請前往以下地址參考我們的論文:https://arxiv.org/abs/1808.09105 。
我們的機(jī)器人迭代地與其環(huán)境交互,使用此數(shù)據(jù)更新其模型,使用此模型來估計(jì)潛在狀態(tài)及其動態(tài),并使用這些動態(tài)更新其行為。
現(xiàn)在我們已經(jīng)闡述了該方法的創(chuàng)建步驟,那這些步驟如何一同組合成 SOLAR 方法呢?智能體根據(jù)策略在環(huán)境中運(yùn)作,而策略則根據(jù)當(dāng)前的潛在狀態(tài)估計(jì)來指導(dǎo)行動。這些交互產(chǎn)生的圖像、行為和損失的軌跡,再用于匹配動力學(xué)模型。之后,利用這些完整的交互軌跡,我們的模型不斷完善它對潛在動態(tài)的估計(jì),這使得 LQR-FLM 能夠產(chǎn)生一個更新的策略,該策略將使得智能體在給定的任務(wù)中表現(xiàn)得更好,即降低損失(成本)。然后更新的策略將用于收集更多交互軌跡以及不斷重復(fù)優(yōu)化過程。上圖展示該算法的各個階段。
LQR-FLM 和大多數(shù)其他基于模型的 RL 方法相比,關(guān)鍵區(qū)別在于生成的模型僅用于策略改進(jìn),而不用于預(yù)測未來。這在觀測復(fù)雜且難以預(yù)測的場景中非常有用,我們通過引入可與動力學(xué)一同估計(jì)的潛在狀態(tài),將這一優(yōu)勢擴(kuò)展到基于圖像的場景中。最終,SOLAR 只需使用一個小時與環(huán)境交互,即可為基于圖像的機(jī)器人操作任務(wù)生成良好的策略。
我們主要在 Sawyer 機(jī)械臂上測試了 SOLAR,其中機(jī)械臂有七度的自由度,可用于各種操作任務(wù)。我們給機(jī)械臂輸入來自對準(zhǔn)其手臂的攝像頭的圖像以及場景中的相關(guān)物體,然后讓機(jī)械臂完成學(xué)習(xí)樂高方塊堆疊和推動杯子的任務(wù)。
左:對于樂高積木堆疊,我們試驗(yàn)了臂和塊的多個起始位置。(對于推動,我們只使用人類在機(jī)器人成功時按下鍵提供的稀疏獎勵,示例圖像觀察在底行給出。)右:SOLAR學(xué)習(xí)的成功行為示例。
樂高方塊堆疊任務(wù)
塊堆疊的主要挑戰(zhàn)來自于成功完成任務(wù)所需的精度,因?yàn)闄C(jī)械臂必須非常準(zhǔn)確地放置塊,才能將各個模塊銜接起來。在 SOLAR 系統(tǒng)下,Sawyer 只需從輸入的相機(jī)鏡頭中學(xué)習(xí)這種精度,與此同時它還能成功掌握從手臂和積木的多個起始積木位置中學(xué)習(xí)堆疊。
其中,當(dāng)積木的起始位置在桌面上,是最具挑戰(zhàn)性的,因?yàn)?Sawyer 必須先將積木從桌子上拿起,然后再堆疊它,即它無法變得「貪婪」,更無法簡單地徑直將積木移向另外的積木。
我們首先將 SOLAR 當(dāng)作使用標(biāo)準(zhǔn)變分自編碼器(VAE)而非結(jié)構(gòu)化變分自編碼器(SVAE)的消融方法,這意味著學(xué)習(xí)到的狀態(tài)表示不再遵循線性動力學(xué)。而這種消融的方法,機(jī)械臂只有在最簡單的起始位置的前提下才能取得成功。為了理解模型無需精準(zhǔn)預(yù)測未來給我們所帶來的益處,我們將 SOLAR 比作另一種消融方法,即使用一種可供替代的規(guī)劃方法——模型預(yù)測控制模型(MPC)來替代 LQR-FLM 算法,同時我們也將其視作此前使用了 MPC 的一種性能最佳的方法,即深度視覺預(yù)見(DVF,https://arxiv.org/abs/1812.00568 )。其中,MPC 常被應(yīng)用于此前和隨后的一系列工作中,并且它依賴于使用學(xué)習(xí)到的模型來生成精確的未來預(yù)測的能力,從而決定需要采取什么樣的行動來提升性能。
雖然 MPC 消融在兩個更簡單的初始位置上學(xué)習(xí)得更快,但它無法應(yīng)對最為復(fù)雜的場景,因?yàn)?MPC 只能「貪婪地」縮短兩個積木之間的距離,而無法將積木從桌面上拿下來。MPC 之所以貪婪地行動,是因?yàn)樗鼉H能進(jìn)行短期規(guī)劃,而長遠(yuǎn)來看,它對未來圖像的預(yù)測則會越來越不精準(zhǔn),這恰恰就是 SOLAR 能夠利用 LQR-FLM 來完全避免進(jìn)行未來預(yù)測從而克服的失敗的方式。之后,我們發(fā)現(xiàn) DVF 雖然取得了一定的進(jìn)步,但是最終并不能解決這兩個更加困難的場景,即便在比我們方法使用更多數(shù)據(jù)的情況下。這證明了我們的方法具有更高的數(shù)據(jù)效率,可以在幾個小時內(nèi)實(shí)現(xiàn) DVF 需要幾天甚至幾周才能解決的問題。
杯子推動任務(wù)
此外我們還研究了機(jī)械臂在推動杯子任務(wù)上的表現(xiàn)。我們通過用稀疏的獎勵信號替換成本來增加機(jī)械臂推動杯子時的額外挑戰(zhàn),比如說機(jī)械臂只有完成了任務(wù)時才會被告知信號,否則就不會被告知。如下圖所示,人類在鍵盤上按下一個鍵來提供稀疏的獎勵信號,而機(jī)械臂需要推理出如何改進(jìn)行為來獲得這一獎勵。我們通過對 SOLAR 進(jìn)行直接拓展便處理了這一問題,詳細(xì)內(nèi)容可參考我們的論文(論文地址:https://arxiv.org/abs/1808.09105 )。即便面臨著額外的挑戰(zhàn),我們的方法在一個小時左右的交互后也成功地學(xué)習(xí)到了推動杯子的策略,大大超過了相同數(shù)據(jù)量下 DVF 的表現(xiàn)。
模擬比較
除了 Sawyer 實(shí)驗(yàn)之外,我們還在模擬中進(jìn)行了幾次比較,因?yàn)榇蠖鄶?shù)先前的工作并未嘗試使用真正的機(jī)器人進(jìn)行實(shí)驗(yàn)。特別地,我們建立了一個 2D 導(dǎo)航域,其中底層系統(tǒng)實(shí)際上具有線性動力學(xué)和二次成本,但我們只能觀察顯示智能體和目標(biāo)的自上而下視圖的圖像。我們還包括兩個更復(fù)雜的域:一輛必須從 2D 平面右下角驅(qū)動到左上角的汽車,以及一個負(fù)責(zé)達(dá)到左下角目標(biāo)的 2 自由度機(jī)械臂。所有域都是通過只提供任務(wù)自上而下視圖的圖像觀察來學(xué)習(xí)的。
我們比較了魯棒局部線性可控嵌入(RCE,https://arxiv.org/abs/1710.05373 ),它采用不同的方法來學(xué)習(xí)遵循線性動力學(xué)的潛在狀態(tài)表示。我們還將其與近端策略優(yōu)化(PPO)進(jìn)行了比較,PPO 是一種無模型 RL 方法,用于解決許多模擬機(jī)器人領(lǐng)域問題,但這種方法對于現(xiàn)實(shí)世界學(xué)習(xí)而言,數(shù)據(jù)效率不夠高。我們發(fā)現(xiàn) SOLAR 比 RCE 學(xué)習(xí)速度更快,最終性能更好。PPO 通常能比 SOLAR 學(xué)習(xí)到更好的最終性能,但這通常需要 1 到 3 個數(shù)量級的數(shù)據(jù),這對于大多數(shù)現(xiàn)實(shí)機(jī)器人的學(xué)習(xí)任務(wù)來說也是可望不可及的。這種權(quán)衡是普遍存在的:無模型方法往往會獲得更好的最終性能,但基于模型的方法學(xué)得更快。
學(xué)習(xí)圖像潛在表示的方法提出了類如重建圖像和預(yù)測未來圖像等的目標(biāo)。這些目標(biāo)并不完全符合我們完成任務(wù)的目標(biāo),例如機(jī)器人在按顏色將目標(biāo)分類到垃圾箱中時,并不需要完美地重建他前面的墻壁的顏色。我們還開展了適合于控制的狀態(tài)表示方面的工作,包括識別圖像中的興趣點(diǎn)和學(xué)習(xí)潛在狀態(tài),從而使各個維度獨(dú)立控制。最近的一篇調(diào)查論文還對狀態(tài)表示學(xué)習(xí)的前景進(jìn)行了分類。
除了控制之外,我們最近還進(jìn)行了大量學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)化表示的工作,其中許多工作擴(kuò)展了 VAE。SVAE 就是一個這種框架的例子,其他一些方法也試圖用線性動力學(xué)來解釋數(shù)據(jù)。除此之外,還有一些研究通過混合模型結(jié)構(gòu)、各類離散結(jié)構(gòu)和貝葉斯非參數(shù)結(jié)構(gòu)來學(xué)習(xí)潛在表示。
我們還提出了與我們在之前和隨后的工作中提出的觀點(diǎn)密切相關(guān)的想法。如前所述,DVF 還直接從視覺中學(xué)到了機(jī)器人任務(wù),最近的一篇博客文章(文章查看地址:https://bair.berkeley.edu/blog/2018/11/30/visual-rl/ )總結(jié)了該結(jié)果。嵌入控制及其后繼的 RCE 還旨在學(xué)習(xí)線性動力學(xué)的潛在狀態(tài)表示。我們在論文中將這些方法進(jìn)行了比較,并證明了我們的方法往往表現(xiàn)出更好的性能。在我們的成果之后,研究人員提出的 PlaNet 混合利用確定性和隨機(jī)變量來學(xué)習(xí)潛在狀態(tài)表示,并將它們與 MPC 結(jié)合使用,其中,MPC 是我們評估中的基準(zhǔn)方法之一,在幾個模擬任務(wù)上展示了良好的結(jié)果。正如實(shí)驗(yàn)所顯示,LQR-FLM 和 MPC 各有優(yōu)缺點(diǎn),我們發(fā)現(xiàn) LQR-FLM 通常在機(jī)器人控制方面更為成功,避免了 MPC 的貪婪行為。
我們看到了未來工作的幾個令人興奮的方向,在此簡要提及兩個方向:
首先,我們希望我們的機(jī)器人能夠?qū)W習(xí)復(fù)雜、多階段的任務(wù),例如構(gòu)建樂高結(jié)構(gòu)而不僅僅是堆疊一個個方塊,或進(jìn)行更復(fù)雜的推動任務(wù)而不僅僅是推動一個杯子。我們可以通過提供所希望機(jī)器人完成目標(biāo)的中間圖像來實(shí)現(xiàn)這一點(diǎn),如果我們期望機(jī)器人能夠分別學(xué)習(xí)每個階段,這一算法也許能夠?qū)⑦@些策略串在一起,形成更復(fù)雜、更有趣的行為。
其次,人類不僅學(xué)習(xí)狀態(tài)的表示,而且還學(xué)習(xí)動作——我們不考慮單個肌肉運(yùn)動,而是將這些運(yùn)動組合成「宏觀動作」,以執(zhí)行高度協(xié)調(diào)和復(fù)雜的行為。如果我們能夠類似地學(xué)習(xí)動作表示,我們就能使機(jī)器人更有效地學(xué)習(xí)如何使用硬件,比如說靈巧的手,這將進(jìn)一步提高他們處理復(fù)雜的現(xiàn)實(shí)環(huán)境的能力。
原文鏈接
雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。