丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

1

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

本文作者: 高云河 編輯:楊曉凡 2018-07-31 22:25
導(dǎo)語:會分析判斷,會著眼長遠

雷鋒網(wǎng) AI 科技評論按:機器人如何能夠?qū)W到在多樣且復(fù)雜的真實世界物體和環(huán)境中能夠廣泛使用的技能呢?如果機器人是設(shè)計用來在可控環(huán)境下進行高效的重復(fù)工作,那么這個任務(wù)就相對來說更加簡單,比如設(shè)計一個在流水線上組裝產(chǎn)品的機器人。但要是想要設(shè)計能夠觀察周圍環(huán)境,根據(jù)環(huán)境決定最優(yōu)的行動,同時還能夠?qū)Σ豢深A(yù)知的環(huán)境做出反應(yīng)的機器人,那難度就

會指數(shù)級的增長。目前,有兩個有力的工具能夠幫助機器人從試驗中學(xué)習(xí)到這些技能,一個是深度學(xué)習(xí),一個是強化學(xué)習(xí)。深度學(xué)習(xí)非常適合解決非結(jié)構(gòu)化的真實世界場景,而強化學(xué)習(xí)能夠?qū)崿F(xiàn)較長期的推理(longer-term reasoning),同時能夠在一系列決策時做出更好更魯棒的決策。將這兩個工具結(jié)合到一起,就有可能能夠讓機器人從自身經(jīng)驗中不斷學(xué)習(xí),使得機器人能夠通過數(shù)據(jù),而不是人工手動定義的方法來掌握運動感知的技能。

為機器人設(shè)計強化學(xué)習(xí)算法主要有幾個挑戰(zhàn):首先真實世界中的物體通常有多樣的視覺和物理特征,接觸力(觸覺)的細微差異可能導(dǎo)致物體的運動難以預(yù)測。于此同時機械臂可能會遮擋住視線而導(dǎo)致難以通過視覺識別的方法預(yù)測物體運動。此外,機器人傳感器本身充滿噪聲,這也增加了算法的復(fù)雜性。所有這些因素結(jié)合到一起,使得設(shè)計一個能夠?qū)W習(xí)到通用解決方案的算法變得異常困難,除非訓(xùn)練數(shù)據(jù)足夠豐富,有足夠多的不同種類的數(shù)據(jù),但是這也使得構(gòu)建數(shù)據(jù)集的時間成本變得很高。這些難點也激勵著研究者探索能夠復(fù)用過去經(jīng)驗的學(xué)習(xí)算法,比如之前 Google 設(shè)計的抓取學(xué)習(xí)算法,就能夠從大型數(shù)據(jù)集中獲益。但是該工作存在一個問題,就是機器無法推斷出其行動的長期后果,而這這長期的推理對于學(xué)習(xí)如何抓取物體是非常重要的。比如,如果多個物體聚集在一起,先將它們中的一個分離出來(稱作「單一化」),在進行抓取時會變得更加容易,但「單一化」這一步驟并不能直接導(dǎo)致抓取成功,而是有一個較為長期的成功率的提升。

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

「單一化」的例子

為了提高效率,使用離線策略強化學(xué)習(xí)(off-policy reinforcement learning)是必須的,即能夠從之前幾小時,幾天或者幾周的數(shù)據(jù)中學(xué)習(xí)。為了設(shè)計一個這樣的能夠從之前的交互中獲得大量不同經(jīng)驗的離線策略強化學(xué)習(xí)算法,谷歌的研究人員將大規(guī)模分布式優(yōu)化與一個新型擬合深度Q學(xué)習(xí)(new fitted deep Q-learning algorithm)算法相結(jié)合,名為 QT-Opt 。該論文目前可以在 arXiv上 查看。

QT-Opt是一種分布式 Q 學(xué)習(xí)算法,支持連續(xù)行動空間,非常適合于機器人問題。為了使用 QT-Opt,研究人員首先使用之前收集的數(shù)據(jù)完全離線地訓(xùn)練了一個模型。這個過程并不需要運行實際的機器人,這點使得該算法更容易分布式的訓(xùn)練。之后,將該模型部署到真正的機器人上進行 finetune,這個階段則使用全新的數(shù)據(jù)進行訓(xùn)練。在運行 QT-Opt 算法時,同時也在積累更多的離線數(shù)據(jù),使得模型能夠訓(xùn)練得更好,于是也能夠得到更好的數(shù)據(jù),這樣就形成了一個正反饋循環(huán)。

為了將該方法應(yīng)用到機器人抓取任務(wù)上,谷歌的研究人員們使用了 7 個真實的機器人,在四個月的時間里,運行了超過 800 個機器人小時。為了引導(dǎo)數(shù)據(jù)收集過程,研究人員開始時手動設(shè)計了一個抓取策略,大概有 15%-30% 的概率能夠成功完成抓取任務(wù)。當(dāng)算法學(xué)習(xí)到的模型的性能比手動設(shè)計的策略更好時,就將機器人的抓取策略換成該學(xué)習(xí)到的模型。該策略使用相機拍攝圖像,之后返回機械臂和抓取器應(yīng)該如何運動的數(shù)據(jù)。整個離線訓(xùn)練數(shù)據(jù)包含超過 1000 種不同物體的抓取數(shù)據(jù)。

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

一些用來訓(xùn)練抓取的物體

過去的研究表明,跨機器人的經(jīng)驗分享能夠加速學(xué)習(xí)過程。研究人員將訓(xùn)練和數(shù)據(jù)收集的過程擴展到十塊GPU,七個機器人和許多 CPU 上面,這最終收集并處理了一個超過 580,000 次抓取嘗試的大型數(shù)據(jù)集。在最后,研究人員成功訓(xùn)練了一個能夠在真實機器人上運行的抓取策略,它能夠泛化到不同種類的物體的抓取上,即使這些物體并沒有在訓(xùn)練時遇到過。

(雷鋒網(wǎng) AI 科技評論往期報道中,谷歌 AI 負責(zé)人 Jeff Dean 曾經(jīng)談到過他們用大量機械臂組成了一個「機械臂農(nóng)場」,專門以大規(guī)模訓(xùn)練的方式解決機器人問題。這也就是一個例子)

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

七個正在采集數(shù)據(jù)的機器人

從定量的角度分析,QT-Opt 方法在訓(xùn)練集沒有遇到過的物體的 700 次抓取嘗試中,有 96% 的成功率。與之前的基于監(jiān)督學(xué)習(xí)的抓取方法(成功率78%)相比,該方法將錯誤率降低了五倍以上。

??深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

值得注意的是,該抓取策略具有標準機器人抓取系統(tǒng)中不常見的各種閉環(huán)反應(yīng)行為:

  • 面對一組無法一起拾取的互鎖在一起的物體時,該策略會在拾取之前將其中一塊與其他塊分開。

  • 當(dāng)抓住互相纏繞的雜亂物體時,該抓取策略會先探測不同的物體,直到手指牢牢握住其中一個,然后才抬起手臂

  • 在機器人抓取到一個物體后,如果人故意將物體從夾具中拍打出來以擾亂機器人(訓(xùn)練時并沒有這種場景),它會自動重新定位夾具,并進行另一次嘗試。

最重要的是,這些行為都不是手動設(shè)計的,它們都是通過 QT-Opt 進行自監(jiān)督訓(xùn)練而自動學(xué)習(xí)到的,因為這些行為能夠從長期的角度提高模型抓取的成功率。

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

此外,研究人員還發(fā)現(xiàn) QT-Opt 使用較少的數(shù)據(jù)就達到了更高的成功率,盡管可能需要更長時間才能收斂。這點對于機器人來說尤其令人興奮,因為訓(xùn)練的瓶頸通常是如何收集到眾多真實的機器人數(shù)據(jù),而不是訓(xùn)練時間。將該方法與其他提高數(shù)據(jù)效率的技術(shù)相結(jié)合,可能會在機器人技術(shù)中開辟一些新的有趣的方向。谷歌的研究人員也正在將 QT-Opt 與最近的學(xué)習(xí)如何進行自校準(self-calibra)的工作相結(jié)合,想要進一步提高模型的泛化能力。

總體而言,QT-Opt 算法是一種通用的強化學(xué)習(xí)方法,可以為真實世界的機器人提供良好的性能。除了獎勵函數(shù)的定義之外,QT-Opt 的任何內(nèi)容都沒有針對于機器人抓取做任何設(shè)計。這是邁向更通用的機器人學(xué)習(xí)算法的重要一步,并且也更期待該算法能夠應(yīng)用到什么其他的機器人任務(wù)中。

Via Google Bolg,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,谷歌訓(xùn)練機械臂的長期推理能力

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說