丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

本文作者: 高云河 編輯:楊曉凡 2017-07-22 21:13
導語:谷歌期望通過教會機器人理解語義概念,以使得機器人能夠從人類的示范中學習動作,以及理解物體的語義概念,完成抓取動作。

雷鋒網(wǎng) AI 科技評論按:機器學習能讓機器人學會復雜的技能,例如抓住把手打開門。然而學習這些技能需要先人工編寫一個獎勵函數(shù),然后才能讓機器人開始優(yōu)化它。相比之下,人類可以通過觀察別人的做法來理解任務的目標,或者只是被告知目標是什么,就可以完成任務。目前,谷歌期望通過教會機器人理解語義概念,以使得機器人能夠從人類的示范中學習動作,以及理解物體的語義概念,完成抓取動作。

以下為雷鋒網(wǎng) AI 科技評論編譯的這篇谷歌博客的部分內容。

問題的引入

人類與機器人不同,我們不需要編寫目標函數(shù)即可以完成許多復雜的任務。我們可以這樣做,是因為我們利用了自己對世界先驗知識:當我們看到有人切蘋果時,我們明白,目標是切出兩個蘋果片,不管它是什么類型的蘋果,還是用什么樣的工具來切蘋果。同樣,如果我們被告知拿起蘋果,我們明白我們要抓住特定的物體“蘋果”,而不是梨或者桃子,因為我們可以在環(huán)境中理解“蘋果”這個詞:我們知道這個詞的意思。

這些就是語義概念:例如切兩個蘋果切片為顯著事件,而“蘋果”這樣的詞就表示的物體類別。那么我們可以教導機器人來了解語義概念,讓它們通過物體類別標簽或用戶提供的示例來實現(xiàn)簡單命令嗎?在這篇文章中,谷歌的研究者討論了他們最近關于機器人學習的一些工作,它們結合了機器人自主收集的經(jīng)驗和人工標注的數(shù)據(jù),其中機器人的自主收集的數(shù)據(jù)很豐富,但缺乏人工提供的標注,而人工標注的數(shù)據(jù)能使機器人更好地理解語義。同時本文也描述了機器人如何使用它們的經(jīng)驗來理解人工示范中的顯著事件,并且理解諸如“玩具”和“筆”之類的語義類別,以基于用戶命令拾取物體。

通過深度視覺特征理解人類示范

在第一組實驗中,研究者介紹了他們這篇論文中的內容:「Unsupervised Perceptual Rewards for Imitation Learning」。目標是使機器人能夠在只看到少量未標注的人類演示的情況下,理解一個任務,比如打開一扇門。通過分析這些演示,機器人必須理解執(zhí)行哪些語義方面顯著的事件能夠使任務成功,然后使用強化學習來執(zhí)行這些顯著事件。

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

左圖:人類演示    右圖:相應的機器人模擬

在非常小的數(shù)據(jù)集上使用無監(jiān)督學習是機器學習中最具挑戰(zhàn)性的場景之一。為了使該方法可行,研究者使用了從ImageNet上進行圖像識別訓練的大型網(wǎng)絡的深度視覺特征。這種深度視覺特征對于語義概念是敏感的,能夠很好的提取語義概念,同時防止諸如外觀和照明等變量的干擾。研究者使用這些功能來解釋用戶提供的演示,結果顯示從幾個演示中就可以以無監(jiān)督的方式學習到獎勵函數(shù),而無需額外訓練。

 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

在從觀察中學習到獎勵函數(shù)之后,研究者用它來引導機器人學習開門任務,只使用圖像來評估獎勵函數(shù)。借助初始的動作演示,機器人有10%的時間能夠成功完成開門動作,而在機器人使用學習到的獎勵函數(shù)繼續(xù)學習之后,準確率則能夠提高到100%。

 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

學習過程

通過自我監(jiān)督和模仿來模仿人的動作

在「Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation」這篇論文中,谷歌的研究者提出了一種從觀察中學習世界的新穎方法,并通過自我監(jiān)督的姿態(tài)模擬實驗證明了該方法的可行性。該方法主要依靠的時間和空間的同時性進行監(jiān)督:通過訓練區(qū)分視頻不同時期的幀,該方法學會將現(xiàn)實分解和組織成有用的抽象表示。

在例如姿態(tài)模擬的任務中,抽象表示的不同維度可能編碼了人或機器人身體的不同關節(jié)。研究者并沒有手動定義人與機器人關節(jié)之間的映射(這種映射通常由于人和機器人的生理差異而模糊不清),而是讓機器人以端到端的方式進行模仿學習。當模型同時接受人和機器人觀察的訓練時,即使沒有提供任何人與機器人的對應關系,模型也可以自然地發(fā)現(xiàn)兩者之間的對應關系。因此,該方法可以得到一種機器人,無需人與機器人之間的對應關系,即可模仿人的姿勢。

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

機器人的自監(jiān)督人類動作模擬

上面展示的多對一和高度非線性關節(jié)映射是端到端學習有點的有力證明。在這個例子中,人的上下運動涉及許多關節(jié),而機器人只需要一個關節(jié)。結果顯示機器人并沒有使用任何明確的人類姿態(tài)信息,本身就發(fā)現(xiàn)了這種高度復雜的映射

通過物體語義類別進行抓取

上面的實驗展示了人類如何通過演示來制定機器人的目標,在這種情況下,機器人必須解釋任務的語義:顯著事件和姿勢的相關特征。如果不向機器人展示任務來制定目標,而是只是通過告訴機器人要做什么來制定目標,這該怎么辦呢?這就需要機器人理解語義,以便識別世界中哪些物體與用戶指定的語義類別相對應。在End-to-End Learning of Semantic Grasping這篇文章中,谷歌的研究者研究了人類手工標注的數(shù)據(jù)和機器人自動收集的數(shù)據(jù)的組合如何用于執(zhí)行語義抓取的任務,機器人必須從與箱子中拾取用戶指定物體,例如“橡皮擦”或“玩具”。

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

為了學習如何執(zhí)行語義抓取,機器人首先通過自主地嘗試拾取各種各樣的物體,收集一個大量的抓取數(shù)據(jù)集。該數(shù)據(jù)本身可以使機器人拾取物體,但并不能使機器人理解如何將物體與其語義標簽相關聯(lián)。為了能夠理解語義,研究者再次使用了適度的人工監(jiān)督。每次機器人成功抓住一個物體,機器人會對該物體進行拍照,如下圖所示。

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

然后,這些圖像的中的一部分由人工進行標注。由于呈現(xiàn)的圖像展示了物體在抓取姿態(tài)下的標準外觀,因此很容易通過在標注的圖片上訓練分類器,將這些標簽傳遞給剩余的未標注的圖像。然后標注過的表示圖像即可以告訴機器人實際拾取了哪個物體。在此后機器人從箱子拾取物體時,可以將抓取時觀察到的圖像與標簽聯(lián)系到一起。

使用這個標記的數(shù)據(jù)集,谷歌的研究者訓練了一個雙流模型,該模型以當前獲得的圖像和機器人將要采取的動作為條件,預測應該抓取哪個物體。研究者采用的雙流模型靈感來源于人類視覺皮層中觀察到的dorsal-ventral分解,其中ventral流負責推理物體語義類別,而dorsal流負責推理抓取的幾何結構。關鍵的是,ventral流可以包含由物體(不一定來自機器人)的標記圖像組成的輔助數(shù)據(jù),而dorsal流可以包含不具有語義標簽的輔助數(shù)據(jù),從而允許整個系統(tǒng)更有效地使用更大量的不同類別的標簽數(shù)據(jù)。以這種方式,可以將有限數(shù)量的人工標記與大量自動收集的機器人數(shù)據(jù)結合在一起,以便根據(jù)所需的語義類別來抓取對象,如下面的視頻所示:

https://youtu.be/WR5WUKXUQ8U

未來的工作:

實驗顯示了有限的人工標注語義標簽數(shù)據(jù)可以與由機器人自動收集和標記的數(shù)據(jù)相結合,以使機器人能夠理解顯著事件,物體類別以及用戶的演示。將來,機器人系統(tǒng)可以通過用戶標注的數(shù)據(jù)和不斷增加自主收集的數(shù)據(jù)集的組合進行訓練,提高機器人能力,并減輕設計自主機器人的工程負擔。此外,隨著機器人系統(tǒng)在現(xiàn)實世界中收集越來越多的自動標記的數(shù)據(jù),該數(shù)據(jù)不僅可以用于改進機器人系統(tǒng),還可以用于改進計算機視覺,語音識別和自然語言處理系統(tǒng)等其他系統(tǒng),這些系統(tǒng)都可以從這樣大的輔助數(shù)據(jù)中得到改進。

當然,這并不是研究者們第一次考慮機器人語義學。自然語言理解,機器人感知,抓取和模仿學習等的廣泛研究工作已經(jīng)考慮了如何在機器人系統(tǒng)中結合語義和行為,然而,谷歌的研究者在上面討論的這些實驗可能指向未來在自主機器人系統(tǒng)結合自我監(jiān)督和人工標注數(shù)據(jù)進行工作的一個可行方向。

致謝:本文中的實驗由下列人員進行Pierre Sermanet, Kelvin Xu, Corey Lynch, Jasmine Hsu, Eric Jang, Sudheendra Vijayanarasimhan, Peter Pastor, Julian Ibarz, 以及 Sergey Levine。同時也感謝Mrinal Kalakrishnan, Ali Yahya, and Yevgen Chebotar 在開門任務中開發(fā)的學習框架,以及 John-Michael Burke在語義抓取實驗中進行的實驗設計。


想要進一步了解的讀者可以閱讀原文:Google Blog,或者閱讀文中所提到的論文:

Unsupervised Perceptual Rewards for Imitation Learning

Time-Contrastive Networks: Self-supervised Learning from Multi-View Observation

更多人工智能學術新聞、近期 各大學術會議全方位報道,請繼續(xù)關注 雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監(jiān)督學習的新高度

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說