丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給高云河
發(fā)送

0

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

本文作者: 高云河 編輯:楊曉凡 2017-07-22 21:13
導(dǎo)語:谷歌期望通過教會(huì)機(jī)器人理解語義概念,以使得機(jī)器人能夠從人類的示范中學(xué)習(xí)動(dòng)作,以及理解物體的語義概念,完成抓取動(dòng)作。

雷鋒網(wǎng) AI 科技評論按:機(jī)器學(xué)習(xí)能讓機(jī)器人學(xué)會(huì)復(fù)雜的技能,例如抓住把手打開門。然而學(xué)習(xí)這些技能需要先人工編寫一個(gè)獎(jiǎng)勵(lì)函數(shù),然后才能讓機(jī)器人開始優(yōu)化它。相比之下,人類可以通過觀察別人的做法來理解任務(wù)的目標(biāo),或者只是被告知目標(biāo)是什么,就可以完成任務(wù)。目前,谷歌期望通過教會(huì)機(jī)器人理解語義概念,以使得機(jī)器人能夠從人類的示范中學(xué)習(xí)動(dòng)作,以及理解物體的語義概念,完成抓取動(dòng)作。

以下為雷鋒網(wǎng) AI 科技評論編譯的這篇谷歌博客的部分內(nèi)容。

問題的引入

人類與機(jī)器人不同,我們不需要編寫目標(biāo)函數(shù)即可以完成許多復(fù)雜的任務(wù)。我們可以這樣做,是因?yàn)槲覀兝昧俗约簩κ澜缦闰?yàn)知識(shí):當(dāng)我們看到有人切蘋果時(shí),我們明白,目標(biāo)是切出兩個(gè)蘋果片,不管它是什么類型的蘋果,還是用什么樣的工具來切蘋果。同樣,如果我們被告知拿起蘋果,我們明白我們要抓住特定的物體“蘋果”,而不是梨或者桃子,因?yàn)槲覀兛梢栽诃h(huán)境中理解“蘋果”這個(gè)詞:我們知道這個(gè)詞的意思。

這些就是語義概念:例如切兩個(gè)蘋果切片為顯著事件,而“蘋果”這樣的詞就表示的物體類別。那么我們可以教導(dǎo)機(jī)器人來了解語義概念,讓它們通過物體類別標(biāo)簽或用戶提供的示例來實(shí)現(xiàn)簡單命令嗎?在這篇文章中,谷歌的研究者討論了他們最近關(guān)于機(jī)器人學(xué)習(xí)的一些工作,它們結(jié)合了機(jī)器人自主收集的經(jīng)驗(yàn)和人工標(biāo)注的數(shù)據(jù),其中機(jī)器人的自主收集的數(shù)據(jù)很豐富,但缺乏人工提供的標(biāo)注,而人工標(biāo)注的數(shù)據(jù)能使機(jī)器人更好地理解語義。同時(shí)本文也描述了機(jī)器人如何使用它們的經(jīng)驗(yàn)來理解人工示范中的顯著事件,并且理解諸如“玩具”和“筆”之類的語義類別,以基于用戶命令拾取物體。

通過深度視覺特征理解人類示范

在第一組實(shí)驗(yàn)中,研究者介紹了他們這篇論文中的內(nèi)容:「Unsupervised Perceptual Rewards for Imitation Learning」。目標(biāo)是使機(jī)器人能夠在只看到少量未標(biāo)注的人類演示的情況下,理解一個(gè)任務(wù),比如打開一扇門。通過分析這些演示,機(jī)器人必須理解執(zhí)行哪些語義方面顯著的事件能夠使任務(wù)成功,然后使用強(qiáng)化學(xué)習(xí)來執(zhí)行這些顯著事件。

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

左圖:人類演示    右圖:相應(yīng)的機(jī)器人模擬

在非常小的數(shù)據(jù)集上使用無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最具挑戰(zhàn)性的場景之一。為了使該方法可行,研究者使用了從ImageNet上進(jìn)行圖像識(shí)別訓(xùn)練的大型網(wǎng)絡(luò)的深度視覺特征。這種深度視覺特征對于語義概念是敏感的,能夠很好的提取語義概念,同時(shí)防止諸如外觀和照明等變量的干擾。研究者使用這些功能來解釋用戶提供的演示,結(jié)果顯示從幾個(gè)演示中就可以以無監(jiān)督的方式學(xué)習(xí)到獎(jiǎng)勵(lì)函數(shù),而無需額外訓(xùn)練。

 看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

在從觀察中學(xué)習(xí)到獎(jiǎng)勵(lì)函數(shù)之后,研究者用它來引導(dǎo)機(jī)器人學(xué)習(xí)開門任務(wù),只使用圖像來評估獎(jiǎng)勵(lì)函數(shù)。借助初始的動(dòng)作演示,機(jī)器人有10%的時(shí)間能夠成功完成開門動(dòng)作,而在機(jī)器人使用學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)繼續(xù)學(xué)習(xí)之后,準(zhǔn)確率則能夠提高到100%。

 看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

學(xué)習(xí)過程

通過自我監(jiān)督和模仿來模仿人的動(dòng)作

在「Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation」這篇論文中,谷歌的研究者提出了一種從觀察中學(xué)習(xí)世界的新穎方法,并通過自我監(jiān)督的姿態(tài)模擬實(shí)驗(yàn)證明了該方法的可行性。該方法主要依靠的時(shí)間和空間的同時(shí)性進(jìn)行監(jiān)督:通過訓(xùn)練區(qū)分視頻不同時(shí)期的幀,該方法學(xué)會(huì)將現(xiàn)實(shí)分解和組織成有用的抽象表示。

在例如姿態(tài)模擬的任務(wù)中,抽象表示的不同維度可能編碼了人或機(jī)器人身體的不同關(guān)節(jié)。研究者并沒有手動(dòng)定義人與機(jī)器人關(guān)節(jié)之間的映射(這種映射通常由于人和機(jī)器人的生理差異而模糊不清),而是讓機(jī)器人以端到端的方式進(jìn)行模仿學(xué)習(xí)。當(dāng)模型同時(shí)接受人和機(jī)器人觀察的訓(xùn)練時(shí),即使沒有提供任何人與機(jī)器人的對應(yīng)關(guān)系,模型也可以自然地發(fā)現(xiàn)兩者之間的對應(yīng)關(guān)系。因此,該方法可以得到一種機(jī)器人,無需人與機(jī)器人之間的對應(yīng)關(guān)系,即可模仿人的姿勢。

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

機(jī)器人的自監(jiān)督人類動(dòng)作模擬

上面展示的多對一和高度非線性關(guān)節(jié)映射是端到端學(xué)習(xí)有點(diǎn)的有力證明。在這個(gè)例子中,人的上下運(yùn)動(dòng)涉及許多關(guān)節(jié),而機(jī)器人只需要一個(gè)關(guān)節(jié)。結(jié)果顯示機(jī)器人并沒有使用任何明確的人類姿態(tài)信息,本身就發(fā)現(xiàn)了這種高度復(fù)雜的映射

通過物體語義類別進(jìn)行抓取

上面的實(shí)驗(yàn)展示了人類如何通過演示來制定機(jī)器人的目標(biāo),在這種情況下,機(jī)器人必須解釋任務(wù)的語義:顯著事件和姿勢的相關(guān)特征。如果不向機(jī)器人展示任務(wù)來制定目標(biāo),而是只是通過告訴機(jī)器人要做什么來制定目標(biāo),這該怎么辦呢?這就需要機(jī)器人理解語義,以便識(shí)別世界中哪些物體與用戶指定的語義類別相對應(yīng)。在End-to-End Learning of Semantic Grasping這篇文章中,谷歌的研究者研究了人類手工標(biāo)注的數(shù)據(jù)和機(jī)器人自動(dòng)收集的數(shù)據(jù)的組合如何用于執(zhí)行語義抓取的任務(wù),機(jī)器人必須從與箱子中拾取用戶指定物體,例如“橡皮擦”或“玩具”。

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

為了學(xué)習(xí)如何執(zhí)行語義抓取,機(jī)器人首先通過自主地嘗試拾取各種各樣的物體,收集一個(gè)大量的抓取數(shù)據(jù)集。該數(shù)據(jù)本身可以使機(jī)器人拾取物體,但并不能使機(jī)器人理解如何將物體與其語義標(biāo)簽相關(guān)聯(lián)。為了能夠理解語義,研究者再次使用了適度的人工監(jiān)督。每次機(jī)器人成功抓住一個(gè)物體,機(jī)器人會(huì)對該物體進(jìn)行拍照,如下圖所示。

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

然后,這些圖像的中的一部分由人工進(jìn)行標(biāo)注。由于呈現(xiàn)的圖像展示了物體在抓取姿態(tài)下的標(biāo)準(zhǔn)外觀,因此很容易通過在標(biāo)注的圖片上訓(xùn)練分類器,將這些標(biāo)簽傳遞給剩余的未標(biāo)注的圖像。然后標(biāo)注過的表示圖像即可以告訴機(jī)器人實(shí)際拾取了哪個(gè)物體。在此后機(jī)器人從箱子拾取物體時(shí),可以將抓取時(shí)觀察到的圖像與標(biāo)簽聯(lián)系到一起。

使用這個(gè)標(biāo)記的數(shù)據(jù)集,谷歌的研究者訓(xùn)練了一個(gè)雙流模型,該模型以當(dāng)前獲得的圖像和機(jī)器人將要采取的動(dòng)作為條件,預(yù)測應(yīng)該抓取哪個(gè)物體。研究者采用的雙流模型靈感來源于人類視覺皮層中觀察到的dorsal-ventral分解,其中ventral流負(fù)責(zé)推理物體語義類別,而dorsal流負(fù)責(zé)推理抓取的幾何結(jié)構(gòu)。關(guān)鍵的是,ventral流可以包含由物體(不一定來自機(jī)器人)的標(biāo)記圖像組成的輔助數(shù)據(jù),而dorsal流可以包含不具有語義標(biāo)簽的輔助數(shù)據(jù),從而允許整個(gè)系統(tǒng)更有效地使用更大量的不同類別的標(biāo)簽數(shù)據(jù)。以這種方式,可以將有限數(shù)量的人工標(biāo)記與大量自動(dòng)收集的機(jī)器人數(shù)據(jù)結(jié)合在一起,以便根據(jù)所需的語義類別來抓取對象,如下面的視頻所示:

https://youtu.be/WR5WUKXUQ8U

未來的工作:

實(shí)驗(yàn)顯示了有限的人工標(biāo)注語義標(biāo)簽數(shù)據(jù)可以與由機(jī)器人自動(dòng)收集和標(biāo)記的數(shù)據(jù)相結(jié)合,以使機(jī)器人能夠理解顯著事件,物體類別以及用戶的演示。將來,機(jī)器人系統(tǒng)可以通過用戶標(biāo)注的數(shù)據(jù)和不斷增加自主收集的數(shù)據(jù)集的組合進(jìn)行訓(xùn)練,提高機(jī)器人能力,并減輕設(shè)計(jì)自主機(jī)器人的工程負(fù)擔(dān)。此外,隨著機(jī)器人系統(tǒng)在現(xiàn)實(shí)世界中收集越來越多的自動(dòng)標(biāo)記的數(shù)據(jù),該數(shù)據(jù)不僅可以用于改進(jìn)機(jī)器人系統(tǒng),還可以用于改進(jìn)計(jì)算機(jī)視覺,語音識(shí)別和自然語言處理系統(tǒng)等其他系統(tǒng),這些系統(tǒng)都可以從這樣大的輔助數(shù)據(jù)中得到改進(jìn)。

當(dāng)然,這并不是研究者們第一次考慮機(jī)器人語義學(xué)。自然語言理解,機(jī)器人感知,抓取和模仿學(xué)習(xí)等的廣泛研究工作已經(jīng)考慮了如何在機(jī)器人系統(tǒng)中結(jié)合語義和行為,然而,谷歌的研究者在上面討論的這些實(shí)驗(yàn)可能指向未來在自主機(jī)器人系統(tǒng)結(jié)合自我監(jiān)督和人工標(biāo)注數(shù)據(jù)進(jìn)行工作的一個(gè)可行方向。

致謝:本文中的實(shí)驗(yàn)由下列人員進(jìn)行Pierre Sermanet, Kelvin Xu, Corey Lynch, Jasmine Hsu, Eric Jang, Sudheendra Vijayanarasimhan, Peter Pastor, Julian Ibarz, 以及 Sergey Levine。同時(shí)也感謝Mrinal Kalakrishnan, Ali Yahya, and Yevgen Chebotar 在開門任務(wù)中開發(fā)的學(xué)習(xí)框架,以及 John-Michael Burke在語義抓取實(shí)驗(yàn)中進(jìn)行的實(shí)驗(yàn)設(shè)計(jì)。


想要進(jìn)一步了解的讀者可以閱讀原文:Google Blog,或者閱讀文中所提到的論文:

Unsupervised Perceptual Rewards for Imitation Learning

Time-Contrastive Networks: Self-supervised Learning from Multi-View Observation

更多人工智能學(xué)術(shù)新聞、近期 各大學(xué)術(shù)會(huì)議全方位報(bào)道,請繼續(xù)關(guān)注 雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

看一遍人類動(dòng)作就能模仿,能理解語義的谷歌機(jī)器人登上無監(jiān)督學(xué)習(xí)的新高度

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說