機(jī)器人走路未必笨拙，DeepMind新方法訓(xùn)練的人工智能走得就很飄逸

本文作者：白及

編輯：楊曉凡

2017-07-12 21:17

導(dǎo)語(yǔ)：無(wú)論是樹木間亂竄的猴子，還是躲避對(duì)手的足球運(yùn)動(dòng)員，他們靈活敏捷的速度，都讓人十分驚嘆。掌握這種復(fù)雜的電機(jī)控制是物理智能研究的方向，是 AI 研究的重要組成部分

雷鋒網(wǎng) AI 科技評(píng)論按：無(wú)論是在樹木間亂竄的猴子，還是躲避對(duì)手和進(jìn)擊目標(biāo)的足球運(yùn)動(dòng)員，他們靈活敏捷的速度，都讓人十分驚嘆。掌握這種復(fù)雜的電機(jī)控制是物理智能研究的方向，是 AI 研究的重要組成部分。

真正的智能電機(jī)需要在一系列復(fù)雜的環(huán)境中，學(xué)習(xí)如何調(diào)節(jié)控制身體使其更加靈活來(lái)完成任務(wù)。目前，很多領(lǐng)域開始研究如何控制模擬人，包括計(jì)算機(jī)動(dòng)畫和生物力學(xué)領(lǐng)域。智能電機(jī)的另一種發(fā)展趨勢(shì)是，使用手工制作的目標(biāo)或運(yùn)動(dòng)捕捉的數(shù)據(jù)來(lái)產(chǎn)生特定的行為。然而，這可能需要相當(dāng)多技術(shù)工作的努力，也可能會(huì)導(dǎo)致智能電機(jī)面對(duì)新任務(wù)時(shí)，難以重新調(diào)整行為。

在以下 3 篇新的論文中，闡述了 DeepMind 已經(jīng)找到了 AI 學(xué)習(xí)靈活行為的方式，這種方式不僅能夠重復(fù)使用，還能解決任務(wù)。

一、豐富的環(huán)境中表現(xiàn)的運(yùn)動(dòng)行為

如果玩 Atari 或 Go 時(shí)，目標(biāo)很容易描述，就是贏。但是你如何描述一個(gè)后空翻表演的過(guò)程？或者僅僅只是單純描述一下“跳”這個(gè)動(dòng)作？當(dāng) DeepMind 把運(yùn)動(dòng)技能教授給人工系統(tǒng)時(shí)，常常會(huì)遇到這個(gè)問(wèn)題，就是很難準(zhǔn)確描述一個(gè)復(fù)雜的行為。 DeepMind 目前的工作就是研究如何在簡(jiǎn)單高水平的目標(biāo)下，使身體能夠從頭開始與環(huán)境相互作用來(lái)完成復(fù)雜的行為，例如向前移動(dòng)而不會(huì)下降。更具體地說(shuō)，他們訓(xùn)練了各種模擬人，讓他們?cè)诓煌牡匦紊线M(jìn)行跳躍，轉(zhuǎn)彎或者蹲伏。結(jié)果顯示，模擬人完成這些復(fù)雜的技能前，并沒(méi)有收到具體的指示。 DeepMind 需要找到一種方法，可以訓(xùn)練系統(tǒng)中明顯不同的模擬人。下面的 GIF 顯示了能夠產(chǎn)生高質(zhì)量的運(yùn)動(dòng)的技術(shù)。

模擬的“平面”步行者反復(fù)嘗試翻墻

機(jī)器人走路未必笨拙，DeepMind新方法訓(xùn)練的人工智能走得就很飄逸

模擬的“螞蟻”步行者在學(xué)習(xí)如何在木板之間精確地跳躍

二、通過(guò)對(duì)抗模仿學(xué)習(xí)人體行為

上述的模擬人解決突發(fā)行為的能力非常強(qiáng)大，但是由于這些動(dòng)作必須從頭開始，所以模擬人的動(dòng)作看起來(lái)和人類行為不太一樣。在 DeepMind 的第 2 篇論文中，闡述了如何通過(guò)運(yùn)動(dòng)捕捉數(shù)據(jù)來(lái)構(gòu)建一個(gè)模仿人類行為的政策網(wǎng)絡(luò)，需要預(yù)先學(xué)習(xí)一些技能，例如步行、起步、跑步和轉(zhuǎn)彎等等。目前，模擬人已經(jīng)產(chǎn)生了類似人類的行為，可以通過(guò)重新調(diào)整這些行為來(lái)完成其他任務(wù)，比如爬樓梯，通過(guò)導(dǎo)航繞過(guò)圍墻等等。

下面的 GIF 可以查看模擬人的行為。

人形步行者產(chǎn)生類似人類的行走行為

機(jī)器人走路未必笨拙，DeepMind新方法訓(xùn)練的人工智能走得就很飄逸

人形步行者摔倒后立即站起來(lái)

三、模擬人模仿人類各種行為

第 3 篇論文提出了構(gòu)建一種最先進(jìn)的生成模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，它能夠?qū)W習(xí)不同行為之間的關(guān)系，并模仿它所顯示的具體動(dòng)作。經(jīng)過(guò)訓(xùn)練之后， DeepMind 的系統(tǒng)可以編碼觀察到的動(dòng)作，還可以創(chuàng)建新的小動(dòng)作。盡管模擬人并沒(méi)有看到動(dòng)作之間的過(guò)渡，依舊可以在不同類型的動(dòng)作之間切換，例如在行走風(fēng)格之間的轉(zhuǎn)換。

GIF 中左側(cè)和中間演示了兩個(gè)行為；GIF 中右側(cè)展示了模擬人在不同行為之間產(chǎn)生了它從未見過(guò)的過(guò)渡

GIF 中左側(cè)平面步行者演示了特定的行走風(fēng)格；GIF 中右側(cè)展示了我們的模擬人使用單一政策網(wǎng)絡(luò)來(lái)模仿這種行走風(fēng)格

實(shí)現(xiàn)模擬人行動(dòng)靈活且適應(yīng)控制是 AI 研究的關(guān)鍵要素。 DeepMind 的工作旨在開發(fā)一套系統(tǒng)，能夠通過(guò)學(xué)習(xí)和調(diào)整技能來(lái)解決電機(jī)控制任務(wù)，同時(shí)減少手動(dòng)工程。 DeepMind 未來(lái)的研究工作主要是擴(kuò)展這些方法，以便在更復(fù)雜的情況下完成更多的任務(wù)。雷鋒網(wǎng) AI 科技評(píng)論也會(huì)繼續(xù)保持關(guān)注。

論文地址：

Emergence of locomotion behaviours in rich environments，https://arxiv.org/abs/1707.02286
Learning human behaviours from motion capture by adversarial imitation，https://arxiv.org/abs/1707.02201
Robust imitation of diverse behaviours，https://arxiv.org/abs/1707.02747

via DeepMind，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。