丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

人工智能正文

發(fā)私信給汪思穎

發(fā)送

0

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

本文作者：汪思穎

編輯：郭奕欣

2018-03-02 14:49

導(dǎo)語：通過最少的知識學(xué)習(xí)復(fù)雜的控制問題仍然是個難題，但 DeepMind 的最新研究讓我們看到了解決的曙光

雷鋒網(wǎng) AI 科技評論按：對于智能體來說，從零開始，通過最少的知識學(xué)習(xí)復(fù)雜的控制問題是一個眾所周知的挑戰(zhàn)。日前，DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法「調(diào)度輔助控制」（Scheduled Auxiliary Control (SAC-X)），教智能體從零開始學(xué)會控制，他們試圖通過這種學(xué)習(xí)范式來克服智能體的控制問題。

雷鋒網(wǎng) AI 科技評論將原文編譯整理如下：

不管你讓小孩還是大人整理物品，他們很大可能都不會乖乖聽你的話，如果想要讓 AI 智能體進(jìn)行整理收拾，那就更難了。如果想成功，需要掌握如下幾個核心視覺運(yùn)動技能：接近物體，抓住并舉起它，打開盒子，把物體放進(jìn)去。而更復(fù)雜的是，執(zhí)行這些技能時，必須按照正確的順序。

對于一些控制類的任務(wù)，比如整理桌面或堆疊物體，智能體需要在協(xié)調(diào)它的模擬手臂和手指的九個關(guān)節(jié)時，做到三個 W，即如何（how），何時（when）以及在哪里（where），以便正確地移動，最終完成任務(wù)。

在任何給定的時間內(nèi)，需要明確各種可能的運(yùn)動組合的數(shù)量，以及執(zhí)行一長串正確動作，這些需求引申出一個嚴(yán)肅的問題，這成為強(qiáng)化學(xué)習(xí)中一個特別有趣的研究領(lǐng)域。

諸如獎賞塑形（reward shaping）、學(xué)徒學(xué)習(xí)（Apprenticeship learning）或從演示中學(xué)習(xí)（Learning from Demonstration）等技術(shù)可以幫助解決這個問題。然而，這些方法依賴于大量與任務(wù)相關(guān)的知識，而從零開始，通過最少的預(yù)先知識學(xué)習(xí)復(fù)雜的控制問題仍然是一個眾所周知的挑戰(zhàn)。

我們最近的論文提出了一種新的學(xué)習(xí)范式，叫做「調(diào)度輔助控制」（Scheduled Auxiliary Control (SAC-X)），我們試圖通過這種學(xué)習(xí)范式來克服這個問題。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

SAC-X 是基于從頭開始學(xué)習(xí)復(fù)雜的任務(wù)這種想法，即一個智能體首先應(yīng)該學(xué)習(xí)并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調(diào)能力和平衡能力，為智能體提供與簡單技能相對應(yīng)的內(nèi)在目標(biāo)（具有輔助作用），這會增加它理解和執(zhí)行更復(fù)雜任務(wù)的可能性。

我們在幾個模擬和真實(shí)的機(jī)器人任務(wù)中演示了 SAC-X 法，包括不同物體的堆疊，將物體放到盒子里。我們定義的輔助任務(wù)遵循一般原則：鼓勵智能體探索其感應(yīng)空間。

例如，激活手指上的觸覺傳感器，感知手腕的力度，利用本體感應(yīng)器將關(guān)節(jié)角度調(diào)到最大，在視覺傳感器范圍內(nèi)強(qiáng)制性移動物體。對于每個任務(wù)，如果實(shí)現(xiàn)目標(biāo)，會提供相應(yīng)的簡單獎勵。沒實(shí)現(xiàn)目標(biāo)的話，獎勵為零。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

智能體首先學(xué)習(xí)激活手指上的觸覺傳感器，然后移動物體

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

模擬智能體最終掌握復(fù)雜的堆疊任務(wù)

智能體接下來可以自行決定其當(dāng)前的「意圖」，例如下一步做什么?？赡軙且粋€輔助任務(wù)或者是外部定義的目標(biāo)任務(wù)。至關(guān)重要的是，對于目前還沒有使用基于回放的離策略學(xué)習(xí)方法的任務(wù)，該代理可以從獎勵信號中發(fā)現(xiàn)和學(xué)習(xí)。例如，當(dāng)拾取或移動一個物體時，智能體可能會偶然地將物體堆疊起來，觀察到「堆疊獎勵」。一系列簡單的任務(wù)會讓智能體觀察到罕見的外部獎勵，所以讓智能體具有安排意圖的能力至關(guān)重要。

基于收集到的所有的間接知識，智能體會建立一個個性化的學(xué)習(xí)課程。在如此大的領(lǐng)域中，通過這種方法來利用知識非常高效，在只有很少的外部獎勵信號的情況下尤其有用。

通過調(diào)度模塊，智能體會決定接下來的意圖。利用元學(xué)習(xí)算法，調(diào)度器會在訓(xùn)練過程中得到改進(jìn)，該算法試圖最大限度地提高主任務(wù)的進(jìn)程，進(jìn)而顯著提高數(shù)據(jù)效率。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

在探索完許多內(nèi)部輔助任務(wù)之后，智能體學(xué)會了如何堆疊和整理物品

評估表明，SAC-X 能夠從零開始完成我們設(shè)置的所有任務(wù)，這些任務(wù)都是在相同的輔助任務(wù)集下完成的。令人興奮的是，利用 SAC-X，我們實(shí)驗(yàn)室的機(jī)器人手臂能夠成功地從零開始學(xué)習(xí)拾取和擺放。在過去這極具挑戰(zhàn)性，因?yàn)樵诂F(xiàn)實(shí)世界中讓機(jī)器人學(xué)習(xí)需要高效的數(shù)據(jù)，所以流行的方法是預(yù)訓(xùn)練模擬智能體，然后再將這種能力轉(zhuǎn)移到真正的機(jī)器人手臂中。

DeepMind 提出全新強(qiáng)化學(xué)習(xí)算法，教智能體從零開始學(xué)會控制

針對真實(shí)的機(jī)器人手臂， SAC-X 能學(xué)習(xí)如何舉起和移動綠色的立方體，在此之前它從來沒有接觸過這類任務(wù)

我們認(rèn)為 SAC-X 是通向從零學(xué)習(xí)控制任務(wù)的重要一步，只需定義好整體目標(biāo)。SAC-X 允許任意定義輔助任務(wù)，這些任務(wù)可以基于一般的看法（如有意激活傳感器），最終會涵蓋研究人員認(rèn)為重要的任務(wù)。從這方面來說，SAC-X 是一種通用的強(qiáng)化學(xué)習(xí)方法，可以廣泛應(yīng)用于控制和機(jī)器人領(lǐng)域之外的一般稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

論文地址：https://arxiv.org/abs/1802.10567

雷鋒網(wǎng) AI 科技評論編譯整理。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

分享：

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

蘋果特斯拉融資阿里金融科技電動車 GAIR Lumia 反壟斷 BlackBerry PS4

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說