丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

本文作者: 楊曉凡 編輯:郭奕欣 2017-07-13 23:40
導(dǎo)語:強(qiáng)化學(xué)習(xí)設(shè)計環(huán)境不僅高效,還能“利用人性的弱點(diǎn)”

雷鋒網(wǎng) AI 科技評論按:提到“強(qiáng)化學(xué)習(xí)”,大家都知道這是一種讓智能體尋找優(yōu)化策略、從而與環(huán)境互動獲得獎勵的半監(jiān)督學(xué)習(xí)方法。但是在汪軍教授看來,強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域不止如此。

在剛剛結(jié)束的CCF-GAIR 2017大會中,來自倫敦大學(xué)學(xué)院 UCL 計算機(jī)系的汪軍教授在自己的演講 如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)? - 雷鋒網(wǎng) 中提到了一類他們團(tuán)隊(duì)最近正在研究的環(huán)境設(shè)計問題,比如宜家希望自己店鋪空間設(shè)計優(yōu)化,優(yōu)化目標(biāo)可以是環(huán)境中不同位置的人流量平均,這樣各個地方擺放的商品都可以兼顧到;在快遞分揀的場景里,每一個洞對應(yīng)一個不同的目的地,分揀機(jī)器人需要把快遞投入對應(yīng)的洞里,那么就希望分揀機(jī)器人的速度盡量快,這既包括行駛的總路徑要盡量短,也包括路徑之間的交叉要盡量少;共享單車給城市管理帶來不少問題,也需要與實(shí)時需求對應(yīng),合理定價分配資源。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

能夠達(dá)到期望的環(huán)境是需要設(shè)計的,但是很難分析性地用標(biāo)準(zhǔn)設(shè)計方法處理這類復(fù)雜的對象與環(huán)境交互問題,對整個解空間進(jìn)行窮舉演算的計算成本又太高。

汪軍教授在UCL的研究團(tuán)隊(duì),除了教授本人以外還有正在訪問UCL的北大博士生張海峰和上海交通大學(xué)張偉楠帶的團(tuán)隊(duì)。他們發(fā)現(xiàn),這類環(huán)境設(shè)計任務(wù)與一般強(qiáng)化學(xué)習(xí)之間具有對稱性,并打算加以利用:

  • 一般強(qiáng)化學(xué)習(xí):智能體與環(huán)境交互,環(huán)境是相對固定的,智能體學(xué)習(xí)一個優(yōu)化策略,最大化智能體的目標(biāo)函數(shù);

  • 環(huán)境設(shè)計任務(wù):智能體與環(huán)境交互,智能體是相對固定的,環(huán)境學(xué)習(xí)一個優(yōu)化其環(huán)境參數(shù)的策略,最大化環(huán)境的目標(biāo)函數(shù);

那么,真的可以用強(qiáng)化學(xué)習(xí)的方法設(shè)計環(huán)境嗎?假設(shè)答案是肯定的,那么更進(jìn)一步地,一般強(qiáng)化學(xué)習(xí)任務(wù)中的智能體可以根據(jù)不同環(huán)境的特點(diǎn)學(xué)到不同的優(yōu)化策略,那么環(huán)境設(shè)計任務(wù)中,我們是否可以猜想環(huán)境也能夠根據(jù)不同智能體的特點(diǎn),學(xué)會不同的優(yōu)化策略呢?

汪軍老師團(tuán)隊(duì)就在「Learning to Design Games: Strategic Enviroments in Deep Reinforcement Learning」(學(xué)習(xí)設(shè)計游戲:深度強(qiáng)化學(xué)習(xí)設(shè)計策略性環(huán)境)這篇論文中給這兩個問題做出了解答。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

構(gòu)建優(yōu)化目標(biāo)

論文中根據(jù)馬爾可夫決策過程(MDP)和智能體的策略函數(shù)構(gòu)建學(xué)習(xí)范式。

馬爾可夫決策過程是強(qiáng)化學(xué)習(xí)研究中的常用概念, 環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	 (狀態(tài)空間 S,動作空間 A,狀態(tài)轉(zhuǎn)換函數(shù) P,回報函數(shù) R,隨著時間推移的折扣率 γ)。而智能體對狀態(tài)空間中的狀態(tài) s 做出 動作 a,形成自己的策略環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	。強(qiáng)化學(xué)習(xí)的目標(biāo)就是找到讓智能體獲得回報最大的環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	。

在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)用法中,馬爾可夫決策過程 M 是固定的,只有智能體能夠更新自己的策略。為了給模型加上訓(xùn)練環(huán)境的能力,論文中首先把狀態(tài)轉(zhuǎn)換函數(shù) P 參數(shù)化為 Pθ,然后給 M 設(shè)定一個目標(biāo) 環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	,從而把過程函數(shù)改寫為:

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

(方程一,這個方程中允許過程 M 和智能體同時達(dá)成自己的目標(biāo))

為了進(jìn)行具體研究,論文中選取了這樣一種特定情況進(jìn)行闡述:環(huán)境是對抗性的,環(huán)境的目標(biāo)是讓智能體獲得的回報最少。從而,要研究的目標(biāo)函數(shù)為:

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

(方程二,環(huán)境的目標(biāo)為讓智能體的回報最少)

優(yōu)化方法 1 - 轉(zhuǎn)換概率梯度

考慮到許多情況下如上方程二不是解析性的,所以論文中提出了一種轉(zhuǎn)換概率梯度的方法進(jìn)行優(yōu)化。

首先假設(shè)環(huán)境(決策過程)和智能體的參數(shù)都是迭代更新的。每一輪迭代中,環(huán)境沿梯度方向進(jìn)行更新,然后智能體根據(jù)更新后的環(huán)境,更新自己的參數(shù)尋找優(yōu)化策略。

為了找到 θ 的梯度,論文中通過設(shè)計一組馬爾可夫決策策略對的方式,推導(dǎo)出了一組梯度計算方程,從而可以計算梯度進(jìn)行這種迭代更新。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

圖示1:把該方法用于對抗性的迷宮生成的示意圖。智能體嘗試找到從入口(綠色方塊)到出口(紅色方塊)的最短路徑,但是迷宮要讓最短路徑盡可能地長。沿著 θ 更新的方向,迷宮變得復(fù)雜;沿著 φ 更新的方向,智能體找到的路徑變得更短。其中回報定義為穿越迷宮所需步數(shù)的負(fù)數(shù)。

優(yōu)化方法 2:生成式優(yōu)化范式

在推導(dǎo)梯度方程的過程中,作者們發(fā)現(xiàn)這個方程也有不適用的情況:1,受到環(huán)境的天然限制,有時Pθ不是可微的,導(dǎo)致基于策略的方法無法使用;2,轉(zhuǎn)換概率模型需要學(xué)到一個概率分布,導(dǎo)致基于數(shù)值的方法無法使用。

為了解決不適用的問題,作者們提出了一種生成式范式作為梯度方法的替代方法。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

如圖,環(huán)境生成器首先生成一組參數(shù) θ1n,進(jìn)而形成一組不同的環(huán)境。在每一個環(huán)境中都單獨(dú)訓(xùn)練一個智能體獲得最優(yōu)策略,然后在它們各自的環(huán)境中觀察回報G1~Gn,作為生成器更新下一輪參數(shù)的參照。用這樣的方法就可以進(jìn)行環(huán)境的迭代更新。

實(shí)驗(yàn)驗(yàn)證

論文中用迷宮環(huán)境對方法進(jìn)行了測試,需要智能體以最少的步數(shù)從迷宮的左上角走到迷宮的右下角,環(huán)境的目標(biāo)是讓智能體能找到的最短路徑的步數(shù)盡可能多。為了避免生成的墻壁一開始就把智能體堵起來,作者們讓環(huán)境生成器逐步地增加擋墻,并且放棄會困住智能體的方案。

可微環(huán)境

由于正常迷宮的墻壁只有 0 (沒有墻壁)或者 1 (有墻壁)兩種狀態(tài),導(dǎo)致這樣的迷宮是不可微的。論文中就設(shè)計了一種具有概率性墻壁的迷宮,其中的墻壁能夠以一定的概率擋住智能體,這樣就成為了一個可微的環(huán)境。

實(shí)驗(yàn)中使用了OPT(Optimal,最優(yōu))和DQN(Deep Q-network learning)兩種智能體,其中OPT智能體是不會學(xué)習(xí)的,DQN智能體則能夠利用深度神經(jīng)網(wǎng)路把整個地圖作為輸入,從隨機(jī)策略開始學(xué)習(xí)輸出向四個方向的動作。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

如圖中所示,顏色越深的格子表示此處墻壁擋住智能體的可能性越高??梢钥吹?,兩個環(huán)境都學(xué)到了最有效的阻擋位置是在出口附近,同時,由于兩個智能體的特性不同(DQN智能體對環(huán)境的探索更多),所以與DQN智能體互動的環(huán)境更快地找到了近似最優(yōu)的策略,但是從近似最優(yōu)收斂到最優(yōu)卻花了很久。

不可微環(huán)境

在不可微的正常墻壁測試環(huán)境中,論文中還多考慮了一類情況:假設(shè)智能體尋找最優(yōu)路線的能力有限,環(huán)境會如何應(yīng)對?

所以除了剛才的OPT和DQN兩種智能體外,現(xiàn)在又加入了DFS(深度搜索優(yōu)先,“撞到南墻再拐彎”)和RHS(右側(cè)搜索優(yōu)先,保證右側(cè)是墻壁)兩種智能體。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

如圖是環(huán)境生成的不同尺寸的迷宮,可以看到,環(huán)境為不同的智能體生成的迷宮是不一樣的,為OPT(最優(yōu)路徑)智能體生成了狹長無分叉的路徑;為RHS(右手優(yōu)先)智能體生成的迷宮就有很多小的分叉,增大了側(cè)墻的長度;DFS(深度優(yōu)先)智能體幾乎把每個格子都走了兩遍;為使用隨機(jī)策略的DQN智能體生成的迷宮則有一些死胡同。

下面幾張動圖展示了 8x8 的迷宮在智能體的互動中迭代的、逐漸形成以上特征的過程。

迷宮環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法	環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法
智能體OPTDFSRHSDQN

這種情況就表明了環(huán)境生成器可以根據(jù)智能體的弱點(diǎn),針對性地生成環(huán)境。

論文中還有一張學(xué)習(xí)曲線的分析圖,非常清晰地展現(xiàn)了學(xué)習(xí)過程的對抗性。

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

對于具有固定策略的OPT、DFS、RHS三種智能體,隨著訓(xùn)練進(jìn)行,生成器可以在一開始就快速學(xué)到讓步數(shù)變多的策略,然后逐漸進(jìn)行收斂。而DQN智能體則能夠隨著環(huán)境變化不停地更新自己的策略:從學(xué)習(xí)曲線的不斷大幅波動中可以明顯看到,有時候智能體的學(xué)習(xí)速度比環(huán)境學(xué)習(xí)速度快,可以造成所需步數(shù)的大幅度下降。

結(jié)論

這樣,我們在這篇文章開頭提的兩個問題,“能否讓環(huán)境強(qiáng)化學(xué)習(xí)”和“環(huán)境能否根據(jù)不同智能體的特點(diǎn)學(xué)到不同的策略”兩個問題就都得到了肯定的答復(fù)。論文中也表示會進(jìn)一步研究如何運(yùn)用這種方法設(shè)計更多環(huán)境。

論文原文地址:https://arxiv.org/abs/1707.01310  ,雷鋒網(wǎng) AI 科技評論編譯

相關(guān)文章:

專訪阿里多智體協(xié)作網(wǎng)絡(luò)BiCNet作者UCL汪軍教授:多智體研究會不會締造下一個AlphaGo奇跡?

UCL計算機(jī)系教授汪軍:如何進(jìn)行大規(guī)模多智體強(qiáng)化學(xué)習(xí)?| CCF-GAIR 2017

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

環(huán)境也能強(qiáng)化學(xué)習(xí),智能體要找不著北了,UCL汪軍團(tuán)隊(duì)提出環(huán)境設(shè)計的新方法

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說