丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給sanman
發(fā)送

0

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

本文作者: sanman 2018-06-19 10:21
導(dǎo)語:強化學(xué)習(xí)&寬度學(xué)習(xí)

雷鋒網(wǎng) AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學(xué)會在中國科學(xué)院自動化研究所成功舉辦第 5 期智能自動化學(xué)科前沿講習(xí)班,主題為「深度與寬度強化學(xué)習(xí)」。

如何賦予機器自主學(xué)習(xí)的能力,一直是人工智能領(lǐng)域的研究熱點。在越來越多的復(fù)雜現(xiàn)實場景任務(wù)中,需要利用深度學(xué)習(xí)、寬度學(xué)習(xí)來自動學(xué)習(xí)大規(guī)模輸入數(shù)據(jù)的抽象表征,并以此表征為依據(jù)進行自我激勵的強化學(xué)習(xí),優(yōu)化解決問題的策略。深度與寬度強化學(xué)習(xí)技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領(lǐng)域中的成功應(yīng)用,使其被認為是邁向通用人工智能的重要途徑。

本期講習(xí)班邀請有澳門大學(xué)講座教授,中國自動化學(xué)會副理事長陳俊龍,清華大學(xué)教授宋士吉,北京交通大學(xué)教授侯忠生,國防科技大學(xué)教授徐昕,中國中車首席專家楊穎,中科院研究員趙冬斌,清華大學(xué)教授季向陽,西安交通大學(xué)教授陳霸東,浙江大學(xué)教授劉勇,清華大學(xué)副教授游科友等十位學(xué)者就深度與寬度強化學(xué)習(xí)技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領(lǐng)域中的成功應(yīng)用進行報告。雷鋒網(wǎng) AI 科技評論作為合作媒體針對會議進行報道。會議整體內(nèi)容請參考雷鋒網(wǎng)報道:

第一天:http://www.ozgbdpf.cn/news/201806/GlBY1r2LugLO8Hlo.html

第二天:http://www.ozgbdpf.cn/news/201806/UWOi5uIPcwuMZmTi.html

本篇文章為講習(xí)班報告第一篇,由澳門大學(xué)講座教授,中國自動化學(xué)會副理事長陳俊龍講解,報告題目為:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)。

陳俊龍:澳門大學(xué)講座教授,科技學(xué)院前院長,中國自動化學(xué)會副理事及會士,澳門科學(xué)技術(shù)協(xié)進會副會長,IEEE Fellow,IAPR Fellow,美國科學(xué)促進會AAAS Fellow,國家千人學(xué)者,國家特聘專家。陳教授現(xiàn)任IEEE系統(tǒng)人機及智能學(xué)會的期刊主任。曾任該學(xué)會國際總主席。陳教授主要科研在智能系統(tǒng)與控制,計算智能,混合智能,數(shù)據(jù)科學(xué)方向。在2018年“計算機科學(xué)學(xué)科”高被引用文章數(shù)目學(xué)者中世界排名在前17名。陳教授或IEEE學(xué)會頒發(fā)了4次杰出貢獻獎,是美國工學(xué)技術(shù)教育認證會(ABET)的評審委員。澳門大學(xué)工程學(xué)科及計算機工程獲得國際【華盛頓協(xié)議】的認證是陳教授對澳門工程教育的至高貢獻。擔(dān)任院士期間帶領(lǐng)澳門大學(xué)的工程學(xué)科及計算機學(xué)科雙雙進入世界大學(xué)學(xué)科排名前200名。2016年他獲得母校,美國普渡大學(xué)的杰出電機及計算機工程獎。

陳俊龍教授的報告大致可以分為三個部分。首先討論了強化學(xué)習(xí)的結(jié)構(gòu)及理論,包括馬爾科夫決策過程、強化學(xué)習(xí)的數(shù)學(xué)表達式、策略的構(gòu)建、估計及預(yù)測未來的回報。然后討論了如何用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來穩(wěn)定學(xué)習(xí)過程及特征提取、如何利用寬度學(xué)習(xí)結(jié)構(gòu)跟強化學(xué)習(xí)結(jié)合。最后討論了深度、寬度強化學(xué)習(xí)帶來的機遇與挑戰(zhàn)。

強化學(xué)習(xí)結(jié)構(gòu)與理論

陳教授用下圖簡單描述強化學(xué)習(xí)過程。他介紹道所謂強化學(xué)習(xí)就是智能體在完成某項任務(wù)時,通過動作 A 與環(huán)境(environment)進行交互, 在動作 A 和環(huán)境的作用下,智能體會產(chǎn)生新的狀態(tài),同時環(huán)境會給出一個立即回報。如此循環(huán)下去, 經(jīng)過數(shù)次迭代學(xué)習(xí)后,智能體能最終地學(xué)到完成相應(yīng)任務(wù)的最優(yōu)動作。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

提到強化學(xué)習(xí)就不得不提一下 Q-Learning。接著他又用了一個例子來介紹了強化學(xué)習(xí) Q-Learning 的原理。

Q-learning

原文地址:https://blog.csdn.net/Maggie_zhangxin/article/details/73481417

假設(shè)一個樓層共有 5 個房間,房間之間通過一道門連接,如下圖所示。房間編號為 0~4,樓層外的可以看作是一個大房間,編號 5。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

可以用圖來表示上述的房間,將每一個房間看作是一個節(jié)點,每道門看作是一條邊。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

在任意一個房間里面放置一個智能體,并希望它能走出這棟樓,也可以理解為進入房間 5??梢园堰M入房間 5 作為最后的目標,并為可以直接到達目標房間的門賦予 100 的獎勵值,那些未與目標房間相連的門則賦予獎勵值 0。于是可以得到如下的圖。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

根據(jù)上圖可以得到獎勵表如下,其中-1 代表著空值,表示節(jié)點之間無邊相連。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

再添加一個類似的 Q 矩陣,代表智能體從經(jīng)驗中所學(xué)到的知識。矩陣的行代表智能體當(dāng)前的狀態(tài),列代表到達下一狀態(tài)的可能動作。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

然后陳教授又介紹了 Q-Learning 的轉(zhuǎn)換規(guī)則,即 Q(state, action)=R(state, action) + Gamma * Max(Q[next state, all actions])。

依據(jù)這個公式,矩陣 Q 中的一個元素值就等于矩陣 R 中相應(yīng)元素的值與學(xué)習(xí)變量 Gamma 乘以到達下一個狀態(tài)的所有可能動作的最大獎勵值的總和。

為了具體理解 Q-Learning 是怎樣工作的,陳教授還舉了少量的例子。

首先設(shè)置 Gamma 為 0.8,初始狀態(tài)是房間 1。

對狀態(tài) 1 來說,存在兩個可能的動作:到達狀態(tài) 3,或者到達狀態(tài) 5。通過隨機選擇,選擇到達狀態(tài) 5。智能體到達了狀態(tài) 5,將會發(fā)生什么?觀察 R 矩陣的第六行,有 3 個可能的動作,到達狀態(tài) 1,4 或者 5。根據(jù)公式 Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100,由于矩陣 Q 此時依然被初始化為 0,Q(5, 1), Q(5, 4), Q(5, 5) 全部是 0,因此,Q(1, 5) 的結(jié)果是 100,因為即時獎勵 R(1,5) 等于 100。下一個狀態(tài) 5 現(xiàn)在變成了當(dāng)前狀態(tài),因為狀態(tài) 5 是目標狀態(tài),故算作完成了一次嘗試。智能體的大腦中現(xiàn)在包含了一個更新后的 Q 矩陣。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

對于下一次訓(xùn)練,隨機選擇狀態(tài) 3 作為初始狀態(tài)。觀察 R 矩陣的第 4 行,有 3 個可能的動作,到達狀態(tài) 1,2 和 4。隨機選擇到達狀態(tài) 1 作為當(dāng)前狀態(tài)的動作?,F(xiàn)在,觀察矩陣 R 的第 2 行,具有 2 個可能的動作:到達狀態(tài) 3 或者狀態(tài) 5?,F(xiàn)在計算 Q 值:Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 2), Q(1, 5)] = 0 + 0.8 *Max(0, 100) = 80,使用上一次嘗試中更新的矩陣 Q 得到:Q(1, 3) = 0 以及 Q(1, 5) = 100。因此,計算的結(jié)果是 Q(3,1)=80?,F(xiàn)在,矩陣 Q 如下。

  澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

智能體通過多次經(jīng)歷學(xué)到更多的知識之后,Q 矩陣中的值會達到收斂狀態(tài)。如下。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

通過對 Q 中的所有的非零值縮小一定的百分比,可以對其進行標準化,結(jié)果如下。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

一旦矩陣 Q 接近收斂狀態(tài),我們就知道智能體已經(jīng)學(xué)習(xí)到了到達目標狀態(tài)的最佳路徑。

至此陳教授已經(jīng)把 Q-learning 簡單介紹完了。通過上文的介紹大致可以總結(jié)出強化學(xué)習(xí)的六個特點:

無監(jiān)督,只有獎勵信號

不需要指導(dǎo)學(xué)習(xí)者

不停的試錯

獎勵可能延遲(犧牲短期收益換取更大的長期收益)

需要探索和開拓

目標導(dǎo)向的智能體與不確定的環(huán)境間的交互是個全局性的問題

四個要素:

一、策略:做什么?

1)確定策略:a=π(s)

2)隨機策略:π(a|s)=p[at=a|st=s],st∈S,at∈A(St),∑π(a|s)=1

二、獎勵函數(shù):r(在狀態(tài)轉(zhuǎn)移的同時,環(huán)境會反饋給智能體一個獎勵)

三、累積獎勵函數(shù):V(一個策略的優(yōu)劣取決于長期執(zhí)行這一策略后的累積獎勵),常見的長期累積獎勵如下:

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)


四、模型:用于表示智能體所處環(huán)境,是一個抽象概念,對于行動決策十分有用。

所有的強化學(xué)習(xí)任務(wù)都是馬爾科夫決策過程,陳教授對 MDP 的介紹如下。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

一個馬爾可夫決策過程由一個五元組構(gòu)成 M =(S,A,p,γ,r)。其中 S 是狀態(tài)集,A 是動作集,p 是狀態(tài)轉(zhuǎn)移概率,γ是折扣因子,r 是獎勵函數(shù)。

陳教授在介紹強化學(xué)習(xí)這部分的最后提到了目前強化學(xué)習(xí)面臨的兩大挑戰(zhàn)。

信度分配:之前的動作會影響當(dāng)前的獎勵以及全局獎勵

探索開拓:使用已有策略還是開發(fā)新策略

Q-Learning 可以解決信度分配的問題。第二個問題則可以使用ε-greedy 算法,SoftMax 算法,Bayes bandit 算法,UCB 算法來處理等。

值函數(shù)(對未來獎勵的一個預(yù)測)可分為狀態(tài)值函數(shù)和行為值函數(shù)。

1.狀態(tài)值函數(shù) Vπ(s):從狀態(tài) 出發(fā),按照策略 π 采取行為得到的期望回報,

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

也被稱為 Bellman 方程。

2.行為價值函數(shù) Qπ(s,a):從狀態(tài) s 出發(fā)采取行為 a 后,然后按照策略 π 采取行動得到的期望回報,

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

同樣被稱為動作‐值函數(shù)的 Bellman 方程。

類似的給出了相應(yīng)的最優(yōu)值函數(shù)為

  1. 最優(yōu)值函數(shù) V*(s) 是所有策略上的最大值函數(shù):澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

  2. 最優(yōu)行為值函數(shù) Q*(s,a) 是在所有策略上的最大行為值函數(shù):澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

從而的到 Bellman 最優(yōu)方程:

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

及對應(yīng)的最優(yōu)策略:澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

陳教授介紹了求解強化學(xué)習(xí)的方法,可分為如下兩種情況:

模型已知的方法:動態(tài)規(guī)劃
模型未知的方法:蒙特卡洛方法,時間差分算法

陳教授進一步主要介紹了時間差分算法中兩種不同的方法: 異策略時間差分算法 Q‐learning 和同策略時間差分算法 Sarsa, 兩者的主要區(qū)別在于 at+1 的選擇上的不同,

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

普通的 Q‐learning 是一種表格方法,適用于狀態(tài)空間和動作空間是離散且維數(shù)比較低的情況; 當(dāng)狀態(tài)空間和動作空間是高維連續(xù)的或者出現(xiàn)一個從未出現(xiàn)過的狀態(tài),普通的 Q‐learning 是無法處理的。為了解決這個問題,陳教授進一步介紹了深度強化學(xué)習(xí)方法。

深度強化學(xué)習(xí)

深度強化學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí)的結(jié)合方法, 利用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù),利用強化學(xué)習(xí)的方法進行更新,根據(jù)解決問題思路的不同可分為:
1.基于價值網(wǎng)絡(luò):狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過神經(jīng)網(wǎng)絡(luò)分析后,輸出時當(dāng)前狀態(tài)可能執(zhí)行的所有動作的值函數(shù),即利用神經(jīng)網(wǎng)絡(luò)生成 Q 值。
2.基于策略網(wǎng)絡(luò):狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過神經(jīng)網(wǎng)絡(luò)分析后,輸出的是當(dāng)前狀態(tài)可能采取的動作(確定性策略), 或者是可能采取的每個動作的概率(隨機性策略)。澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

陳 教 授 也 提 到 了 Deepmind 公 司 在 2013 年 的 Playing Atari with Deep Reinforcement Learning (DRL) 提出的 DQN 算法,Deep Q‐learning 是利用深度神經(jīng)網(wǎng)絡(luò)端到端的擬合 Q 值,采用 Q‐learning 算法對值函數(shù)更新。DQN 利用經(jīng)驗回放對強化學(xué)習(xí)過程進行訓(xùn)練, 通過設(shè)置目標網(wǎng)絡(luò)來單獨處理時間差分算法中的 TD 偏差。

基于上面內(nèi)容,陳教授進一步介紹了另外一種經(jīng)典的時間差分算法,即 ActorCritic 的方法,該方法結(jié)合了值函數(shù)(比如 Q learning)和策略搜索算法(Policy Gradients)的優(yōu)點,其中 Actor 指策略搜索算法,Critic 指 Qlearning 或者其他的以值為基礎(chǔ)的學(xué)習(xí)方法,因為 Critic 是一個以值為基礎(chǔ)的學(xué)習(xí)法,所以可以進行單步更新,計算每一步的獎懲值,與傳統(tǒng)的 PolicyGradients 相比提高了學(xué)習(xí)效率,策略結(jié)構(gòu) Actor,主要用于選擇動作; 而值函數(shù)結(jié)構(gòu) Critic 主要是用于評價 Actor 的動作,agent 根據(jù) Actor 的策略來選擇動作,并將該動作作用于環(huán)境,Critic 則根據(jù)環(huán)境給予的立即獎賞,根據(jù)該立即獎賞來更新值函數(shù),并同時計算值函數(shù)的時間差分誤差 TD-error,通過將 TDerror 反饋給行動者 actor,指導(dǎo) actor 對策略進行更好的更新,從而使得較優(yōu)動作的選擇概率增加,而較差動作的選擇概率減小。

寬度學(xué)習(xí)

雖然深度結(jié)構(gòu)網(wǎng)絡(luò)非常強大,但大多數(shù)網(wǎng)絡(luò)都被極度耗時的訓(xùn)練過程所困擾。首先深度網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜并且涉及到大量的超參數(shù)。另外,這種復(fù)雜性使得在理論上分析深層結(jié)構(gòu)變得極其困難。另一方面,為了在應(yīng)用中獲得更高的精度,深度模型不得不持續(xù)地增加網(wǎng)絡(luò)層數(shù)或者調(diào)整參數(shù)個數(shù)。因此,為了提高訓(xùn)練速度,寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法,同時,如果網(wǎng)絡(luò)需要擴展,模型可以通過增量學(xué)習(xí)高效重建。陳教授還強調(diào),在提高準確率方面,寬度學(xué)習(xí)是增加節(jié)點而不是增加層數(shù)?;趶娀瘜W(xué)習(xí)的高效性,陳教授指出可以將寬度學(xué)習(xí)與強化學(xué)習(xí)結(jié)合產(chǎn)生寬度強化學(xué)習(xí)方法,同樣也可以嘗試應(yīng)用于文本生成、機械臂抓取、軌跡跟蹤控制等領(lǐng)域。 

報告的最后陳教授在強化學(xué)習(xí)未來會面臨的挑戰(zhàn)中提到了如下幾點:

安全有效的探索

過擬合問題

多任務(wù)學(xué)習(xí)問題

獎勵函數(shù)的選擇問題

不穩(wěn)定性問題

陳教授本次報告深入淺出的介紹了強化學(xué)習(xí)的相關(guān)概念,但對寬度學(xué)習(xí)的介紹并不多,寬度學(xué)習(xí)的概念可以參考這兩篇文章:澳門大學(xué)陳俊龍 | 寬度學(xué)習(xí)系統(tǒng):一種不需要深度結(jié)構(gòu)的高效增量學(xué)習(xí)系統(tǒng),澳門大學(xué)陳俊龍:顛覆縱向的「深度」學(xué)習(xí),寬度學(xué)習(xí)系統(tǒng)如何用橫向擴展進行高效增量學(xué)習(xí)?。

以上就是雷鋒網(wǎng)對于陳俊龍教授本次報告的全部報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

澳門大學(xué)講座教授陳俊龍:從深度強化學(xué)習(xí)到寬度強化學(xué)習(xí):結(jié)構(gòu),算法,機遇及挑戰(zhàn)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說