0
本文作者: sanman | 2018-06-11 10:23 |
雷鋒網(wǎng) AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學(xué)會在中國科學(xué)院自動化研究所成功舉辦第 5 期智能自動化學(xué)科前沿講習(xí)班,主題為「深度與寬度強化學(xué)習(xí)」。
如何賦予機器自主學(xué)習(xí)的能力,一直是人工智能領(lǐng)域的研究熱點。在越來越多的復(fù)雜現(xiàn)實場景任務(wù)中,需要利用深度學(xué)習(xí)、寬度學(xué)習(xí)來自動學(xué)習(xí)大規(guī)模輸入數(shù)據(jù)的抽象表征,并以此表征為依據(jù)進行自我激勵的強化學(xué)習(xí),優(yōu)化解決問題的策略。深度與寬度強化學(xué)習(xí)技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領(lǐng)域中的成功應(yīng)用,使其被認為是邁向通用人工智能的重要途徑。
本期講習(xí)班邀請有澳門大學(xué)講座教授,中國自動化學(xué)會副理事長陳俊龍,清華大學(xué)教授宋士吉,北京交通大學(xué)教授侯忠生,國防科技大學(xué)教授徐昕,中國中車首席專家楊穎,中科院研究員趙冬斌,清華大學(xué)教授季向陽,西安交通大學(xué)教授陳霸東,浙江大學(xué)教授劉勇,清華大學(xué)副教授游科友等十位學(xué)者就深度與寬度強化學(xué)習(xí)技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領(lǐng)域中的成功應(yīng)用進行報告。
雷鋒網(wǎng)AI科技評論在本文中將對 31 日陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告進行介紹。6 月 1 日的精彩報告見下篇文章。
陳俊龍是澳門大學(xué)講座教授,中國自動化學(xué)會副理事長,國家千人學(xué)者,IEEE Fellow、AAAS Fellow、IAPR Fellow。
本報告討論強化學(xué)習(xí)的結(jié)構(gòu)及理論,包括馬爾科夫決策過程、強化學(xué)習(xí)的數(shù)學(xué)表達式、策略的構(gòu)建、估計及預(yù)測未來的回報。還討論如何用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來穩(wěn)定學(xué)習(xí)過程及特征提取、如何利用寬度學(xué)習(xí)結(jié)構(gòu)跟強化學(xué)習(xí)結(jié)合。最后討論深度、寬度強化學(xué)習(xí)帶來的機遇與挑戰(zhàn)。
陳俊龍教授提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)是基于將映射特征作為 RVFLNN 輸入的思想設(shè)計的。此外,BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)(輸入的增量學(xué)習(xí))。BLS 的設(shè)計思路為:首先,利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡(luò)的「特征節(jié)點」。其次,映射的特征被增強為隨機生成權(quán)重的「增強節(jié)點」。最后,所有映射的特征和增強節(jié)點直接連接到輸出端,對應(yīng)的輸出系數(shù)可以通過快遞的 Pseudo 偽逆得出。
寬度強化學(xué)習(xí)相較于深度強化學(xué)習(xí)需要的訓(xùn)練時間更短,計算更快的同時準確度也高,并使用額外的節(jié)點來提高準確度,常規(guī)方法則是提高層數(shù)。
陳俊龍教授認為強化學(xué)習(xí)接下來還要面對安全性和有效性問題,過度擬合等一系列挑戰(zhàn)。
宋士吉是清華大學(xué)自動化系教授,博士生導(dǎo)師,國家 CIMS 工程技術(shù)研究中心研究員。
本報告闡述強化學(xué)習(xí)在深海機器人智能搜索與運動控制領(lǐng)域的算法研究及其應(yīng)用,從熱液羽狀流智能搜索與深海機器人運動控制兩個方面開展工作。在熱液羽狀流智能搜索方面,研究基于強化學(xué)習(xí)和遞歸網(wǎng)絡(luò)的羽狀流追蹤算法。利用傳感器采集到的流場與熱液信號信息,將機器人搜索熱液噴口的過程建模為狀態(tài)行為域連續(xù)的馬爾科夫決策過程,通過強化學(xué)習(xí)算法得到機器人艏向的最優(yōu)控制策略。在深海機器人運動控制方面,研究基于強化學(xué)習(xí)的軌跡跟蹤與最優(yōu)深度控制算法。在機器人系統(tǒng)模型未知的情況下,將控制問題建模成連續(xù)狀態(tài)動作空間的馬爾可夫決策過程,并構(gòu)建評價網(wǎng)絡(luò)與策略網(wǎng)絡(luò),通過確定性策略和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到最優(yōu)控制策略。
侯忠生是北京交通大學(xué)教授、博導(dǎo),北京交通大學(xué)自動控制系主任。
本報告分為以下 6 個部分:第 1 部分主要介紹數(shù)據(jù)驅(qū)動學(xué)習(xí),之所以提出數(shù)據(jù)驅(qū)動學(xué)習(xí)是為了應(yīng)付模型未知的場景;第 2 部分主要介紹學(xué)習(xí)控制,該部分主要介紹了無模型自適應(yīng)學(xué)習(xí)控制;第 3 部分主要介紹動態(tài)線性化方法,動態(tài)線性化特點在于它不依賴于模型,結(jié)構(gòu),順序等;第 4 部分是數(shù)據(jù)驅(qū)動自適應(yīng)控制在時間軸上的應(yīng)用;第 5 部分數(shù)據(jù)驅(qū)動自適應(yīng)控制在迭代軸上的應(yīng)用。第 6 部分是結(jié)論,即基于模型的控制理論收到越來越大的挑戰(zhàn),數(shù)據(jù)驅(qū)動的的控制理論也許可以作為解決方案。
季向陽是清華大學(xué)教授,國家杰青,中國青年科技獎獲得者。
本報告主要聚焦于強化學(xué)習(xí)在智能控制系統(tǒng)中的應(yīng)用。強化學(xué)習(xí)(Reinforcement learning)是機器學(xué)習(xí)中的一個領(lǐng)域,強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。其靈感來源于心理學(xué)中的行為主義理論,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。強化學(xué)習(xí)通常包括兩個實體 agent 和 environment。兩個實體的交互如下,在 environment 的 state st 下,agent 采取 action at 進而得到 reward rt 并進入 state st+1。
本報告主要介紹如何在智能控制與決策中使用強化學(xué)習(xí)方法。
陳霸東是西安交通大學(xué)教授、博導(dǎo),陜西省「百人計劃」特聘教授。
本報告主要聚焦于核自適應(yīng)濾波與寬度學(xué)習(xí)相關(guān)內(nèi)容,核自適應(yīng)濾波器(Kernel Adaptive Filters)是近年來興起的在可再生核希爾伯特空間(RKHS)中實現(xiàn)的一類非線性自適應(yīng)濾波器,其拓撲結(jié)構(gòu)為線性增長的單隱層神經(jīng)元網(wǎng)絡(luò)。其基本思想是:首先,將輸入信號映射到高維核空間;然后,在核空間中推導(dǎo)線性濾波算法;最后,利用核技巧(Kernel Trick)得到原信號空間中非線性濾波算法。與傳統(tǒng)非線性濾波器比較,核自適應(yīng)濾波器具有以下優(yōu)點:(a)如果選取嚴格正定的 Mercer 核函數(shù),具有萬能逼近能力;(b)性能曲面在高維核空間中具有凸性,因此理論上不具局部極值;(c)隱節(jié)點由數(shù)據(jù)驅(qū)動生成,減少了人工參與;(d)具有自正則性(Self-regularization),可有效防止過擬合。因此,核自適應(yīng)濾波概念提出以后引起了國內(nèi)外研究者廣泛興趣,越來越多的相關(guān)算法被提出,并被應(yīng)用到諸多領(lǐng)域。核自適應(yīng)濾波與最近興起的寬度學(xué)習(xí)(Broad Learning)關(guān)系密切,可以認為是一類基于核方法的寬度學(xué)習(xí)算法。本報告將深入系統(tǒng)地闡述核自適應(yīng)濾波的基本思想、主要算法、性能分析、典型應(yīng)用,以及如何將其與寬度學(xué)習(xí)納入統(tǒng)一框架。
陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告介紹如上,敬請期待雷鋒網(wǎng) AI 科技評論的后續(xù)報道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。