丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給sanman
發(fā)送

0

ASSIA | 中國自動化學會「深度與寬度強化學習」智能自動化學科前沿講習班(一)

本文作者: sanman 2018-06-11 10:23
導語: 中國自動化學會圍繞「深度與寬度強化學習」這一主題,在中科院自動化所成功舉辦第 5 期智能自動化學科前沿講習班

雷鋒網(wǎng) AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學會在中國科學院自動化研究所成功舉辦第 5 期智能自動化學科前沿講習班,主題為「深度與寬度強化學習」。

如何賦予機器自主學習的能力,一直是人工智能領域的研究熱點。在越來越多的復雜現(xiàn)實場景任務中,需要利用深度學習、寬度學習來自動學習大規(guī)模輸入數(shù)據(jù)的抽象表征,并以此表征為依據(jù)進行自我激勵的強化學習,優(yōu)化解決問題的策略。深度與寬度強化學習技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領域中的成功應用,使其被認為是邁向通用人工智能的重要途徑。

本期講習班邀請有澳門大學講座教授,中國自動化學會副理事長陳俊龍,清華大學教授宋士吉,北京交通大學教授侯忠生,國防科技大學教授徐昕,中國中車首席專家楊穎,中科院研究員趙冬斌,清華大學教授季向陽,西安交通大學教授陳霸東,浙江大學教授劉勇,清華大學副教授游科友等十位學者就深度與寬度強化學習技術(shù)在游戲、機器人控制、參數(shù)優(yōu)化、機器視覺等領域中的成功應用進行報告。

雷鋒網(wǎng)AI科技評論在本文中將對 31 日陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告進行介紹。6 月 1 日的精彩報告見下篇文章。

陳俊龍:從深度強化學習到寬度強化學習:結(jié)構(gòu),算法,機遇及挑戰(zhàn)

陳俊龍是澳門大學講座教授,中國自動化學會副理事長,國家千人學者,IEEE Fellow、AAAS Fellow、IAPR Fellow。

本報告討論強化學習的結(jié)構(gòu)及理論,包括馬爾科夫決策過程、強化學習的數(shù)學表達式、策略的構(gòu)建、估計及預測未來的回報。還討論如何用深度神經(jīng)網(wǎng)絡學習來穩(wěn)定學習過程及特征提取、如何利用寬度學習結(jié)構(gòu)跟強化學習結(jié)合。最后討論深度、寬度強化學習帶來的機遇與挑戰(zhàn)。

陳俊龍教授提出的寬度學習系統(tǒng)(Broad Learning System,BLS)是基于將映射特征作為 RVFLNN 輸入的思想設計的。此外,BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)(輸入的增量學習)。BLS 的設計思路為:首先,利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡的「特征節(jié)點」。其次,映射的特征被增強為隨機生成權(quán)重的「增強節(jié)點」。最后,所有映射的特征和增強節(jié)點直接連接到輸出端,對應的輸出系數(shù)可以通過快遞的 Pseudo 偽逆得出。

寬度強化學習相較于深度強化學習需要的訓練時間更短,計算更快的同時準確度也高,并使用額外的節(jié)點來提高準確度,常規(guī)方法則是提高層數(shù)。

陳俊龍教授認為強化學習接下來還要面對安全性和有效性問題,過度擬合等一系列挑戰(zhàn)。

宋士吉:基于強化學習的深海機器人智能搜索與運動控制方法

宋士吉是清華大學自動化系教授,博士生導師,國家 CIMS 工程技術(shù)研究中心研究員。

本報告闡述強化學習在深海機器人智能搜索與運動控制領域的算法研究及其應用,從熱液羽狀流智能搜索與深海機器人運動控制兩個方面開展工作。在熱液羽狀流智能搜索方面,研究基于強化學習和遞歸網(wǎng)絡的羽狀流追蹤算法。利用傳感器采集到的流場與熱液信號信息,將機器人搜索熱液噴口的過程建模為狀態(tài)行為域連續(xù)的馬爾科夫決策過程,通過強化學習算法得到機器人艏向的最優(yōu)控制策略。在深海機器人運動控制方面,研究基于強化學習的軌跡跟蹤與最優(yōu)深度控制算法。在機器人系統(tǒng)模型未知的情況下,將控制問題建模成連續(xù)狀態(tài)動作空間的馬爾可夫決策過程,并構(gòu)建評價網(wǎng)絡與策略網(wǎng)絡,通過確定性策略和神經(jīng)網(wǎng)絡學習得到最優(yōu)控制策略。

侯忠生:數(shù)據(jù)驅(qū)動的自適應學習控制

侯忠生是北京交通大學教授、博導,北京交通大學自動控制系主任。

本報告分為以下 6 個部分:第 1 部分主要介紹數(shù)據(jù)驅(qū)動學習,之所以提出數(shù)據(jù)驅(qū)動學習是為了應付模型未知的場景;第 2 部分主要介紹學習控制,該部分主要介紹了無模型自適應學習控制;第 3 部分主要介紹動態(tài)線性化方法,動態(tài)線性化特點在于它不依賴于模型,結(jié)構(gòu),順序等;第 4 部分是數(shù)據(jù)驅(qū)動自適應控制在時間軸上的應用;第 5 部分數(shù)據(jù)驅(qū)動自適應控制在迭代軸上的應用。第 6 部分是結(jié)論,即基于模型的控制理論收到越來越大的挑戰(zhàn),數(shù)據(jù)驅(qū)動的的控制理論也許可以作為解決方案。

季向陽:強化學習及智能控制與決策

季向陽是清華大學教授,國家杰青,中國青年科技獎獲得者。

本報告主要聚焦于強化學習在智能控制系統(tǒng)中的應用。強化學習(Reinforcement learning)是機器學習中的一個領域,強調(diào)如何基于環(huán)境而行動,以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產(chǎn)生能獲得最大利益的習慣性行為。強化學習通常包括兩個實體 agent 和 environment。兩個實體的交互如下,在 environment 的 state st 下,agent 采取 action at 進而得到 reward rt 并進入 state st+1

本報告主要介紹如何在智能控制與決策中使用強化學習方法。

陳霸東:核自適應濾波與寬度學習

陳霸東是西安交通大學教授、博導,陜西省「百人計劃」特聘教授。

本報告主要聚焦于核自適應濾波與寬度學習相關(guān)內(nèi)容,核自適應濾波器(Kernel Adaptive Filters)是近年來興起的在可再生核希爾伯特空間(RKHS)中實現(xiàn)的一類非線性自適應濾波器,其拓撲結(jié)構(gòu)為線性增長的單隱層神經(jīng)元網(wǎng)絡。其基本思想是:首先,將輸入信號映射到高維核空間;然后,在核空間中推導線性濾波算法;最后,利用核技巧(Kernel Trick)得到原信號空間中非線性濾波算法。與傳統(tǒng)非線性濾波器比較,核自適應濾波器具有以下優(yōu)點:(a)如果選取嚴格正定的 Mercer 核函數(shù),具有萬能逼近能力;(b)性能曲面在高維核空間中具有凸性,因此理論上不具局部極值;(c)隱節(jié)點由數(shù)據(jù)驅(qū)動生成,減少了人工參與;(d)具有自正則性(Self-regularization),可有效防止過擬合。因此,核自適應濾波概念提出以后引起了國內(nèi)外研究者廣泛興趣,越來越多的相關(guān)算法被提出,并被應用到諸多領域。核自適應濾波與最近興起的寬度學習(Broad Learning)關(guān)系密切,可以認為是一類基于核方法的寬度學習算法。本報告將深入系統(tǒng)地闡述核自適應濾波的基本思想、主要算法、性能分析、典型應用,以及如何將其與寬度學習納入統(tǒng)一框架。

陳俊龍、宋士吉、侯忠生、季向陽、陳霸東的 5 場精彩報告介紹如上,敬請期待雷鋒網(wǎng) AI 科技評論的后續(xù)報道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ASSIA | 中國自動化學會「深度與寬度強化學習」智能自動化學科前沿講習班(一)

分享:
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說