1
本文作者: no name | 2016-09-01 17:43 |
應(yīng)用場景導(dǎo)讀:多智能體系統(tǒng),例如移動傳感器、無人運載器等,作為分布式人工智能研究的一個重要分支,由于其具有較強的容錯性、魯棒性和可擴展性等優(yōu)點,被廣泛地應(yīng)用于軍事、工農(nóng)業(yè)生產(chǎn)、醫(yī)學(xué)、交通、服務(wù)等各個領(lǐng)域。多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合,其中每個智能體是一個物理的或抽象的實體,能作用于自身和環(huán)境,并與其它智能體通訊。
標(biāo)題:
具有社會意識的多智能體學(xué)習(xí):面向社會最優(yōu)解
摘要:
在多智能體系統(tǒng)中,學(xué)習(xí)能力對每個智能體來說至關(guān)重要,這關(guān)乎其在動態(tài)環(huán)境中面對未知對手時如何正常反應(yīng)。從系統(tǒng)設(shè)計者的角度說,非常希望智能體能學(xué)會面向社會最優(yōu)解的協(xié)作,同時避免被自私的對手利用。為此,我們提出一種新穎的梯度提升算法(SA-IGA),通過將社會意識納入策略更新過程來加強基本的梯度提升算法。我們從理論上分析了基于動態(tài)系統(tǒng)理論的SA-IGA的學(xué)習(xí)動態(tài),并且SA-IGA在包括對稱游戲的眾多游戲中都有線性動態(tài)。對兩個代表游戲(“囚徒困境”游戲和協(xié)調(diào)游戲)的學(xué)習(xí)動態(tài)進行了詳細分析。在SA-IGA概念的基礎(chǔ)上,我們進一步提出一個基于Q學(xué)習(xí)更新規(guī)則的多智能體學(xué)習(xí)算法,稱為SA-PGA。仿真結(jié)果表明,SA-PGA智能體相比以前面向有條件聯(lián)合行動學(xué)習(xí)者(CJAL)的社會最優(yōu)準(zhǔn)則,可以獲得更高的社會福利,并通過納什均衡解決方案對獨立理性對手具有可抗性。
第一作者簡介:
李曉紅,女,1965年9月出生,工學(xué)博士學(xué)位,天津大學(xué)計算機及信息技術(shù)系、教授,博士生導(dǎo)師。計算機學(xué)會高級會員,ACM會員、軟件工程專委會委員;全國高等學(xué)校計算機教育研究會 常務(wù)理事;天津大學(xué)女工委員,學(xué)院工會副主席。近年來致力于安全軟件工程、可信軟件及信息安全領(lǐng)域的研究工作。
計算機學(xué)會高級會員,ACM會員、軟件工程專委會委員;全國高等學(xué)校計算機教育研究會 常務(wù)理事;國家科技獎勵評審專家;教育部學(xué)位與研究生教育發(fā)展中心學(xué)位論文評審、學(xué)科建設(shè)和評估咨詢專家 ;《計算機學(xué)報》、《計算機科學(xué)》等雜志審稿專家;軟件工程、信息安全相關(guān)領(lǐng)域國際期刊、國際會議審稿專家;計算機學(xué)院學(xué)位委員會委員、學(xué)術(shù)委員會委員、學(xué)科建設(shè)委員會成員、教學(xué)指導(dǎo)委員會委員兼秘書;學(xué)院985專家組成員兼秘書;天津大學(xué)女工委員,學(xué)院工會副主席。
近年來主持或參與完成國家級、省部級以及橫向科研課題近20項,近年來已發(fā)表學(xué)術(shù)論文50余篇,其中學(xué)位與研究生教育重要期刊20多篇,國際會議20多篇,被EI檢索20多篇, SCI檢索6篇。申報國家發(fā)明專利20余項,已授權(quán)6項。軟件著作權(quán)4項。專著1部,獲省部級科技獎1項。現(xiàn)作為項目負責(zé)人主持國家基金重點項目1項(子課題負責(zé)人)、國家基金面上項目1項,天津市基礎(chǔ)重點項目1項、企業(yè)合作項目1項。
via PRICAI 2016
雷鋒網(wǎng)按: 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可禁止轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。