論文精選 | AI學(xué)習(xí)也要先定個小目標(biāo)，讓人工智能具有社會意識——《具有社會意識的多智能體學(xué)習(xí)：面向社會最優(yōu)解》

本文作者： no name

2016-09-01 17:43

導(dǎo)語：多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合，其中每個智能體是一個物理的或抽象的實體，能作用于自身和環(huán)境，并與其它智能體通訊。

應(yīng)用場景導(dǎo)讀：多智能體系統(tǒng)，例如移動傳感器、無人運載器等，作為分布式人工智能研究的一個重要分支，由于其具有較強的容錯性、魯棒性和可擴展性等優(yōu)點，被廣泛地應(yīng)用于軍事、工農(nóng)業(yè)生產(chǎn)、醫(yī)學(xué)、交通、服務(wù)等各個領(lǐng)域。多智能體系統(tǒng)是由多個具有計算和移動能力的智能體所組成的集合，其中每個智能體是一個物理的或抽象的實體，能作用于自身和環(huán)境，并與其它智能體通訊。

標(biāo)題：

具有社會意識的多智能體學(xué)習(xí)：面向社會最優(yōu)解

摘要：

在多智能體系統(tǒng)中，學(xué)習(xí)能力對每個智能體來說至關(guān)重要，這關(guān)乎其在動態(tài)環(huán)境中面對未知對手時如何正常反應(yīng)。從系統(tǒng)設(shè)計者的角度說，非常希望智能體能學(xué)會面向社會最優(yōu)解的協(xié)作，同時避免被自私的對手利用。為此，我們提出一種新穎的梯度提升算法(SA-IGA)，通過將社會意識納入策略更新過程來加強基本的梯度提升算法。我們從理論上分析了基于動態(tài)系統(tǒng)理論的SA-IGA的學(xué)習(xí)動態(tài)，并且SA-IGA在包括對稱游戲的眾多游戲中都有線性動態(tài)。對兩個代表游戲(“囚徒困境”游戲和協(xié)調(diào)游戲)的學(xué)習(xí)動態(tài)進行了詳細分析。在SA-IGA概念的基礎(chǔ)上，我們進一步提出一個基于Q學(xué)習(xí)更新規(guī)則的多智能體學(xué)習(xí)算法，稱為SA-PGA。仿真結(jié)果表明，SA-PGA智能體相比以前面向有條件聯(lián)合行動學(xué)習(xí)者(CJAL)的社會最優(yōu)準(zhǔn)則，可以獲得更高的社會福利，并通過納什均衡解決方案對獨立理性對手具有可抗性。

第一作者簡介：

李曉紅，女，1965年9月出生，工學(xué)博士學(xué)位，天津大學(xué)計算機及信息技術(shù)系、教授，博士生導(dǎo)師。計算機學(xué)會高級會員，ACM會員、軟件工程專委會委員；全國高等學(xué)校計算機教育研究會常務(wù)理事；天津大學(xué)女工委員，學(xué)院工會副主席。近年來致力于安全軟件工程、可信軟件及信息安全領(lǐng)域的研究工作。

計算機學(xué)會高級會員，ACM會員、軟件工程專委會委員；全國高等學(xué)校計算機教育研究會常務(wù)理事；國家科技獎勵評審專家；教育部學(xué)位與研究生教育發(fā)展中心學(xué)位論文評審、學(xué)科建設(shè)和評估咨詢專家；《計算機學(xué)報》、《計算機科學(xué)》等雜志審稿專家；軟件工程、信息安全相關(guān)領(lǐng)域國際期刊、國際會議審稿專家；計算機學(xué)院學(xué)位委員會委員、學(xué)術(shù)委員會委員、學(xué)科建設(shè)委員會成員、教學(xué)指導(dǎo)委員會委員兼秘書；學(xué)院985專家組成員兼秘書；天津大學(xué)女工委員，學(xué)院工會副主席。

近年來主持或參與完成國家級、省部級以及橫向科研課題近20項，近年來已發(fā)表學(xué)術(shù)論文50余篇，其中學(xué)位與研究生教育重要期刊20多篇，國際會議20多篇，被EI檢索20多篇, SCI檢索6篇。申報國家發(fā)明專利20余項，已授權(quán)6項。軟件著作權(quán)4項。專著1部，獲省部級科技獎1項。現(xiàn)作為項目負責(zé)人主持國家基金重點項目1項（子課題負責(zé)人）、國家基金面上項目1項，天津市基礎(chǔ)重點項目1項、企業(yè)合作項目1項。

via PRICAI 2016

論文原文件下載

雷鋒網(wǎng)按: 本文由雷鋒網(wǎng)獨家編譯，未經(jīng)許可禁止轉(zhuǎn)載！

論文精選 | AI學(xué)習(xí)也要先定個小目標(biāo)，讓人工智能具有社會意識——《具有社會意識的多智能體學(xué)習(xí)：面向社會最優(yōu)解》