PRICAI 2016國際人工智能大會論文解析 | 探索強化學習中多個動作之間的關(guān)系

本文作者：章敏

2016-08-24 15:33

導語：PRICAI 2016是環(huán)太平洋國際人工智能會議，每兩年舉行一次，大會專注于人工智能的理論，技術(shù)及其在社會領(lǐng)域的應(yīng)用，和其對于太平洋沿岸國家經(jīng)濟的重要性

導讀：PRICAI 2016是環(huán)太平洋國際人工智能會議，每兩年舉行一次，大會專注于人工智能的理論，技術(shù)及其在社會領(lǐng)域的應(yīng)用，和其對于太平洋沿岸國家經(jīng)濟的重要性。

探索強化學習中多個動作之間的關(guān)系（Exploring Multi-action Relationship in Reinforcement Learning）

PRICAI 2016國際人工智能大會論文解析 | 探索強化學習中多個動作之間的關(guān)系

摘要：很多現(xiàn)實生活中的強化學習問題，要求代理同時控制多個行動。在這種情況下進行學習，以前，每一個動作通常和其他動作分開處理。然而，在應(yīng)用中多個行動之間幾乎很少獨立進行，而且利用行動之間潛在的關(guān)系，可能有助于加快學習。本文探討了強化學習中多個行動之間的關(guān)系。我們提出執(zhí)行一個正則項來捕獲多行動之間的關(guān)系。我們將正則項具體化到最小二乘策略迭代和時域差分法中，這有效的解決了凸學習目標。所提出的方法已在幾個領(lǐng)域中被證實有效。實驗結(jié)果顯示具體化多動作之間關(guān)系能有效提高學習性能。

作者簡介

俞楊（Yang Yu）

郵箱：yuy@lamda.nju.edu.cn
職位：南京大學計算機科學與技術(shù)系副教授/LAMDA Group
研究方向：人工智能，進化的機器學習，強化學習
相關(guān)學術(shù)論文：
·High-dimensional derivative-free optimization
·Pareto optimization

汪涵（Han Wang）