本文提出了一种具有全局最优保证和复杂度分析的策略梯度法,用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度,它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全局最优。我们进一步开发了一种平滑鲁棒的策略梯度方法,并表明要实现-全局最优,复杂度为O(e−3)。然后我们将我们的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和价值函数的鲁棒行为-评论方法。我们进一步刻画了它在表格设置下的渐近收敛性和样本复杂性。最后,我们提供了仿真结果,以证明我们的方法的鲁棒性。

成为VIP会员查看完整内容
38

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
15+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年5月29日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
【ICML2021】统一鲁棒半监督变分自编码器
专知
1+阅读 · 2021年7月12日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
相关VIP内容
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
15+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年5月29日
相关资讯
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员