作为人类,我们的目标和环境在我们的一生中不断变化,这是基于我们的经验、行动以及内在和外在的驱动力。相反,典型的强化学习问题设置考虑的决策过程是跨情景的静态过程。我们能不能开发一种强化学习算法来应对前者中更现实的问题设置的持续变化?虽然策略上的算法(如策略梯度)原则上可以扩展到非平稳设置,但更有效的非策略算法(在学习时回放过去的经验)却不能这么说。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,得出了一个非策略RL算法,可以推理和处理这种终身非平稳性。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几个显示终生非平稳性的模拟环境,并根据经验发现,我们的方法大大优于那些不考虑环境变化的方法。

https://proceedings.mlr.press/v139/xie21c

成为VIP会员查看完整内容
15

相关内容

专知会员服务
35+阅读 · 2021年9月18日
专知会员服务
33+阅读 · 2021年9月7日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
82+阅读 · 2021年5月10日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年9月18日
专知会员服务
33+阅读 · 2021年9月7日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
82+阅读 · 2021年5月10日
微信扫码咨询专知VIP会员