当演示专家的潜在奖励功能在任何时候都不能被观察到时,我们解决了在连续控制的背景下模仿学习算法的超参数(HPs)调优的问题。关于模仿学习的大量文献大多认为这种奖励功能适用于HP选择,但这并不是一个现实的设置。事实上,如果有这种奖励功能,就可以直接用于策略训练,而不需要模仿。为了解决这个几乎被忽略的问题,我们提出了一些外部奖励的可能代理。我们对其进行了广泛的实证研究(跨越9个环境的超过10000个代理商),并对选择HP提出了实用的建议。我们的结果表明,虽然模仿学习算法对HP选择很敏感,但通常可以通过奖励功能的代理来选择足够好的HP。

https://www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

成为VIP会员查看完整内容
22

相关内容

专知会员服务
24+阅读 · 2021年7月10日
专知会员服务
48+阅读 · 2021年7月2日
专知会员服务
22+阅读 · 2021年6月26日
专知会员服务
25+阅读 · 2021年6月15日
【ICML2021】来自观察的跨域模仿
专知会员服务
18+阅读 · 2021年5月25日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
Arxiv
0+阅读 · 2021年7月15日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关VIP内容
专知会员服务
24+阅读 · 2021年7月10日
专知会员服务
48+阅读 · 2021年7月2日
专知会员服务
22+阅读 · 2021年6月26日
专知会员服务
25+阅读 · 2021年6月15日
【ICML2021】来自观察的跨域模仿
专知会员服务
18+阅读 · 2021年5月25日
微信扫码咨询专知VIP会员