元强化学习算法可以利用以前的经验来学习如何学习,从而使机器人更快地获得新技能。然而,目前关于元强化学习的研究大多集中在非常狭窄的任务分布上。例如,一个常用的元强化学习基准将模拟机器人的不同跑步速度作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,它们不可能推广到更快地获得全新的任务。因此,如果这些方法的目标是能够更快地获得全新的行为,我们就必须在任务分布上评估它们,任务分布必须足够广泛,以使新行为普遍化。

成为VIP会员查看完整内容
43

相关内容

Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境!
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
增强学习算法讲解:马尔可夫决策过程MDP
数据挖掘入门与实战
7+阅读 · 2018年4月22日
Arxiv
1+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月6日
VIP会员
相关资讯
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
增强学习算法讲解:马尔可夫决策过程MDP
数据挖掘入门与实战
7+阅读 · 2018年4月22日
相关论文
Arxiv
1+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月6日
微信扫码咨询专知VIP会员