Training robot manipulation policies is a challenging and open problem in robotics and artificial intelligence. In this paper we propose a novel and compact state representation based on the rewards predicted from an image-based task success classifier. Our experiments, using the Pepper robot in simulation with two deep reinforcement learning algorithms on a grab-and-lift task, reveal that our proposed state representation can achieve up to 97% task success using our best policies.


翻译:培训机器人操纵政策在机器人和人工智能领域是一个具有挑战性和开放性的问题。 在本文中,我们基于一个基于图像的任务成功分类师所预测的奖赏,提出了一个新的和紧凑的国家代表制。 我们的实验用两个深强化的学习算法模拟“抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓抓 ”, 表明我们拟议的国家代表制可以达到97%的任务成功率。

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2018年10月5日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员