We converted the recently developed BabyAI grid world platform to a sender/receiver setup in order to test the hypothesis that established deep reinforcement learning techniques are sufficient to incentivize the emergence of a grounded discrete communication protocol between generalized agents. This is in contrast to previous experiments that employed straight-through estimation or specialized inductive biases. Our results show that these can indeed be avoided, by instead providing proper environmental incentives. Moreover, they show that a longer interval between communications incentivized more abstract semantics. In some cases, the communicating agents adapted to new environments more quickly than a monolithic agent, showcasing the potential of emergent communication for transfer learning and generalization in general.


翻译:我们将最近开发的 BabyAI 网格世界平台转换成发件人/接收人设置,以测试建立深层强化学习技术的假设,足以激励普遍化物剂之间出现有根有根的离散通信协议。这与以往采用直线估计或专门引导偏差的实验形成鲜明对比。我们的结果表明,通过提供适当的环境激励措施,这些的确可以避免。此外,这些结果表明,通信之间的间隔更长了激励性更抽象的语义学。在某些情况下,通信代理器比单一媒介更快地适应新环境,展示了新兴通信在一般传输学习和普及方面的潜力。

0
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
109+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
已删除
将门创投
4+阅读 · 2017年12月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
3+阅读 · 2018年10月8日
Arxiv
3+阅读 · 2018年4月11日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
已删除
将门创投
4+阅读 · 2017年12月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员