The olfactory search POMDP (partially observable Markov decision process) is a sequential decision-making problem designed to mimic the task faced by insects searching for a source of odor in turbulence, and its solutions have applications to sniffer robots. As exact solutions are out of reach, the challenge consists in finding the best possible approximate solutions while keeping the computational cost reasonable. We provide a quantitative benchmarking of a solver based on deep reinforcement learning against traditional POMDP approximate solvers. We show that deep reinforcement learning is a competitive alternative to standard methods, in particular to generate lightweight policies suitable for robots.


翻译:POMDP(部分可见的Markov决策程序)是一个连续决策问题,旨在模仿昆虫在动荡中寻找一种气味来源时所面临的任务,其解决办法适用于嗅探机器人。由于无法找到确切的解决办法,挑战在于找到最佳的近似解决办法,同时保持计算成本的合理性。我们提供了一个基于对传统的POMDP近似溶液进行深入强化学习的求解器的定量基准。我们表明,深强化学习是标准方法的竞争性替代方法,特别是产生适合机器人的轻量级政策。

0
下载
关闭预览

相关内容

机器学习组合优化
专知会员服务
110+阅读 · 2021年2月16日
专知会员服务
54+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
12+阅读 · 2023年1月19日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
机器学习组合优化
专知会员服务
110+阅读 · 2021年2月16日
专知会员服务
54+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员