Online decision making under uncertainty in partially observable domains, also known as Belief Space Planning, is a fundamental problem in robotics and Artificial Intelligence. Due to an abundance of plausible future unravelings, calculating an optimal course of action inflicts an enormous computational burden on the agent. Moreover, in many scenarios, e.g., information gathering, it is required to introduce a belief-dependent constraint. Prompted by this demand, in this paper, we consider a recently introduced probabilistic belief-dependent constrained POMDP. We present a technique to adaptively accept or discard a candidate action sequence with respect to a probabilistic belief-dependent constraint, before expanding a complete set of future observations samples and without any loss in accuracy. Moreover, using our proposed framework, we contribute an adaptive method to find a maximal feasible return (e.g., information gain) in terms of Value at Risk for the candidate action sequence with substantial acceleration. On top of that, we introduce an adaptive simplification technique for a probabilistically constrained setting. Such an approach provably returns an identical-quality solution while dramatically accelerating online decision making. Our universal framework applies to any belief-dependent constrained continuous POMDP with parametric beliefs, as well as nonparametric beliefs represented by particles. In the context of an information-theoretic constraint, our presented framework stochastically quantifies if a cumulative information gain along the planning horizon is sufficiently significant (e.g. for, information gathering, active SLAM). We apply our method to active SLAM, a highly challenging problem of high dimensional Belief Space Planning. Extensive realistic simulations corroborate the superiority of our proposed ideas.


翻译:在部分可观测域(又称信仰空间规划)的不确定性下进行在线决策,这是机器人和人工智能中一个根本问题。由于未来充满了看似合理的分解,计算最佳行动路线给代理人带来了巨大的计算负担。此外,在许多情形中,例如信息收集中,需要引入一个依赖信仰的制约。根据这一需求,本文件认为最近引入了一种适应性简化技术,以依赖信仰为主的制约POMDP。我们提出了一种技术,以适应性方式接受或放弃一个候选人行动序列,在基于信仰的概率制约方面,在扩大一套完整的未来观察样本之前,而且不造成任何准确的损失。此外,我们利用我们提议的框架,促进一种适应性方法,以最大可行的、可行的回报(例如,信息增益)为候选人行动序列的风险值。此外,我们采用了一种适应性简化技术,以稳定性约束性制约性环境。这样一种方法,在大幅加快在线决策之前,可以返回一个相同的质量解决方案,同时大大加速进行在线决策。我们的全球框架,即以高度的准确的准确性信念规划,将一个持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、稳定的信念的信念的信念的信念的信念的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、不断的信念的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、不断的信念的信念的信念的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、不断的信念的信念的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、不断的信念的信念的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续的信念、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续、持续

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
54+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
54+阅读 · 2020年9月7日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员