In daily life, people often move through spaces to find objects that meet their needs, posing a key challenge in embodied AI. Traditional Demand-Driven Navigation (DDN) handles one need at a time but does not reflect the complexity of real-world tasks involving multiple needs and personal choices. To bridge this gap, we introduce Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN), a new benchmark for long-horizon navigation involving multiple sub-demands with explicit task preferences. To solve TP-MDDN, we propose AWMSystem, an autonomous decision-making system composed of three key modules: BreakLLM (instruction decomposition), LocateLLM (goal selection), and StatusMLLM (task monitoring). For spatial memory, we design MASMap, which combines 3D point cloud accumulation with 2D semantic mapping for accurate and efficient environmental understanding. Our Dual-Tempo action generation framework integrates zero-shot planning with policy-based fine control, and is further supported by an Adaptive Error Corrector that handles failure cases in real time. Experiments demonstrate that our approach outperforms state-of-the-art baselines in both perception accuracy and navigation robustness.


翻译:在日常生活中,人们常通过移动空间寻找满足其需求的物体,这构成了具身人工智能的一个关键挑战。传统的需求驱动导航(DDN)每次仅处理单一需求,未能反映涉及多重需求与个人选择的现实任务的复杂性。为弥补这一差距,我们提出了任务偏好驱动的多需求导航(TP-MDDN),这是一个包含明确任务偏好的多子需求长程导航新基准。为解决TP-MDDN问题,我们提出了AWMSystem——一个由三个关键模块组成的自主决策系统:BreakLLM(指令分解)、LocateLLM(目标选择)和StatusMLLM(任务监控)。针对空间记忆,我们设计了MASMap,该方法将三维点云累积与二维语义建图相结合,以实现精准高效的环境理解。我们的双节奏动作生成框架整合了零样本规划与基于策略的精细控制,并进一步由自适应误差校正器支持,可实时处理失败案例。实验表明,我们的方法在感知精度与导航鲁棒性方面均优于当前最先进的基线模型。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员