Motion planning for autonomous driving must handle multiple plausible futures while remaining computationally efficient. Recent end-to-end systems and world-model-based planners predict rich multi-modal trajectories, but typically rely on handcrafted anchors or reinforcement learning to select a single best mode for training and control. This selection discards information about alternative futures and complicates optimization. We propose MAP-World, a prior-free multi-modal planning framework that couples masked action planning with a path-weighted world model. The Masked Action Planning (MAP) module treats future ego motion as masked sequence completion: past waypoints are encoded as visible tokens, future waypoints are represented as mask tokens, and a driving-intent path provides a coarse scaffold. A compact latent planning state is expanded into multiple trajectory queries with injected noise, yielding diverse, temporally consistent modes without anchor libraries or teacher policies. A lightweight world model then rolls out future BEV semantics conditioned on each candidate trajectory. During training, semantic losses are computed as an expectation over modes, using trajectory probabilities as discrete path weights, so the planner learns from the full distribution of plausible futures instead of a single selected path. On NAVSIM, our method matches anchor-based approaches and achieves state-of-the-art performance among world-model-based methods, while avoiding reinforcement learning and maintaining real-time inference latency.


翻译:自动驾驶的运动规划必须处理多种可能的未来情景,同时保持计算效率。近期的端到端系统和基于世界模型的规划器能够预测丰富的多模态轨迹,但通常依赖于手工设计的锚点或强化学习来选择单一最佳模式进行训练和控制。这种选择丢弃了替代未来情景的信息,并使优化复杂化。我们提出MAP-World,一种无先验的多模态规划框架,将掩码动作规划与路径加权世界模型相结合。掩码动作规划(MAP)模块将未来自车运动视为掩码序列补全任务:过去路径点编码为可见标记,未来路径点表示为掩码标记,驾驶意图路径提供粗略骨架。紧凑的潜在规划状态通过注入噪声扩展为多个轨迹查询,无需锚点库或教师策略即可生成多样且时序一致的模态。轻量级世界模型随后基于每个候选轨迹展开未来鸟瞰图语义预测。训练过程中,语义损失通过模态期望计算,以轨迹概率作为离散路径权重,使规划器能够从全部合理未来分布中学习,而非仅依赖单一选定路径。在NAVSIM数据集上,本方法性能与基于锚点的方法相当,并在基于世界模型的方法中达到最先进水平,同时避免了强化学习并保持实时推理延迟。

0
下载
关闭预览

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员