The Vision-Language-Action (VLA) models have demonstrated remarkable performance on embodied tasks and shown promising potential for real-world applications. However, current VLAs still struggle to produce consistent and precise target-oriented actions, as they often generate redundant or unstable motions along trajectories, limiting their applicability in time-sensitive scenarios.In this work, we attribute these redundant actions to the spatially uniform perception field of existing VLAs, which causes them to be distracted by target-irrelevant objects, especially in complex environments.To address this issue, we propose an efficient PosA-VLA framework that anchors visual attention via pose-conditioned supervision, consistently guiding the model's perception toward task-relevant regions. The pose-conditioned anchor attention mechanism enables the model to better align instruction semantics with actionable visual cues, thereby improving action generation precision and efficiency. Moreover, our framework adopts a lightweight architecture and requires no auxiliary perception modules (e.g., segmentation or grounding networks), ensuring efficient inference. Extensive experiments verify that our method executes embodied tasks with precise and time-efficient behavior across diverse robotic manipulation benchmarks and shows robust generalization in a variety of challenging environments.


翻译:视觉-语言-动作(VLA)模型在具身任务上展现出卓越性能,并显示出在实际应用中的巨大潜力。然而,当前VLA模型仍难以生成一致且精确的目标导向动作,因为它们经常在轨迹上产生冗余或不稳定的运动,这限制了其在时间敏感场景中的适用性。在本研究中,我们将这些冗余动作归因于现有VLA模型空间均匀的感知场,导致其易受目标无关物体的干扰,尤其在复杂环境中。为解决此问题,我们提出了一种高效的PosA-VLA框架,通过姿态条件监督锚定视觉注意力,持续引导模型感知聚焦于任务相关区域。该姿态条件锚点注意力机制使模型能更好地将指令语义与可操作的视觉线索对齐,从而提升动作生成的精确度和效率。此外,我们的框架采用轻量级架构,无需辅助感知模块(如分割或定位网络),确保了推理的高效性。大量实验验证表明,我们的方法在多样化机器人操作基准测试中能以精确且省时的行为执行具身任务,并在各种挑战性环境中展现出鲁棒的泛化能力。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员