Vision-Language-Action (VLA) models have emerged as a powerful framework that unifies perception, language, and control, enabling robots to perform diverse tasks through multimodal understanding. However, current VLA models typically contain massive parameters and rely heavily on large-scale robot data pretraining, leading to high computational costs during training, as well as limited deployability for real-time inference. Moreover, most training paradigms often degrade the perceptual representations of the vision-language backbone, resulting in overfitting and poor generalization to downstream tasks. In this work, we present Evo-1, a lightweight VLA model that reduces computation and improves deployment efficiency, while maintaining strong performance without pretraining on robot data. Evo-1 builds on a native multimodal Vision-Language model (VLM), incorporating a novel cross-modulated diffusion transformer along with an optimized integration module, together forming an effective architecture. We further introduce a two-stage training paradigm that progressively aligns action with perception, preserving the representations of the VLM. Notably, with only 0.77 billion parameters, Evo-1 achieves state-of-the-art results on the Meta-World and RoboTwin suite, surpassing the previous best models by 12.4% and 6.9%, respectively, and also attains a competitive result of 94.8% on LIBERO. In real-world evaluations, Evo-1 attains a 78% success rate with high inference frequency and low memory overhead, outperforming all baseline methods. We release code, data, and model weights to facilitate future research on lightweight and efficient VLA models.


翻译:视觉-语言-动作(VLA)模型作为一种强大的框架,通过统一感知、语言与控制,使机器人能够借助多模态理解执行多样化任务。然而,当前的VLA模型通常参数量巨大,且严重依赖大规模机器人数据预训练,导致训练阶段计算成本高昂,实时推理部署能力受限。此外,多数训练范式往往会削弱视觉-语言骨干网络的感知表征能力,造成下游任务中的过拟合与泛化性能下降。本研究提出Evo-1,一种轻量级VLA模型,在无需机器人数据预训练的前提下,既能降低计算开销、提升部署效率,又能保持强劲性能。Evo-1基于原生多模态视觉-语言模型(VLM)构建,引入新型交叉调制扩散Transformer与优化集成模块,共同构成高效架构。我们进一步提出两阶段训练范式,通过渐进式对齐动作与感知,完整保留VLM的表征能力。值得注意的是,仅凭7.7亿参数,Evo-1在Meta-World与RoboTwin基准测试中均取得最先进成果,分别超越先前最佳模型12.4%与6.9%,并在LIBERO基准上获得94.8%的竞争性结果。在真实世界评估中,Evo-1以高推理频率与低内存开销实现78%的成功率,优于所有基线方法。我们公开代码、数据与模型权重,以推动轻量化高效VLA模型的未来研究。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员