具身智能(Embodied AI)旨在发展能够具备物理形态、并能在真实环境中进行感知、决策、行动与学习的智能系统,这为通用人工智能(AGI)的实现提供了一条有前景的路径。尽管经过数十年的探索,具身智能体在开放动态环境中执行通用任务时,仍然难以达到人类水平的智能。近年来,大模型的突破性进展彻底革新了具身智能,显著增强了其在感知、交互、规划与学习方面的能力。 本文对大模型赋能的具身智能进行了全面综述,重点聚焦于自主决策具身学习。在决策方面,我们探讨了分层决策端到端决策两类范式:具体而言,大模型如何增强分层决策中的高层规划、低层执行与反馈机制;以及大模型如何提升视觉-语言-行动(Vision-Language-Action, VLA)模型以支持端到端决策。在具身学习方面,我们介绍了主流的学习方法,并深入阐述大模型如何提升模仿学习强化学习。首次地,我们将**世界模型(World Models)**纳入具身智能的综述,介绍其设计方法及其在增强决策与学习中的关键作用。 尽管该领域已取得了实质性进展,但仍然存在诸多挑战。本文最后对这些挑战进行了讨论,并展望了未来可能的研究方向。 附加关键词与短语:具身智能,大模型,分层决策,端到端,模仿学习,强化学习,世界模型

1 引言

具身智能(Embodied AI)[209] 旨在发展具备物理形态的智能系统,使其能够在真实环境中进行感知、决策、行动与学习。该领域认为,真正的智能源于智能体与环境的交互,因此为实现通用人工智能(AGI)[184] 提供了一条前景可期的路径。尽管具身智能的探索已经持续了数十年,但要赋予智能体类人水平的智能,使其能够在开放、非结构化且动态的环境中执行通用任务,仍然面临巨大挑战。 早期的具身智能系统[21, 200] 基于符号推理与行为主义,依赖僵化的预编程规则,因而表现出有限的适应性与表层智能。尽管机器人已广泛应用于制造、物流和特定操作,但它们的功能依然局限于可控环境。机器学习[133],尤其是深度学习[99] 的进展,为具身智能带来了重要转折点。基于视觉引导的规划和基于强化学习的控制[173] 显著降低了智能体对精确环境建模的依赖。然而,这些模型往往依赖任务特定的数据集进行训练,在泛化性与可迁移性方面仍然存在不足,限制了其在多样化场景下的适应能力。 近年来,大模型[149, 150, 182, 183] 的突破性进展显著提升了具身智能的能力。凭借更强的感知、交互与规划能力,这些模型为通用型具身智能体[137] 的发展奠定了基础。然而,大模型赋能的具身智能仍处于萌芽阶段,在泛化性、可扩展性以及无缝环境交互方面依旧面临挑战[177]。因此,亟需对近年来大模型赋能具身智能的研究进行全面、系统的综述,以揭示其差距、挑战与机遇,从而推动 AGI 的实现。 通过对相关领域的系统调研,我们发现现有研究分散、主题复杂,但缺乏系统性分类。已有综述大多聚焦于大模型自身,例如大语言模型(LLM)[29, 151, 225] 与视觉语言模型(VLM)[104, 113, 191],而较少关注大模型与具身智能体的协同作用。即便有些综述涉及该方向,它们也往往集中于特定组件,如规划[188]、学习[7, 26, 204]、模拟器[201]与应用[157, 201, 209],而缺乏对整体范式及各组件如何交互以提升智能的系统性分析。此外,一些较早的综述遗漏了最新进展,尤其是自 2024 年以来迅速兴起的视觉-语言-行动(Vision-Language-Action, VLA)模型[117]与端到端决策。例如,综述 [119] 对 VLA 模型进行了详细介绍,但缺少与分层范式的比较以及对学习方法的深入探讨。同时,由于该领域发展迅速,早期的综述[48, 220] 已难以跟上最新研究。 在本文中,我们聚焦于大模型赋能的具身智能中的决策与学习,对相关研究进行分析与分类,厘清最新进展,指出尚存挑战与未来方向,为研究者提供清晰的理论框架与实践指导。我们与相关综述的对比见表1。 本文的主要贡献如下: 1. 从具身智能视角探讨大模型赋能。 在分层决策方面,具身智能涉及高层规划、低层执行与反馈增强,我们据此对相关工作进行回顾与分类。在端到端决策方面,具身智能依赖于 VLA 模型,因此我们综述 VLA 模型及其增强方法。在具身学习方面,我们重点考察模仿学习(IL)与强化学习(RL):在 IL 中,大模型如何赋能策略与网络构建;在 RL 中,大模型如何赋能奖励函数设计与策略网络构建。 1. 全面综述具身决策与具身学习。 本文不仅回顾了大模型赋能下的分层与端到端决策范式并进行对比,还系统性地讨论了具身学习方法,包括模仿学习、强化学习,以及迁移学习与元学习。此外,我们首次将**世界模型(World Models)**纳入具身智能的综述,探讨其在决策与学习中的作用。 1. 采用水平与垂直结合的双重分析方法。 水平分析比较了多种方法,包括不同类型的大模型、分层与端到端决策、模仿学习与强化学习,以及多样化的具身学习策略;垂直分析则追踪核心模型或方法的演化过程,阐述其起源、进展与开放问题。这一双重方法论既提供了宏观综述,也带来了对主流方法的深入洞察。

本文的组织结构如图1所示:第2节介绍具身智能的概念,综述大模型并讨论其通用能力提升,随后分析大模型与具身智能的协同关系。第3节探讨分层决策范式,详细阐述大模型如何增强动态高层规划、低层执行与基于反馈的迭代优化。第4节聚焦端到端决策,先介绍并分解 VLA 模型,再探讨在感知、动作生成与部署效率方面的最新增强,并在最后与分层决策进行系统对比。第5节介绍具身学习方法,特别是大模型增强的模仿学习与强化学习。第6节讨论世界模型及其在具身智能决策与学习中的作用。第7节总结开放挑战与未来前景,第8节给出结论。

成为VIP会员查看完整内容
1

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
多智能体协作机制:大语言模型综述
专知会员服务
63+阅读 · 1月14日
医学应用中的可解释人工智能:综述
专知会员服务
35+阅读 · 2024年12月8日
工业机器视觉中的生成式人工智能综述
专知会员服务
48+阅读 · 2024年9月1日
大模型智能体:概念、前沿和产业实践
专知会员服务
73+阅读 · 2024年8月20日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
大规模语言模型的人类偏好学习综述
专知会员服务
41+阅读 · 2024年6月19日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
130+阅读 · 2024年2月6日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
深度学习人体姿态估计算法综述
AI前线
24+阅读 · 2019年5月19日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
476+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
多智能体协作机制:大语言模型综述
专知会员服务
63+阅读 · 1月14日
医学应用中的可解释人工智能:综述
专知会员服务
35+阅读 · 2024年12月8日
工业机器视觉中的生成式人工智能综述
专知会员服务
48+阅读 · 2024年9月1日
大模型智能体:概念、前沿和产业实践
专知会员服务
73+阅读 · 2024年8月20日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
大规模语言模型的人类偏好学习综述
专知会员服务
41+阅读 · 2024年6月19日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
130+阅读 · 2024年2月6日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
深度学习人体姿态估计算法综述
AI前线
24+阅读 · 2019年5月19日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员