引言
具身智能体(Embodied Agent)是一类通用型智能体,能够理解人类的自然语言指令,并在多样化的环境中执行广泛的任务。近年来,基础模型(Foundation Models) 的崛起极大推动了具身智能体的发展,使其在目标理解、子目标分解、动作序列规划以及状态转移建模(即从前置条件到结果效应的因果转变)等能力上取得显著突破。 我们将基础模型分为三大类: 1. 大语言模型(Large Language Models, LLMs); 1. 视觉语言模型(Vision-Language Models, VLMs); 1. 视觉语言动作模型(Vision-Language-Action Models, VLAs)。
在本教程中,我们将全面回顾支撑具身智能体的各类基础模型范式,并基于机器人学习的数学框架——马尔可夫决策过程(Markov Decision Process, MDP)——系统分析这些模型在智能体决策过程中的不同建模方式。通过这种结构化视角,我们旨在揭示智能体从感知到行动的决策机制。 本教程将系统综述基础模型在具身智能体领域的最新进展,对不同类型模型进行比较与设计空间分析,以指导未来研究方向。重点内容包括: * 低层次环境编码与交互(Lower-Level Environment Encoding and Interaction):探讨基础模型如何实现多模态感知、动作执行及反馈闭环; * 长时序决策(Longer-Horizon Decision Making):分析智能体如何通过分层规划与策略生成,实现跨任务、跨场景的可泛化决策。
本教程的目标是为研究者提供一个系统的理解框架,连接基础模型与具身智能体两大研究领域,推动智能体从感知、理解到行动的全链条智能发展。