引言

具身智能体(Embodied Agent)是一类通用型智能体,能够理解人类的自然语言指令,并在多样化的环境中执行广泛的任务。近年来,基础模型(Foundation Models) 的崛起极大推动了具身智能体的发展,使其在目标理解、子目标分解、动作序列规划以及状态转移建模(即从前置条件到结果效应的因果转变)等能力上取得显著突破。 我们将基础模型分为三大类: 1. 大语言模型(Large Language Models, LLMs); 1. 视觉语言模型(Vision-Language Models, VLMs); 1. 视觉语言动作模型(Vision-Language-Action Models, VLAs)

在本教程中,我们将全面回顾支撑具身智能体的各类基础模型范式,并基于机器人学习的数学框架——马尔可夫决策过程(Markov Decision Process, MDP)——系统分析这些模型在智能体决策过程中的不同建模方式。通过这种结构化视角,我们旨在揭示智能体从感知到行动的决策机制。 本教程将系统综述基础模型在具身智能体领域的最新进展,对不同类型模型进行比较与设计空间分析,以指导未来研究方向。重点内容包括: * 低层次环境编码与交互(Lower-Level Environment Encoding and Interaction):探讨基础模型如何实现多模态感知、动作执行及反馈闭环; * 长时序决策(Longer-Horizon Decision Making):分析智能体如何通过分层规划与策略生成,实现跨任务、跨场景的可泛化决策。

本教程的目标是为研究者提供一个系统的理解框架,连接基础模型具身智能体两大研究领域,推动智能体从感知、理解到行动的全链条智能发展。

成为VIP会员查看完整内容
2

相关内容

LLM/智能体作为数据分析师:综述
专知会员服务
30+阅读 · 9月30日
【伯克利博士论文】超越人类监督的视觉智能
专知会员服务
27+阅读 · 8月12日
【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 7月13日
【新书】合成数据与生成式人工智能
专知会员服务
47+阅读 · 2月9日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
大模型工具学习探索
专知会员服务
166+阅读 · 2023年12月28日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
31+阅读 · 2022年10月17日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【混合智能】有关军事混合智能的思考
产业智能官
14+阅读 · 2020年5月17日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 10月20日
Arxiv
0+阅读 · 10月20日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2021年2月26日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
19+阅读 · 2018年10月25日
VIP会员
相关VIP内容
LLM/智能体作为数据分析师:综述
专知会员服务
30+阅读 · 9月30日
【伯克利博士论文】超越人类监督的视觉智能
专知会员服务
27+阅读 · 8月12日
【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 7月13日
【新书】合成数据与生成式人工智能
专知会员服务
47+阅读 · 2月9日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
大模型工具学习探索
专知会员服务
166+阅读 · 2023年12月28日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
31+阅读 · 2022年10月17日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【混合智能】有关军事混合智能的思考
产业智能官
14+阅读 · 2020年5月17日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
相关基金
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 10月20日
Arxiv
0+阅读 · 10月20日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2021年2月26日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
19+阅读 · 2018年10月25日
微信扫码咨询专知VIP会员