智能体强化学习(Agentic Reinforcement Learning,Agentic RL)的兴起标志着相较于传统应用于大语言模型的强化学习(LLM RL)的一次范式转变。该转变将大语言模型从被动的序列生成器,重新塑造成嵌入于复杂、动态世界中的自主决策智能体。本文通过对比 LLM-RL 中退化的单步马尔可夫决策过程(Markov Decision Process,MDP)与刻画 Agentic RL 的时间扩展型部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP),对这一概念性转变进行了形式化阐述。 在此基础上,我们提出了一套全面的双重分类体系:其一围绕智能体的核心能力展开,包括规划、工具使用、记忆、推理、自我改进与感知;其二则依据这些能力在多样化任务领域中的应用进行组织。本文的核心论点在于,强化学习是将上述能力从静态、启发式的功能模块转化为自适应、鲁棒的智能体行为的关键机制。 为支持并加速未来研究,我们系统整合了当前开放源代码环境、基准测试与研究框架,形成了一份具有实践价值的资源汇编。通过综合分析五百余篇近期研究工作,本文勾勒出这一快速演进领域的整体轮廓,并揭示了将塑造可扩展、通用型人工智能智能体发展的机遇与挑战。
大语言模型(Large Language Models,LLMs)与强化学习(Reinforcement Learning,RL)的快速融合,引发了语言模型在概念建模、训练范式与实际部署方式上的根本性变革。早期的 LLM-RL 范式主要将大语言模型视为静态的条件生成器,通过优化单轮输出以对齐人类偏好或提升基准测试成绩。尽管此类方法在对齐(alignment)与指令跟随方面取得了显著成功,但它们忽视了现实交互场景中所固有的、更广泛的序列决策问题。 这些局限性促使研究视角发生转变:近期工作不再将 LLM 视为被动的文本生成器,而是 increasingly 将其建模为智能体(Agents)——即能够在部分可观测、动态环境中,跨越较长时间尺度进行感知、推理、规划、工具调用、记忆维护以及策略自适应的自主决策主体。我们将这一新兴范式定义为智能体强化学习(Agentic Reinforcement Learning,Agentic RL)。 为更加清晰地区分本文所研究的 Agentic RL 与传统强化学习范式,我们给出如下定义: 智能体强化学习(Agentic RL)是指一种范式:在该范式中,大语言模型不再被视为为单轮输出对齐或基准性能而优化的静态条件生成器,而是被概念化为嵌入于序列决策闭环中的可学习策略。强化学习赋予其规划、推理、工具使用、记忆维护与自我反思等自主智能体能力,从而使其能够在部分可观测、动态环境中涌现出长时程的认知与交互行为。 在第 2 节中,我们将基于形式化符号,对 Agentic RL 与传统 RL 之间的区别进行更加严格的刻画。
与 Agentic RL 相关的既有研究大体可划分为两条相互补充的研究主线:RL 与 LLM 的协同研究,以及 LLM 智能体。
第二条研究主线关注强化学习算法如何被用于提升或对齐大语言模型。其中,一项主要方向是用于训练 LLM 的强化学习(RL for training LLMs),该方向采用在策略方法(如近端策略优化 PPO(Schulman et al., 2017)与群体相对策略优化 GRPO(Shao et al., 2024b))以及离策略方法(如 actor–critic、Q-learning(Mnih et al., 2013)),以增强模型在指令跟随、伦理对齐与代码生成等方面的能力(Srivastava & Aggarwal, 2025;Wang et al., 2025m;2024c)。 互补的研究方向是用于强化学习的 LLM(LLMs for RL),该方向探讨将 LLM 部署为规划器、奖励设计器、目标生成器或信息处理模块,以提升控制环境中的样本效率、泛化能力与多任务规划能力,其系统性分类可参见 Cao et al. (2025c)。 此外,RL 已被广泛融入 LLM 的整个生命周期:从数据生成(Guo et al., 2025b;Wan et al., 2025a)、预训练(Dong et al., 2025a),到后训练与推理阶段(Chow et al., 2025),相关综述可参见 Guo & Wang (2025)。其中最具代表性的方向是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)(Christiano et al., 2017),以及其扩展形式,如基于 AI 反馈的强化学习(RLAIF)(Bai et al., 2022)和直接偏好优化(DPO)(Rafailov et al., 2023)(Wang et al., 2024j;Xiao et al., 2024;Liu et al., 2025k;Srivastava & Aggarwal, 2025)。
基于 LLM 的智能体代表了一种新兴范式,在该范式中,LLM 作为自主或半自主的决策实体(Wang et al., 2025d;Li et al., 2025r),能够围绕复杂目标进行推理、规划与行动执行。近期多项综述从不同视角对该研究版图进行了系统梳理。 例如,Luo et al. (2025a) 提出了以方法论为中心的分类体系,关联了架构基础、协作机制与演化路径;Plaat et al. (2025) 则强调推理、行动与交互是智能体型 LLM 的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的关键范式,已在 Li (2025) 中得到系统讨论,并由 Wang et al. (2024k) 进行了进一步的概念化。 规划与推理策略构成另一支柱性方向,Masterman et al. (2024) 与 Kumar et al. (2025) 等综述总结了诸如“规划–执行–反思”循环等常见设计模式;Tao et al. (2024) 则将该框架拓展至自演化(self-evolution),使智能体能够在较少人类干预的情况下迭代式地改进知识与策略。其他研究方向还涵盖协作式、跨模态与具身化场景,包括多智能体系统(Aratchige & Ilmini, 2025)、多模态融合(Durante et al., 2024),以及融合记忆与感知的类脑架构(Liu et al., 2025a)。
近期关于 LLM 智能体与 RL 增强型 LLM 的研究激增,体现了两种互补视角:一类关注大语言模型作为自主智能体核心所能实现的能力,另一类则聚焦强化学习如何优化其行为。然而,尽管相关工作数量庞大,一种将 LLM 明确建模为嵌入于序列决策过程中的策略优化智能体的统一 Agentic RL 框架仍然缺失。 现有研究往往聚焦于孤立的能力、特定任务领域或定制化环境,且术语使用与评测协议不统一,使得系统性比较与跨领域泛化面临困难。为弥合这一鸿沟,本文提出了一种连贯的综合性视角,将理论基础、算法方法与实际系统紧密连接。 具体而言,我们通过马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP)抽象,对 Agentic RL 进行形式化建模,以区分其与经典 LLM-RL 范式的本质差异;并提出一种以能力为中心的分类体系,将规划、工具使用、记忆、推理、反思(自我改进)与交互等视为可由 RL 优化的核心组件。此外,我们系统整理了支持智能体型 LLM 训练与评测的代表性任务、环境、框架与基准,并在文末讨论了开放挑战与面向可扩展、通用型智能体智能的未来研究方向。 总体而言,本文旨在进一步明确本综述的研究范围: 主要关注:
✔ 强化学习如何在动态环境中赋能基于 LLM 的智能体(或具备智能体特征的 LLM) 不在讨论范围之内(但可能偶有提及):
✗ 面向人类价值对齐的 RL(如用于有害请求拒绝的 RL); ✗ 非基于 LLM 的传统强化学习算法(如 MARL(Huh & Mohapatra, 2024)); ✗ 仅用于提升静态基准测试性能的 RL 方法。
本文的组织结构旨在从概念基础逐步构建对 Agentic RL 的统一理解,并延伸至实际系统实现。第 2 节从 MDP/POMDP 视角形式化刻画向 Agentic RL 的范式转变;第 3 节从能力维度分析 Agentic RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第 4 节探讨其在搜索、GUI 操作、代码生成、数学推理与多智能体系统等领域的应用;第 5 节整合支撑实验与基准评测的开源环境与强化学习框架;第 6 节讨论开放挑战与未来研究方向;第 7 节对全文进行总结。整体结构如图 1 所示。