近年来,以大模型为代表的新一代人工智能技术实现爆发式突破,其在自然语言处理、多模态交互等领域的能力跃迁,正深刻重构产业发展逻辑,成为推动经济高质量发展的核心驱动力。在此技术浪潮中,AI智能体(AIAgent)作为大模型的原生应用形态,凭借自主感知、规划决策、工具调用与持续学习的核心能力,完成了从技术概念到产业实践的关键跨越。与传统AI工具相比,AI智能体打破了人机交互依赖明确指令的局限,构建起数字世界与物理世界的智能连接桥梁,有效破解了大模型“有脑无手”的落地困境,成为释放人工智能全产业链价值的关键载体。本报告立足“人工智能+”行动深入实施的战略背景,系统梳理AI智能体的技术体系、产业应用现状与生态格局,深入剖析其驱动产业变革的核心机制,全面研判发展面临的瓶颈与突破方向,最终形成兼具理论深度与实践价值的研究结论,为政产学研用各界协同推进AI智能体创新发展、加速新质生产力培育提供决策参考。
摘要: 大型语言模型(LLMs)正迅速从文本生成器演化为强大的问题求解器。然而,许多开放任务要求具备批判性思维、多来源信息整合以及可验证的输出,这些超出了单轮提示或标准的检索增强生成(RAG)所能实现的能力。近期,大量研究开始探索 Deep Research(深度研究,DR),其目标是将 LLM 的推理能力与外部工具(如搜索引擎)相结合,从而使 LLM 具备作为研究型智能体执行复杂、开放式任务的能力。 本综述系统而全面地审视了深度研究系统,包括清晰的发展路线图、基础组成模块、实践层面的实现技术、关键挑战以及未来方向。具体而言,我们的主要贡献如下: (i) 我们形式化提出了一个三阶段的发展路线图,并将深度研究与相关范式区分开来; (ii) 我们介绍了四个关键组成部分:查询规划、信息获取、记忆管理与答案生成,并为每一部分提供了细粒度的子类目体系; (iii) 我们总结了优化技术,包括提示工程、监督微调以及智能体强化学习; (iv) 我们统一整理了评测标准与开放挑战,旨在为未来发展提供指导与推动。 随着深度研究领域的快速演进,我们将持续更新本综述,以反映该领域的最新进展。
经过大规模网页语料训练的大型语言模型(LLMs)正迅速从流畅的文本生成器演化为能够在实际复杂应用中执行长程推理的自主智能体 [224, 83, 465, 288]。它们在多个领域展现出强泛化能力,包括数学推理 [112, 466]、创造性写作 [95] 以及实用的软件工程 [118, 140, 166]。许多现实世界任务本质上是开放式的,要求批判性思维、基于事实的信息,以及能够独立成文的回应。这远远超出了单轮提示或静态参数化知识所能提供的能力范围 [122, 183, 289]。为弥补这一能力缺口,**Deep Research(深度研究,DR)**范式 [237, 97, 66, 481, 125, 202] 应运而生。DR 将 LLM 纳入一个端到端的研究工作流中,该工作流迭代式地分解复杂问题、通过工具使用获取证据,并将经过验证的见解综合为连贯的长篇回答。 尽管该领域发展迅速,但仍缺乏对 DR 的关键组成、技术细节与开放挑战进行系统性分析的全面综述。现有工作 [458, 31] 多集中于相关领域的发展,如检索增强生成(RAG)与基于 Web 的智能体系统 [401, 200, 285, 456, 316]。然而,与 RAG [89, 72] 相比,DR 采用更灵活、更自主的工作流,不依赖手工构建的流水线,并旨在生成连贯且基于证据的报告。因此,对其技术图景进行清晰梳理已成为紧迫但仍具挑战性的任务。本综述通过提供对 DR 的全面综合来填补这一空白:将其核心组件映射到代表性的系统实现上,整合关键技术与评测方法,并为建立一致的基准测试和推动 AI 驱动的研究持续发展奠定基础。 在本综述中,我们提出了一个面向 DR 系统的三阶段发展路线图,展示其从智能体式信息寻求到自主科学发现等广泛应用。基于该路线图,我们总结了常见 DR 系统的任务求解工作流中的关键组成部分。具体而言,我们介绍 DR 的四个基础组件: (i) 查询规划:将初始输入查询分解成一系列更简单的子查询 [250, 426]; (ii) 信息获取:按需调用外部检索、网页浏览或多种工具 [167, 221]; (iii) 记忆管理:通过受控更新或折叠机制保证与任务求解相关的上下文 [243]; (iv) 答案生成:输出具有明确来源标注的综合性结果,例如科学报告。 这一范围区别于标准 RAG [89, 72] 技术,后者通常将检索视为启发式增强步骤,而不具备灵活的研究工作流或更广泛的行动空间。我们同时介绍如何优化 DR 系统以有效协调这些组件,并将现有方法划分为三类: (i) 工作流提示(workflow prompting); (ii) 监督微调(SFT); (iii) 端到端强化学习(RL)。 本文的结构安排如下:第 2 节给出 DR 的明确定义及其边界;第 3 节介绍 DR 的四个关键组成部分;第 4 节介绍构建 DR 系统的技术细节;第 5 节总结重要的评测数据集与资源;第 6 节讨论未来方向中的挑战。 综上,本综述的主要贡献如下: (i) 我们形式化了 DR 的三阶段路线图,并清晰地区分其与标准检索增强生成等相关技术的差异; (ii) 我们介绍了 DR 系统的四个关键组件,并为每一组件提供细粒度的子类目体系,以全面呈现研究循环; (iii) 我们总结了构建 DR 系统的详细优化方法,为工作流提示、监督微调与强化学习提供实践性洞见; (iv) 我们整合评测标准与开放挑战,旨在支持可比性报告并引导未来研究。
Deep Research(DR)旨在赋予大型语言模型(LLMs)一个端到端的研究工作流,使其能够作为智能体,以最少的人类监督生成连贯且基于来源证据的报告。此类系统自动化整个研究循环,涵盖规划、证据获取、分析与报告撰写。 在 DR 框架下,LLM 智能体负责规划查询、从异构来源(如网页、工具、本地文件)获取并过滤证据、维护和更新工作记忆,并综合生成具有可验证性且带有明确引用的回答。下面,我们正式介绍一个三阶段的发展路线图,用以刻画快速演进、以能力为导向的 DR 研究图景,并将其与传统 RAG 范式进行系统对比。
我们将 DR 视为一种能力演进轨迹,而非价值层级。以下三个阶段描绘了系统可可靠执行的能力从“精确证据获取”到“可读分析整合”,再到“形成可辩护洞见”的逐步扩展。
第一阶段的系统主要擅长寻找正确的来源并提取答案,几乎不进行综合。这类系统通常会对用户查询进行重写或分解以提升召回率,检索并重排序候选文档,应用轻量过滤或压缩,并生成带有明确引用、简洁而准确的答案。核心强调点是:忠实于检索内容与可预测的运行效率。 典型应用包括开放域问答 [227, 165]、多跳问答 [425, 344, 265] 以及其他信息寻求任务 [271, 444, 333, 70, 215],这些任务的“真值”通常局限于少量可检索来源。 评测重点包括: * 检索 recall@k * 答案精确匹配 * 引文正确性 * 端到端延迟
体现了该阶段对每 token 的准确性与操作效率的关注。
第二阶段的系统跳脱单点事实提取,能够生成连贯、结构化的报告,整合来自多个异构来源的证据,并处理冲突与不确定性。研究循环在此阶段变得显式迭代:系统规划子问题、从多种原始内容(如 HTML [323]、表格 [44, 226]、图表 [208, 208])检索与抽取关键证据,最终综合为叙事性报告。 典型应用包括市场与竞争分析 [469, 347]、政策简报 [356]、满足复杂约束的行程规划 [331],以及其他长程问答任务 [66, 434, 378, 49]。 评测重点从短文本的表层匹配转向长文本质量,包括: * 细粒度事实性 [43, 216] * 引文可验证性 [310, 86] * 结构连贯性 [21] * 关键点覆盖度 [379]
Phase II 以适度增加的计算与复杂度换取显著提升的清晰度、覆盖度与决策支持能力。
第三阶段代表着 DR 的更广阔、更具野心的发展方向,旨在让智能体推进科学理解与创造,而不仅仅是信息整合。在此阶段,DR 智能体不仅要汇聚证据,还需能够: * 生成假设 [490] * 执行实验验证或消融研究 [223] * 批判已有论点 [498] * 提出新的观点 [386]
典型应用包括论文审稿 [506, 248, 498]、科学发现 [460, 292, 291] 与实验自动化 [362, 472]。 评测重点包括: * 发现的创新性与洞见性 * 论证结构的连贯性 * 结论的可复现性(包括是否能够从引用来源或代码重新推导结果) * 不确定性校准与透明性
许多现实任务本质上是开放式的,需要批判性思维、基于事实的信息,以及可独立成文的回答。这些需求暴露出现有方法(包括传统 RAG 或简单扩大 LLM 参数规模)难以解决的核心局限。以下总结了三类关键挑战:
传统 RAG 工作流基于静态检索,依赖预先索引的语料库 [232, 225]。然而现实任务通常要求主动与动态环境交互,如搜索引擎、Web API、代码执行器等 [487, 223, 362]。 DR 系统扩展了这一范式,使 LLM 能够执行多步、工具增强的交互,从而获取最新信息、执行操作并在数字生态中验证假设。
研究型任务通常包含多子任务协作 [378]、任务上下文管理 [411],以及中间过程的迭代优化 [290]。 DR 通过闭环控制与多轮推理支持智能体实现自主规划、修正与优化,以达成长程目标。
LLM 在开放式任务中容易产生幻觉与不一致性 [109, 471, 123, 13, 52]。 DR 系统通过可验证机制,将自然语言输出与真实证据对齐,从而构建更可靠的人类—智能体交互接口。
Agentic AI(智能体化人工智能)代表了人工智能领域的一场变革性转向。然而,由于其发展速度迅猛,当前学界对其概念的理解仍相对碎片化,常常将现代神经系统与过时的符号模型混为一谈——这一现象被称为“概念性回溯(conceptual retrofitting)”。本综述旨在打破这一混乱,通过提出一个全新的“双范式框架”,将智能体系统划分为两条截然不同的谱系:符号/经典范式(依赖算法规划与持久状态)与神经/生成式范式(依赖随机生成与提示驱动的编排)。
基于对 2018–2025 年间 90 篇研究的 PRISMA 系统综述方法,我们围绕该框架从三个维度展开全面分析: (1) 各范式的理论基础与架构原则; (2) 在医疗、金融与机器人等领域的具体实现,展示应用约束如何决定范式选择; (3) 不同范式特有的伦理与治理挑战,揭示风险模式与缓解策略的差异性。
我们的分析表明,范式选择具有战略性:符号系统在安全关键领域(如医疗)中占据主导,而神经系统则更适用于数据丰富、需要高度适应性的场景(如金融)。此外,我们识别出关键研究缺口,包括:符号系统在治理模型上的显著不足,以及构建混合神经–符号架构的迫切需求。
最终,本研究提出了一条战略路线图,指出智能体化 AI 的未来不在于某一范式的单独取胜,而在于两者的有机融合,以构建既具适应性又具可靠性的系统。此项工作为未来在智能体系统的研究、开发与政策制定方面提供了必备的概念工具包,以推动稳健且可信赖的混合智能系统的发展。
**关键词:**智能体化 AI · 人工智能 · 系统性综述 · 神经架构 · 符号 AI · 多智能体系统 · AI 治理 · 神经–符号 AI
人工智能(AI)领域正经历一场范式转移:从构建被动的、任务特定的工具,转向工程化能够展现真正“能动性(agency)”的自主系统。现代智能体化 AI 系统(Wissuchek and Zschech 2025;Viswanathan et al. 2025)具备主动规划、上下文记忆、复杂工具使用,以及基于环境反馈自适应行为等能力。这类系统不再只是问题求解器,而是协作伙伴,能够动态感知复杂环境、推理抽象目标,并自主编排一系列行动——无论是独立运行还是作为复杂多智能体生态系统的一部分(Xie et al. 2024;Du et al. 2025)。 为了建立清晰且精确的概念基础,我们首先区分该领域的核心概念。AI 智能体(或单智能体系统)指为完成某项目标而设计的自包含自治系统。它主要以独立方式运行,虽然可能与工具或 API 交互,但其能动性体现为自治性、主动性,以及能够独立完成任务的能力。 例如,一个基于大型语言模型(LLM)的单智能体若被赋予任务“为一个新的移动应用撰写完整的项目提案”,它将会自主拆解任务、开展研究、撰写各部分内容,并完成最终文档的格式化。 相比之下,智能体化 AI(Agentic AI)是一个更广泛的领域与架构范式,旨在构建能够展现能动性的系统。关键在于,它通常涉及多智能体系统(MAS)的编排,其中多个专门化智能体协同工作,通过协调与通信来解决单一智能体无法胜任的复杂问题。 例如,一个用于执行相同任务的智能体化 AI 系统将部署一组专业智能体:由项目管理智能体负责将任务拆分为子目标,研究智能体收集市场数据,写作智能体撰写内容,而质量保障智能体对结果进行审查。他们之间的协作流程正是智能体化 AI 的典型体现。 总结而言,可以将 AI 智能体视为一个功能强大的“单个工作者”,而智能体化 AI则代表一种利用能动性的原则,通常通过设计并管理整支智能体团队来实现。 然而,这一快速演进也带来了概念上的碎片化与时代错置。先前研究指出的关键问题是概念性回溯(conceptual retrofitting)——即错误地使用经典符号框架(如 BDI 模型(Archibald et al. 2024)或 PPAR 感知–规划–行动–反思循环(Zeng et al. 2024;Erdogan et al. 2025))来描述基于大型语言模型(LLM)的现代系统(Plaat et al. 2025),而这些系统在根本上依赖随机生成与提示驱动的编排。这类做法模糊了 LLM 智能体的真实操作机制(Gabison and Xian 2025;Wang et al. 2024;Zhao et al. 2023;Chen et al. 2024),并人为制造了不同架构范式之间的虚假连续性。
已有多篇综述对智能体化 AI 的部分方面进行了探讨,但大多数研究要么范围有限,要么聚焦于单一技术层面、应用领域或高层概念,未能呈现该领域的全貌,也未有效回应概念性回溯的核心挑战。表 1 对这些综述的关注点、贡献与局限性进行了总结。 为解决这些问题,本文首先建立清晰的历史语境(如图 1 所示),展示 AI 的演化历程可分为五个彼此重叠但相对独立的时代:
该时代奠定了 AI 的最初愿景,以逻辑与显式知识为基础。MYCIN、DENDRAL 等专家系统(Swartout 1985)依赖手工构建的符号规则,体现了一种自上而下、演绎式的“纯符号范式”。
这一转变阶段摆脱了完全硬编码的逻辑,转向从数据中学习。尽管仍高度依赖人工设计特征,但统计学习模型(如 SVM、决策树)推动了分类、推荐等应用发展,为后续深度学习奠定基础。
深度神经网络的普及使得系统能够自动学习层级表征,这一时代革新了视觉、语音与文本的感知能力。然而,这些模型仍主要作为强大的模式识别器,而非自治智能体。
GAN 的突破与 Transformer 架构(2017)推动了 LLM(如 GPT、BERT)的快速发展,使 AI 从感知迈向生成,能够合成连贯的文本、代码与媒体,为现代智能体化 AI 提供了核心底座——通用、强大的统计推理引擎。
这一前沿阶段聚焦于利用 LLM 的生成能力实现行动与自治。此时代的典型系统包括 AutoGPT 等能够通过规划与工具使用来追求目标的智能体(Durante et al. 2024;Masterman et al. 2024;Piccialli et al. 2025),以及向多智能体系统演化的高级框架,如 CrewAI 与 AutoGen(Acharya et al. 2025;Viswanathan 2025;Plaat et al. 2025;Schneider 2025;Hosseini and Seilani 2025)。与符号范式中的算法推理不同,这一阶段的能动性源自生成式模型的随机编排机制。
这一历史脉络揭示了一个关键事实:智能体化 AI 并非符号 AI 的线性延伸,而是建立在完全不同的神经架构基础之上。为此,我们提出一个全新的概念框架(图 2),以明确区分智能体化 AI 的符号谱系与神经谱系,从而避免概念性错置,并提供统一的理论视角。
提出全新的双范式分类法
引入并应用一个新的分析框架(图 2),明确区分符号与神经谱系,避免概念性回溯并实现精准分类。 1. 架构澄清
阐明现代神经框架的运行原理,如提示链式推理与对话编排机制,而非符号式规划。 1. 实证映射
基于 PRISMA 方法系统性调研 90 篇文献,并使用双范式框架对其进行分类,分析研究趋势并基于正确标准评估其架构。 1. 治理锚定
将伦理、责任与对齐挑战嵌入到各范式的技术背景中,确保在正确的技术语境下讨论安全问题。
本文的结构如下:第 2 节提出理论框架与双范式分类法;第 3 节详述系统性方法;第 4 节基于范式分析呈现文献研究结果;第 5 节讨论启示、局限与未来方向;第 6 节总结主要贡献。
自主武器系统(AWS)的发展——有时也带有“致命性”标签,缩写为LAWS——多年来一直处于激烈讨论之中。众多政治、学术或法律机构及行为体都在辩论这些技术带来的后果和风险,特别是其伦理、社会和政治影响,许多声音呼吁严格监管甚至全球禁止。尽管这些武器备受公众关注且被认为影响重大,但“AWS”这一术语具体指代哪些技术以及它们具备何种能力,却往往出人意料地不明确。AWS可以指无人机、航空母舰、无人空中/地面/海上载具、机器人及机器人士兵,或计算机病毒等网络武器。
这种不确定性之所以存在,尽管(或许正是因为)已有大量定义试图从功能上(例如“一旦激活,自主武器‘无需操作员进一步干预即可选择和攻击目标’”:美国国防部,2023年:第21页)或概念上(源自对自主系统、人工智能或机器学习的理论化)来明确该术语。定义仍为不同类型的技术留下了广阔空间,并且结合关于人工智能的更广泛讨论,也为未来发展的潜力和预测提供了可能。除了术语的模糊性,这些系统在何种意义上以及在多大程度上可被称为“自主”的本质也依然含糊不清。尽管自动化能力的发展无疑在推进(Scharre, 2018; Schwarz, 2018; Packer and Reeves, 2020),人类能动性和干预方式的程度不断降低,但完全超越人类控制、因此被许多人担忧的完全自主武器,在很大程度上仍是一种概念上的可能性,而非实际的军事现实。
这些模糊性导致了巨大的意义空白,而这些空白又往往被想象所填充——这是新技术,特别是人工智能的常见做法(Suchman, 2023)。潜在的现实可以扮演重要角色,因为它们是将专业知识传递到社会其他领域(包括新闻、政策制定、研究、教育和民主决策过程)的工具。因此,关于AWS功能及其后果的看法,受到军事、国家和技术未来想象的启发和塑造。这些想象包括地缘政治情景、伦理问题、国家政策或科幻小说。在安全与军事政策中,这些不同现实之间的相互联系甚至被用作一种方法论——例如,“红队演练”——这意味着应用对潜在未来的创造性虚构描述来为实际决策提供信息(The Red Team, 2021)。另一种应用是兵棋推演,这是一种预见未来军事场景的方法,其起源至少可追溯至19世纪,但已适应当代技术和媒体环境,包括虚拟现实和使用大语言模型的基于人工智能的模拟(Goecks and Waytowich, 2024)。
自主武器的前提,被视为占据着一个自身特有的混合空间,这促使我们探索随之而来的无数现实。本书的基本原理认为,只有承认实际技术发展与其相关的愿景和虚拟场景之间持续而复杂的动态互动,才能理解所讨论的这些现实。正是在这种不确定性——想象、可能性和虚构在此交织——的背景下,自主武器变得极具影响力。它们激发出情感、话语、鼓动、(反)行动、投资、竞争、政策或技术与军事蓝图。
关于自主武器主题的出版物通常侧重于其法律、政治或伦理影响(例如,Bhuta等人,2016;Krishnan,2016),这是评估这些技术的第一层级。也有一些著作讨论了其独特的表征(Graae and Maurer, 2021),以及我们见证和体验它们的方式(Bousquet, 2018; Richardson, 2024)。这些著作的基础也基于前面概述的不同现实。本书引入另一种分析自主武器现实的方法,提出一种第二层级的方法:例如,一个伦理问题不仅仅被框定为伦理问题本身,即沿着提出以下规范性问题的思路:“自动化杀人机器会引发哪些道德问题?” 在本书建议的方法中,伦理问题反而被理解为一个促成因素,它有助于在大众文化、政治、新闻或研究中构建、传播和维持对致命性AWS的特定理解。简言之,伦理话语共同创造了其对象的现实。因此,本书所采取的视角将AWS的不同现实置于前台,进而旨在为现有的辩论揭示其(常常是隐含的)基本假设。
本书这篇引言性章节首先勾勒了军事装备日益自动化的技术和政治发展进程。这些发展在理论上被阐述为既具构成性又具述行性,以涵盖全球范围内在理论和实践中对AWS的动态变化和不同理解。随后,本章就这些现实提出了六点思考,有助于界定和巩固AWS的动态含义,这些含义往往在公众、军事和监管领域受到极大关注。章节最后概述了全书的结构并简要总结了各章的贡献。
全书结构分为三个独立部分,分别探讨自主武器的当前现实。每个部分都从特定的视角范式分析自主武器:1. 叙事与理论,2. 技术与物质性,以及 3. 政治与伦理。每个部分的开篇由一位艺术家及其对自主武器的构想引入。这种划分基于对跨越这些领域所阐发的不同意义的分析,这些意义构成了AWS的现实,并强有力地影响着如何感知和对待这项技术。
俄罗斯乌克兰战争重塑了当代对战争如何进行与维持的理解。本文认为,现代战争的决定性特征不仅是杀伤链(即连接探测、决策与摧毁的序列)的压缩,更是其在持续干扰下的多样性与韧性。基于乌克兰在整合无人系统、数字化战场管理工具和人工智能方面的经验证据,本分析展示了技术加速如何能在带来短期战术优势的同时,暴露出长期的结构性脆弱。俄罗斯广泛使用的电子战、混合攻击和适应性对抗措施表明,杀伤链优势既充满争夺又十分脆弱。来自以色列、叙利亚和伊朗的对比案例表明,当耐力、后勤和工业产能仍具决定性时,自主性与速度并不能保证战略成功。对北约而言,研究结果强调威慑可信度将取决于由韧性指挥网络、可持续供应体系和政治凝聚力所支撑的分布式、持久性杀伤链架构。文章的结论是,决定未来战争节奏的将是耐力,而非速度。
在乌克兰,从探测目标到实施打击的时间已从数小时缩短至数秒。这种由无人机、商业航天系统和日益普及的人工智能所驱动的压缩,揭示了现代冲突的真正重心:对杀伤链优势的争夺。杀伤链被定义为从探测、决策到摧毁的端到端过程,它是所有现代作战的基础。在此框架下,胜利更少取决于火力,而更多取决于连接传感器与射手的链路的速度、韧性与多样性。
乌克兰利用无人系统和数字化战场管理工具来加速其远程杀伤链。俄罗斯则试图通过电子战、网络行动和对基础设施的混合攻击来破坏它们。双方都在不断调整以重获节奏并剥夺对手的优势。其结果是,这场冲突不仅展示了杀伤链压缩的战略重要性,也揭示了其局限性。包括能源、物流和通信网络在内的民用基础设施,已作为维持战争努力的平行杀伤链而出现。这种压缩与干扰的二元性已成为21世纪战争的一个决定性特征。
本文认为,乌克兰战争带来的决定性启示是,战争的未来将更少取决于杀伤链的压缩,而更多取决于维持这些系统的韧性与多样性。杀伤链优势将属于那些能够在军事和民事领域重建、适应并承受持续干扰的行为体。战术速度必须与结构韧性相辅相成。讨论将通过五个部分展开:(1)界定杀伤链理论的演变并阐释其背景;(2)分析乌克兰战场上的压缩、干扰与多样化;(3)评估人工智能赋能作战与自主性的局限;(4)比较乌克兰经验与其他冲突;(5)概述对北约及其伙伴的战略启示。
利害关系十分严峻。假设未能内化乌克兰的教训,那么,将在未来的冲突中处于结构性劣势——杀伤链更慢、更易受混合干扰的打击、更难以维持长期战斗。对手已经在试验人工智能赋能的目标识别、自主集群和对关键基础设施的破坏。如果不做出调整,就可能将主动权让给那些优先考虑节奏而非合法性、优先考虑胁迫而非正当性的行为体。乌克兰的启示并非简单地认为无人机至关重要或网络战表现不佳;而是认识到现代战争是跨越军事和民事领域的速度、韧性与适应能力的竞赛。秩序的稳定将取决于是否能在其对手定义交战规则之前,获得杀伤链优势。
“杀伤链”这一概念根植于冷战后期,当时美国试图通过技术和信息优势来抵消苏联的数量优势。20世纪70年代末,美国国防部制定了后来被称为“抵消战略”的计划,其核心是“突击破坏者”概念:即使用远程精确制导弹药和实时目标指示,在敌方装甲部队抵达前线之前将其摧毁。这是一项将信息优势转化为杀伤力的战略尝试,为后来成为网络中心战的理论奠定了基础。
到1991年海湾战争时,这些理念已发展为“震慑”学说,强调快速、精确打击对敌方战斗意志产生的心理和系统性效果。在后9/11时代,同样的原则在“发现、锁定、终结”的反恐行动框架下,以更小的规模得到应用,其杀伤链从探测到交战被压缩到几分钟之内,以摧毁恐怖主义网络。每一次演变都反映了相同的逻辑:技术加速将取代数量规模,而信息速度将带来决策优势。
美国空军在21世纪初正式将这一过程编码为“发现、锁定、跟踪、定位、交战、评估”循环,该循环至今仍是联合目标锁定理论的核心。随着时间的推移,这一概念已从战术领域扩展到战役和战略层面的关联。在战术层面,杀伤链的运作以秒或分钟计,例如在反恐突袭或无人机打击中。在战役层面,它们跨越数小时或数天,在整个战区协调多种火力与情报、监视和侦察资产。在战略层面,杀伤链的展开可能需要数周或数月,将国家情报、后勤和工业动员整合到战役规划中。
贯穿这些层面的一个统一见解是,杀伤链的有效性不仅取决于速度,还取决于连接性和韧性。乌克兰的经验代表了这一演变的最先进体现:一个实时、多领域的生态系统,其中商业、军事和民用资产持续互动以产生作战节奏。然而,这也暴露了该范式的局限性。当快速的决策周期未能产生战略成果时,冲突就会演变为消耗战,其中耐力、生产能力和适应性比速度更为重要。
乌克兰战争已成为21世纪数据最丰富、技术最活跃的冲突。西方精确制导系统、商业情报监视侦察资产和国内创新的整合,使基辅得以将其远程杀伤链压缩到前所未有的水平。兰德公司报告称,炮击的平均“传感器到射手”周期从2022年的30分钟缩短到2024年的不到1分钟,而对于第一人称视角无人机辅助的接战,甚至短至30秒。
这种压缩基于三项创新:(1)广泛使用第一人称视角无人机进行实时侦察和打击协调;(2)Delta、“克里帕瓦”、GIS Arta等数字化指挥控制工具的普及,整合了战场情报;(3)依赖商业卫星通信和影像,特别是通过“星链”和卡佩拉太空公司的卫星。乌克兰的“无人机军团”计划已培训超过1万名操作员,并计划到2025年中部署约5万架无人机,这标志着民用技术与军事实践前所未有的融合。
消耗仍然严重。皇家联合军种研究所估计,乌克兰每月损失8000至1万架无人机,主要归因于俄罗斯的电子战。然而,这种损失率被快速的本地制造、开源设计和众包维修中心所抵消。乌克兰模式表明,杀伤链优势既依赖于技术先进程度,也同样依赖于工业适应能力。
俄罗斯试图通过系统性干扰来抵消乌克兰的速度优势。其电子战部队(估计沿前线部署了60套主要系统)对GPS和无人机控制频率实施了干扰,降低了情报监视侦察数据流的效率,并瞄准了指挥控制节点。俄罗斯的适应措施相当显著,包括部署“山雀”和“极点-21”电子战系统、“海鹰-30”等人工智能辅助的情报监视侦察无人机,以及广泛使用“柳叶刀”巡飞弹。每一轮压缩都会引发一轮干扰的对抗循环,导致速度带来的回报递减。
近期研究表明,战争的未来不仅取决于压缩,还取决于多样化——即生成并保护多种模块化杀伤链的能力,这些杀伤链能够动态重构以应对攻击。美国和盟国防务界内的“马赛克战争”框架提出了仿照生物韧性建立的“异构、分布式杀伤链”模型。乌克兰的去中心化指挥模式已经反映了这一原则:分层的情报监视侦察网络、冗余的指挥控制节点和多平台协调形成了一个杀伤路径的网状结构。
对杀伤链优势的争夺延伸至战场之外。俄罗斯的混合战略旨在削弱维持军事节奏的民用基础设施。能源电网、海底电缆、物流走廊和卫星网络都已成为目标。这些构成了“民用杀伤链”,其完整性决定了一个国家维持战争的能力。
在2023年至2025年间,欧洲记录了超过40起与俄罗斯代理势力有关的物理或网络破坏行为。诸如2025年挪威布雷芒厄尔大坝的网络入侵、与电缆干扰相关的瑞典哥得兰岛临时停电,以及对波罗的海海底基础设施的破坏等事件,都展示了一种连贯的破坏模式。此外,在伪造的自动识别系统信号下运作的俄罗斯油轮“影子船队”,模糊了商业与军事领域的界限,造成了持续的海上不稳定。这些行动反映出莫斯科长期以来的信念,即非军事措施可以达成战略效果。
这种方法反映了俄罗斯“主动防御”的条令概念,该概念认为早期破坏对手(军事和民用)系统具有决定性意义。针对欧洲关键基础设施的混合行动,旨在提高支持乌克兰的成本、削弱其凝聚力并侵蚀其韧性。由此产生的环境表明,威慑现在不仅需要保护提供火力的杀伤链,同样需要保护支撑能源、物流和信息生态系统的杀伤链。
人工智能已成为乌克兰指挥和目标锁定系统不可或缺的一部分。“德尔塔”平台利用机器学习整合传感器数据以确定目标优先级。“克罗帕瓦”系统实现火力协调自动化,减少决策延迟。人工智能驱动的图像识别协助处理无人机画面和卫星影像,从而实现更快、更明智的交战决策。
然而,人工智能的整合仍然是部分的。乌克兰的系统保留了人为监督,以确保遵守国际人道法。俄罗斯的方法则更为宽松,在其“柳叶刀”无人机中尝试自主目标锁定,并将人工智能辅助制导集成到其情报、监视与侦察网络中。这种差异反映了一个核心的战略分歧:威权国家倾向于将节奏置于合法性之上,而民主国家则必须在速度与合法性之间取得平衡。
对比经验强化了这种困境。在叙利亚,俄罗斯部队利用人工智能支持的情报、监视与侦察和巡飞弹对非正规部队实施精确打击,展现了高节奏但有限的识别区分能力。在以色列,“火力工厂”人工智能系统在加沙行动中实现了前所未有的打击协同,将杀伤链压缩至十分钟以内。相比之下,伊朗在乌克兰使用“沙希德-136”无人机则显示出相反的情况:低成本、低速、可消耗的系统,为持久力而非节奏进行了优化。这些案例共同表明,人工智能赋能的速度加速提供了战术优势,但不必然带来战略成功。
自主性也引入了人力因素。随着乌克兰面临日益严峻的人口结构限制,无人和半自主系统的扩展代表着一种战略适应,旨在保持战斗力,尽管人员可用性在下降。然而,这种替代只是局部的。可损耗自主系统的使用抵消了人力限制并延长了持久力,但并未消除对人员占领和防御地盘的需求。
来自乌克兰及可比冲突的经验证据表明,战术速度不能保证战略成功。快速压缩能带来局部优势,但无法决定消耗战争的结果。兰德公司的分析指出,俄罗斯的后勤能力和生产深度使其能够承受损失,而乌克兰在节奏上取得的优势仅带来了微小的领土收益。正如约瑟夫·奈所指出的,网络和人工智能效应已被证明是传统持久力的“放大器,而非替代品”。
此外,升级风险限制了节奏优势可利用的程度。如果俄罗斯面临战场崩溃,使用战术核武器的可能性依然存在。北约缺乏对等的非战略性核选项,这使威慑复杂化并增加了升级风险。杀伤链加速通过缩短决策时间线,可能无意中压缩了升级阶梯,迫使战略困境在数分钟而非数小时内得到解决。
乌克兰战争也表明,高科技冲突可能比预期持续更久。通过精确打击和自动化取得决定性结果的预期被证明是错误的。相反,工业产能、适应性和社会韧性决定了持久力。对北约的启示在于,杀伤链优势必须与长期维持能力和政治凝聚力相结合。
虽然乌克兰提供了无与伦比的经验洞察,但其经验并非普遍适用。本土国防工业和安全边界使以色列得以整合人工智能与自动化;而乌克兰则缺乏这些条件。相比之下,叙利亚的环境使俄罗斯能够在低风险条件下进行试验,而无需面对对等级别的干扰。伊朗的无人机生产模式展示了可扩展性,但在面对先进电子战时则不具备生存能力。
乌克兰的独特优势在于其开源创新生态系统。民用技术专家、志愿者开发人员和公开来源情报社群实时协作以调整系统。“DeepStateMap”和“Molfar Intelligence”等平台模糊了情报与行动主义的界限,创造了一种社会性杀伤链整合形式。该模式反映了一种持续适应的国家能力——这是未来威慑战略的一个关键变量。
乌克兰战争揭示了西方防务态势中的结构性脆弱。现代冲突的决定性优势不在于平台数量,而在于杀伤链架构的完整性与适应性。对北约而言,适应这种环境需要围绕四个相互关联的重点重新调整其力量设计:速度、韧性、多样化和持续保障。
乌克兰的经验证实,人工智能可以加速指挥与控制流程。然而,缺乏监督的自动化会带来升级和错误风险。北约应建立一个操作性框架,使人工智能能够管理目标发现、数据融合和优先级排序,同时保留人类操作员的交战决策权。这种“人在回路之上”的结构既能保持速度,又不会削弱法律和政治问责制。为将此能力制度化,盟军转型司令部应领导一项关于人工智能赋能目标锁定的常设计划。联合演习应测试各国系统间的算法协调、互操作性和决策延迟。在此规模的整合需要共享数据标准、共同的测试制度以及从战术到战略层级的明确问责链。
乌克兰冲突的每个阶段都表明,电子战和网络干扰能够分割指挥网络。北约不能假设其系统在持续攻击下仍能保持协调一致。因此,盟国应寻求冗余、去中心化的指挥控制结构,使其在脱离上级梯队时仍能自主运行。这包括使用商业卫星、跨域路由协议和适用于降级环境的低带宽战场通信,构成预先配置的后备网络。作战条令应向任务式指挥原则演变,赋予下属单位在通信中断期间的决策权。分布式而非集中化,是对抗频谱拒止和精确打击的唯一可持续防御方式。
消耗战的结果取决于工业速度。北约现有的国防工业基础缺乏灵活应变的能力。盟国应建立一个“集体生产框架”,明确关键制造依赖性,并在成员国间分配产能激增的责任。库存管理必须从库存盘点转向产能评估——即评估弹药、无人机和传感器在火力下的替换速度。这将需要一个由预先商定的生产共享协议和融资机制构成的和平时期网络。这不是回归冷战时期的动员,而是对威慑的重校准,以反映工业而非数量的竞争。
俄罗斯针对欧洲能源、物流和信息基础设施的混合战役表明,民用系统已成为战场的延伸。因此,北约的威慑框架必须将这些“民用杀伤链”视为战略资产。盟国应为成员国设定可执行的韧性基准(例如,电网冗余、海底电缆保护、以及针对网络物理攻击的预先安排恢复机制)。这些标准应通过北约-欧盟合作框架下的集体韧性审计进行监督。此领域的威慑将更少来自拒止,而更多来自展现出的快速重建能力。
更快的决策周期伴随着相应的升级风险。如果俄罗斯面临战场崩溃,有限使用核武器仍是一个可能的选择。因此,北约的威慑规划必须纳入时间性升级控制,即确保压缩的杀伤链不会挤占政治决策窗口。这需要现代化核协商机制,使其能在高节奏下运作。决策模拟应测试升级阈值在信息降级和时间约束下如何保持。整合常规速度管理与核信号传递,对于防止无意的危机升级至关重要。
技术并未取代人类意志的核心地位。乌克兰经验表明,战术系统的重要性低于组织的适应能力和领导层的持久耐力。相应地,北约应投资于人力资本,优先发展认知准备、分布式领导和政治凝聚力。公共传播策略应强调威慑依赖于集体韧性,而非瞬时精确。随时间推移维持民主意志,依然是北约相对于专制对手的比较优势。
乌克兰战争生动展示了现代军队如何在压力下适应。它表明,杀伤链优势是必要的,但不足以确保胜利。技术加速提供了暂时优势;而战略成功取决于持久耐力与恢复能力。
乌克兰的战地创新展示了当商业、军事和民用系统整合时,适应性强的民主国家所能取得的成就。然而,它也暴露了持久的制约:压缩的杀伤链放大了遭受干扰的成本,而韧性成为现代战争的限速因素。俄罗斯尽管遭遇战术挫折却仍能坚持,表明工业和社会耐力能够抵消技术不对称。
本文的核心论点是,杀伤链优势衡量的不是速度,而是系统韧性——即在遭受干扰后维持决策和打击能力的能力。未来的冲突将青睐那些能够维持多重、相互重叠的杀伤链(军事、工业、信息和社会)的行为体,使其能够利用敌方弱点并达成战略目标。胜利将不属于最快的网络,而属于最持久的系统。
对北约而言,这些观察构成了明确的战略要务:盟国必须设计能够承受持续压力的分布式、冗余、持久的杀伤链架构。人工智能将推动这场变革,但其成功同样取决于后勤、人力和政治凝聚力。北约的威慑可信度将不取决于其打击速度,而取决于其在遭受干扰后维持作战的能力。因此,乌克兰的核心教训是结构性的:二十一世纪的威慑将取决于整个杀伤链生态系统的韧性。北约的任务是在下一次冲突检验其韧性之前,将这种韧性制度化。
NeurIPS 是关于机器学习和计算神经科学的国际会议,宗旨是促进人工智能和机器学习研究进展的交流。NeurIPS 2025 会议将于12月2日至12月7日在圣地亚哥会议中心召开。
理解 AI 系统行为已成为确保安全性、可信性以及在各类应用中有效部署的关键。 为应对这一挑战,三个主要研究社区提出了不同的可解释性方法: * 可解释人工智能(Explainable AI) 聚焦于特征归因,旨在理解哪些输入特征驱动了模型决策; * 数据中心人工智能(Data-Centric AI) 强调数据归因,用于分析训练样本如何塑造模型行为; * 机制可解释性(Mechanistic Interpretability) 研究组件归因,旨在解释模型内部组件如何对输出作出贡献。
这三大方向的共同目标都是从不同维度更好地理解 AI 系统,它们之间的主要区别在于研究视角而非方法本身。 本教程首先介绍基本概念与历史背景,阐述可解释性为何重要,以及自早期以来该领域是如何演进的。第一部分技术深度解析将涵盖事后解释方法、数据中心解释技术、机制可解释性方法,并通过一个统一框架展示这些方法共享的基本技术,如扰动、梯度与局部线性近似等。 第二部分技术深度解析则聚焦于内生可解释模型(inherently interpretable models),并在可解释性的语境下澄清推理型(chain-of-thought)大语言模型与自解释型 LLM 的概念,同时介绍构建内生可解释 LLM 的相关技术。我们还将展示可使这些方法易于实践者使用的开源工具。 此外,我们强调了解释性研究中前景广阔的未来研究方向,以及其在更广泛的 AI 领域中所引发的趋势,包括模型编辑、模型操控(steering)与监管方面的应用。通过对算法、真实案例与实践指南的全面覆盖,参与者将不仅获得对最先进方法的深刻技术理解,还将掌握在实际 AI 应用中有效使用可解释性技术的实践技能。
无人机蜂群正逐渐成为集电子对抗、信息攻防与火力打击于一体的综合性新型武器平台,已成为未来战争的重要形态,也催生了反无人机蜂群系统的快速发展。针对无人机技术发展迅速并成为战场重要威胁的问题,本文分析了典型无人机蜂群系统级目标的特点,研究了防空导弹、高炮/弹炮结合、高能激光与高功率微波等反制无人机蜂群的主要手段,并对反制性能进行了对比分析。提出了一种基于无人机搭载微后坐力自动枪的新型空中反无人机拦截系统,研究了其体系架构、作战概念与流程、涉及的关键技术与创新点,为加强反无人机系统能力提供了技术参考。
低成本、精密型无人机近期的快速增长,连同相关的技术挑战,是作战战术中的一个显著特征。随着俄罗斯和乌克兰双方愈发依赖这些成本效益高但工艺粗糙的无人机,他们塑造了一个以高效率和低成本为特色的新战场。俄乌双方均发射无人机以攻击对方。无人机或许能以较低效率定位目标,但仍可造成重大破坏。无人机能够摧毁并碳化单价约400万美元的坦克。然而,无人机的单位成本不超过1000美元。目前市场上大多数反无人机设备(包括激光器、高功率微波武器和射频干扰器)的局限性和低效性,在无人机日益普及的背景下已显而易见。本案例研究表明,现有的反无人机技术无法有效压制双方使用的神风敢死队无人机和武器化无人机。由于这些失败,俄乌两军采用了新技术,例如金属网格和尼龙网屏障,这些措施在一定程度上能有效摧毁和拦截无人机。本文通过案例研究,呈现了自2022年2月以来交战双方对无人机的依赖以及所采用的反无人机战术。本研究调查了当前双方可用于减轻武器化无人机战场影响的解决方案,对其进行了评估,并论证了这些方案固有的缺陷如何推动针对武装无人机的新策略和对抗措施的研发。
本文结构如下:第1部分为引言。第2部分论述无人机在俄罗斯-乌克兰冲突中的重要性。第3部分阐述现有反制措施在摧毁无人机方面的局限性。第4部分介绍在此冲突中出现的新型反无人机解决方案。第5部分重点呈现研究结果,阐明新反制措施及创新方法的优势与不足。最后,第6部分为结论。