创造如《钢铁侠》中虚构角色 J.A.R.V.I.S 般强大且多才多艺的 AI 助理,一直以来都是人们梦寐以求的目标。随着(多模态)大语言模型((M)LLMs)的发展,这一梦想正逐步照进现实。基于 (M)LLM 的智能体通过在操作系统(OS)所提供的环境与界面(如图形用户界面 GUI)中运行,从而在计算设备(例如计算机和移动电话)上自动执行任务,其能力已取得显著进展。本文对这一类先进的智能体进行了全面综述,我们称之为 操作系统智能体(OS Agents)。 我们首先阐述了 OS 智能体的基本概念,探讨其关键组成部分,包括环境、观测空间与动作空间,并梳理了其所需的核心能力,如理解、规划与基础对齐(grounding)。随后,我们分析了构建 OS 智能体的方法,重点介绍了面向特定领域的基础模型与智能体框架。此外,我们系统回顾了现有的评估协议与基准,展示了 OS 智能体在多种任务中的评估方式。 最后,我们讨论了当前面临的挑战,并指出未来值得探索的研究方向,包括安全性与隐私、个性化以及自我演化等。本综述旨在整合 OS 智能体研究的现状,为学术研究与产业发展提供参考与启发。我们还维护了一个开源的 GitHub 仓库,作为促进该领域持续创新的动态资源。本研究的一篇 9 页精简版本已被 ACL 2025 接收,以便为该领域提供简明的入门概览。
构建一个类似于漫威电影《钢铁侠》中 J.A.R.V.I.S. 的超级智能 AI 助理——能够协助托尼·斯塔克控制各种系统并自动化任务——一直是人类的长期愿景。这类实体被称为操作系统智能体(Operating System Agents,简称 OS Agents),因为它们在操作系统(OS)提供的环境和界面(如图形用户界面 GUI)中运行,从而利用计算设备(例如计算机和移动电话)完成各种任务。OS 智能体能够自主完成任务,具有显著提升全球数十亿用户生活质量的潜力。想象这样一个世界:在线购物、旅行安排预订等日常事务都能由这些智能体无缝处理,从而大幅提升效率与生产力。 过去,Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虚拟助手已初步展示了这种潜力,但由于模型能力(如上下文理解【Tulshan and Dhage, 2019】)的限制,这些产品未能实现广泛应用和全面功能。 幸运的是,近年来多模态大语言模型((M)LLMs)如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的进展,开启了 OS 智能体发展的新纪元。这些模型展现出卓越的能力,使得 OS 智能体能够更好地理解复杂任务并执行计算设备操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、苹果的 Apple Intelligence【Apple, 2024】、智谱 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。 例如,Computer Use 利用 Claude【Anthropic, 2024b】直接与用户的计算机交互,旨在实现无缝任务自动化。同时,研究界也提出了多种构建基于 (M)LLM 的 OS 智能体的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如,Wu 等人【2024a】提出的 OS-Atlas 是一个基础 GUI 动作模型,它通过跨平台合成 GUI 对齐数据,显著提升了 GUI 基础对齐能力与分布外任务表现;OS-Copilot【Wu et al., 2024b】则是一个智能体框架,旨在开发通用型智能体以自动化各种计算机任务,在多种应用场景中展现出强大的泛化能力和自我提升能力,即便在弱监督下亦表现出色。 鉴于该领域的迅速发展和日益丰富的研究成果,有必要进行一次全面综述,以整合当前研究现状。 在本综述中,我们首先在第 §2 节讨论 OS 智能体的基本概念,定义何谓 OS 智能体,并如图 2 所示,重点介绍三个核心组成部分:环境、观测空间与动作空间(§2.1)。随后,我们总结 OS 智能体应具备的关键能力,包括理解、规划与基础对齐(§2.2)。 接下来,在第 §3 节中我们深入探讨构建 OS 智能体的两个关键方面:(1)面向特定领域的基础模型开发,涵盖架构设计、预训练、监督微调与强化学习等内容(§3.1);(2)围绕这些模型构建高效的智能体框架,涵盖感知、规划、记忆与动作等核心模块(§3.2)。 在第 §4 节中,我们回顾了 OS 智能体常用的评估协议(§4.1)与基准数据集(§4.2),以了解其在多样任务中的性能表现。最后在第 §5 节,我们探讨 OS 智能体当前所面临的挑战与未来研究方向,特别关注安全与隐私问题(§5.1)、个性化与自我演化能力(§5.2)。 本综述旨在推动 OS 智能体的研究与开发,通过深入剖析其关键能力、构建方法与评估方式,帮助读者全面理解该领域的最新趋势、技术挑战与未来发展。我们也认识到,OS 智能体仍处于早期阶段,新的方法与应用正在迅速涌现。为支持该领域的持续进展,我们维护了一个开源的 GitHub 仓库,作为动态资源。我们希望本研究能够激发更多创新,推动 OS 智能体在学术研究与工业应用中的发展。 https://arxiv.org/abs/2508.04482