操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

创造如《钢铁侠》中虚构角色 J.A.R.V.I.S 般强大且多才多艺的 AI 助理，一直以来都是人们梦寐以求的目标。随着（多模态）大语言模型（(M)LLMs）的发展，这一梦想正逐步照进现实。基于 (M)LLM 的智能体通过在操作系统（OS）所提供的环境与界面（如图形用户界面 GUI）中运行，从而在计算设备（例如计算机和移动电话）上自动执行任务，其能力已取得显著进展。本文对这一类先进的智能体进行了全面综述，我们称之为 操作系统智能体（OS Agents）。我们首先阐述了 OS 智能体的基本概念，探讨其关键组成部分，包括环境、观测空间与动作空间，并梳理了其所需的核心能力，如理解、规划与基础对齐（grounding）。随后，我们分析了构建 OS 智能体的方法，重点介绍了面向特定领域的基础模型与智能体框架。此外，我们系统回顾了现有的评估协议与基准，展示了 OS 智能体在多种任务中的评估方式。最后，我们讨论了当前面临的挑战，并指出未来值得探索的研究方向，包括安全性与隐私、个性化以及自我演化等。本综述旨在整合 OS 智能体研究的现状，为学术研究与产业发展提供参考与启发。我们还维护了一个开源的 GitHub 仓库，作为促进该领域持续创新的动态资源。本研究的一篇 9 页精简版本已被 ACL 2025 接收，以便为该领域提供简明的入门概览。

1 引言

构建一个类似于漫威电影《钢铁侠》中 J.A.R.V.I.S. 的超级智能 AI 助理——能够协助托尼·斯塔克控制各种系统并自动化任务——一直是人类的长期愿景。这类实体被称为操作系统智能体（Operating System Agents，简称 OS Agents），因为它们在操作系统（OS）提供的环境和界面（如图形用户界面 GUI）中运行，从而利用计算设备（例如计算机和移动电话）完成各种任务。OS 智能体能够自主完成任务，具有显著提升全球数十亿用户生活质量的潜力。想象这样一个世界：在线购物、旅行安排预订等日常事务都能由这些智能体无缝处理，从而大幅提升效率与生产力。过去，Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虚拟助手已初步展示了这种潜力，但由于模型能力（如上下文理解【Tulshan and Dhage, 2019】）的限制，这些产品未能实现广泛应用和全面功能。幸运的是，近年来多模态大语言模型（(M)LLMs）如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的进展，开启了 OS 智能体发展的新纪元。这些模型展现出卓越的能力，使得 OS 智能体能够更好地理解复杂任务并执行计算设备操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、苹果的 Apple Intelligence【Apple, 2024】、智谱 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。例如，Computer Use 利用 Claude【Anthropic, 2024b】直接与用户的计算机交互，旨在实现无缝任务自动化。同时，研究界也提出了多种构建基于 (M)LLM 的 OS 智能体的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如，Wu 等人【2024a】提出的 OS-Atlas 是一个基础 GUI 动作模型，它通过跨平台合成 GUI 对齐数据，显著提升了 GUI 基础对齐能力与分布外任务表现；OS-Copilot【Wu et al., 2024b】则是一个智能体框架，旨在开发通用型智能体以自动化各种计算机任务，在多种应用场景中展现出强大的泛化能力和自我提升能力，即便在弱监督下亦表现出色。鉴于该领域的迅速发展和日益丰富的研究成果，有必要进行一次全面综述，以整合当前研究现状。在本综述中，我们首先在第 §2 节讨论 OS 智能体的基本概念，定义何谓 OS 智能体，并如图 2 所示，重点介绍三个核心组成部分：环境、观测空间与动作空间（§2.1）。随后，我们总结 OS 智能体应具备的关键能力，包括理解、规划与基础对齐（§2.2）。接下来，在第 §3 节中我们深入探讨构建 OS 智能体的两个关键方面：（1）面向特定领域的基础模型开发，涵盖架构设计、预训练、监督微调与强化学习等内容（§3.1）；（2）围绕这些模型构建高效的智能体框架，涵盖感知、规划、记忆与动作等核心模块（§3.2）。在第 §4 节中，我们回顾了 OS 智能体常用的评估协议（§4.1）与基准数据集（§4.2），以了解其在多样任务中的性能表现。最后在第 §5 节，我们探讨 OS 智能体当前所面临的挑战与未来研究方向，特别关注安全与隐私问题（§5.1）、个性化与自我演化能力（§5.2）。本综述旨在推动 OS 智能体的研究与开发，通过深入剖析其关键能力、构建方法与评估方式，帮助读者全面理解该领域的最新趋势、技术挑战与未来发展。我们也认识到，OS 智能体仍处于早期阶段，新的方法与应用正在迅速涌现。为支持该领域的持续进展，我们维护了一个开源的 GitHub 仓库，作为动态资源。我们希望本研究能够激发更多创新，推动 OS 智能体在学术研究与工业应用中的发展。 https://arxiv.org/abs/2508.04482