创造如《钢铁侠》中虚构角色 J.A.R.V.I.S 般强大且多才多艺的 AI 助理,一直以来都是人们梦寐以求的目标。随着(多模态)大语言模型((M)LLMs)的发展,这一梦想正逐步照进现实。基于 (M)LLM 的智能体通过在操作系统(OS)所提供的环境与界面(如图形用户界面 GUI)中运行,从而在计算设备(例如计算机和移动电话)上自动执行任务,其能力已取得显著进展。本文对这一类先进的智能体进行了全面综述,我们称之为 操作系统智能体(OS Agents)。 我们首先阐述了 OS 智能体的基本概念,探讨其关键组成部分,包括环境、观测空间与动作空间,并梳理了其所需的核心能力,如理解、规划与基础对齐(grounding)。随后,我们分析了构建 OS 智能体的方法,重点介绍了面向特定领域的基础模型与智能体框架。此外,我们系统回顾了现有的评估协议与基准,展示了 OS 智能体在多种任务中的评估方式。 最后,我们讨论了当前面临的挑战,并指出未来值得探索的研究方向,包括安全性与隐私、个性化以及自我演化等。本综述旨在整合 OS 智能体研究的现状,为学术研究与产业发展提供参考与启发。我们还维护了一个开源的 GitHub 仓库,作为促进该领域持续创新的动态资源。本研究的一篇 9 页精简版本已被 ACL 2025 接收,以便为该领域提供简明的入门概览。

1 引言

构建一个类似于漫威电影《钢铁侠》中 J.A.R.V.I.S. 的超级智能 AI 助理——能够协助托尼·斯塔克控制各种系统并自动化任务——一直是人类的长期愿景。这类实体被称为操作系统智能体(Operating System Agents,简称 OS Agents),因为它们在操作系统(OS)提供的环境和界面(如图形用户界面 GUI)中运行,从而利用计算设备(例如计算机和移动电话)完成各种任务。OS 智能体能够自主完成任务,具有显著提升全球数十亿用户生活质量的潜力。想象这样一个世界:在线购物、旅行安排预订等日常事务都能由这些智能体无缝处理,从而大幅提升效率与生产力。 过去,Siri【Inc., 2024】、Cortana【Research, 2024】、Amazon Alexa【Google, 2024】和 Google Assistant【Amazon, 2024】等虚拟助手已初步展示了这种潜力,但由于模型能力(如上下文理解【Tulshan and Dhage, 2019】)的限制,这些产品未能实现广泛应用和全面功能。 幸运的是,近年来多模态大语言模型((M)LLMs)如 Gemini【Google】、GPT【OpenAI】、Grok【xAI】、Yi【01.AI】和 Claude【Anthropic】系列的进展,开启了 OS 智能体发展的新纪元。这些模型展现出卓越的能力,使得 OS 智能体能够更好地理解复杂任务并执行计算设备操作。一些代表性案例包括 Anthropic 推出的 Computer Use【Anthropic, 2024a】、苹果的 Apple Intelligence【Apple, 2024】、智谱 AI 的 AutoGLM【Liu et al., 2024a】和 Google DeepMind 的 Project Mariner【DeepMind, 2024】。 例如,Computer Use 利用 Claude【Anthropic, 2024b】直接与用户的计算机交互,旨在实现无缝任务自动化。同时,研究界也提出了多种构建基于 (M)LLM 的 OS 智能体的方案【Gur et al., 2023; You et al., 2025; Gou et al., 2024; Meng et al., 2024; Chen et al., 2024a; Wu et al., 2024a; Zhang et al., 2023a; Yan et al., 2023; Ma et al., 2023; Zhang et al., 2024a; He et al., 2024a; Wang and Liu, 2024】。例如,Wu 等人【2024a】提出的 OS-Atlas 是一个基础 GUI 动作模型,它通过跨平台合成 GUI 对齐数据,显著提升了 GUI 基础对齐能力与分布外任务表现;OS-Copilot【Wu et al., 2024b】则是一个智能体框架,旨在开发通用型智能体以自动化各种计算机任务,在多种应用场景中展现出强大的泛化能力和自我提升能力,即便在弱监督下亦表现出色。 鉴于该领域的迅速发展和日益丰富的研究成果,有必要进行一次全面综述,以整合当前研究现状。 在本综述中,我们首先在第 §2 节讨论 OS 智能体的基本概念,定义何谓 OS 智能体,并如图 2 所示,重点介绍三个核心组成部分:环境、观测空间与动作空间(§2.1)。随后,我们总结 OS 智能体应具备的关键能力,包括理解、规划与基础对齐(§2.2)。 接下来,在第 §3 节中我们深入探讨构建 OS 智能体的两个关键方面:(1)面向特定领域的基础模型开发,涵盖架构设计、预训练、监督微调与强化学习等内容(§3.1);(2)围绕这些模型构建高效的智能体框架,涵盖感知、规划、记忆与动作等核心模块(§3.2)。 在第 §4 节中,我们回顾了 OS 智能体常用的评估协议(§4.1)与基准数据集(§4.2),以了解其在多样任务中的性能表现。最后在第 §5 节,我们探讨 OS 智能体当前所面临的挑战与未来研究方向,特别关注安全与隐私问题(§5.1)、个性化与自我演化能力(§5.2)。 本综述旨在推动 OS 智能体的研究与开发,通过深入剖析其关键能力、构建方法与评估方式,帮助读者全面理解该领域的最新趋势、技术挑战与未来发展。我们也认识到,OS 智能体仍处于早期阶段,新的方法与应用正在迅速涌现。为支持该领域的持续进展,我们维护了一个开源的 GitHub 仓库,作为动态资源。我们希望本研究能够激发更多创新,推动 OS 智能体在学术研究与工业应用中的发展。 https://arxiv.org/abs/2508.04482

成为VIP会员查看完整内容
0

相关内容

智能体网络:用AI智能体编织下一代网络
专知会员服务
18+阅读 · 8月5日
多智能体协作机制:大语言模型综述
专知会员服务
61+阅读 · 3月4日
医学应用中的可解释人工智能:综述
专知会员服务
35+阅读 · 2024年12月8日
基于大型语言模型的软件工程智能体综述
专知会员服务
52+阅读 · 2024年9月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
73+阅读 · 2024年8月20日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
大语言模型的终身学习综述
专知会员服务
74+阅读 · 2024年6月15日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
127+阅读 · 2024年2月6日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
69+阅读 · 2024年1月3日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Windows开源无人机仿真工具:AirSim1.0 入门
无人机
26+阅读 · 2019年6月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
机器学习知识体系
架构文摘
19+阅读 · 2018年1月7日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
智能体网络:用AI智能体编织下一代网络
专知会员服务
18+阅读 · 8月5日
多智能体协作机制:大语言模型综述
专知会员服务
61+阅读 · 3月4日
医学应用中的可解释人工智能:综述
专知会员服务
35+阅读 · 2024年12月8日
基于大型语言模型的软件工程智能体综述
专知会员服务
52+阅读 · 2024年9月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
73+阅读 · 2024年8月20日
自动驾驶中的多智能体强化学习综述
专知会员服务
45+阅读 · 2024年8月20日
大语言模型的终身学习综述
专知会员服务
74+阅读 · 2024年6月15日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
127+阅读 · 2024年2月6日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
69+阅读 · 2024年1月3日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Windows开源无人机仿真工具:AirSim1.0 入门
无人机
26+阅读 · 2019年6月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
机器学习知识体系
架构文摘
19+阅读 · 2018年1月7日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员