摘要—— 大型语言模型(LLMs)的迅猛发展推动了数据智能体(data agents)的兴起——这类自主系统旨在协调 Data + AI 生态,以应对复杂的数据相关任务。然而,“数据智能体”一词目前存在术语歧义使用不一致的问题,常常将简单的查询响应器与复杂的自主体系结构混为一谈。这种术语模糊不仅导致用户期望错位、责任界定困难,还阻碍了产业生态的健康发展。 受 SAE J3016 自动驾驶分级标准的启发,本文首次提出了一个针对数据智能体的系统性分层层级分类法(hierarchical taxonomy),将其自主性划分为六个等级,从人工操作(L0)到具备生成式能力的完全自主数据智能体(L5),以此明晰能力边界与责任分配。 在此框架下,本文对现有研究进行了按自主性递增排序的系统性回顾,涵盖了用于数据管理、数据准备与数据分析的专用数据智能体,以及面向更高自主性、更加通用与综合化系统的最新探索。我们进一步分析了推动数据智能体演进的关键跃迁与技术缺口,特别关注当前从 L2 向 L3 过渡阶段——即数据智能体从“过程执行”向“自主编排”转变的关键时期。最后,本文展望了未来的发展路线图,描绘了具备主动性与生成式能力的数据智能体的到来。 关键词—— 数据智能体;自主性;数据管理;数据准备;数据分析;数据湖 I. 引言 人与数据交互的方式正在经历一场革命性变革。

传统上,从数据管理、准备到分析的整个过程往往需要大量的人力投入、专业技能与技术熟练度 [1]–[6]。因此,数据科学与分析领域长期以来的愿景之一,就是构建一种能够自主管理、准备和分析数据的智能体,以最小的人类干预提供可信赖的洞见 [7]。 大型语言模型(LLMs)及其衍生的 LLM 智能体 的出现,使这一愿景逐渐成为现实 [8]–[10]。凭借其在理解与推理方面的卓越能力 [11]–[13],LLM 智能体已经超越了简单问答系统的范畴。最新的研究成果表明,基于 LLM 的智能体不仅具备更强的推理能力,还展现出环境感知与交互、记忆保持、问题分解、策略规划以及外部工具调用等新兴能力 [14]。例如,早期框架 ReAct [15] 将“推理”与“行动”结合,使 LLM 能够在与外部环境交互的过程中创建并调整高层次计划;CoALA [16] 引入了记忆系统以增强决策能力,而 AFlow [17] 则聚焦于智能体工作流的自动生成与优化。在工具使用方面,ToolQA [18] 探索了利用外部工具(如数据库加载器与代码沙箱)的方法,而 ReTool [19] 则通过强化学习进一步提升了 LLM 智能体的工具调用能力。


A. 数据智能体的黎明

在这一趋势下,数据智能体(Data Agents) 被提出以应对数据密集型环境中的独特挑战。数据智能体被定义为一种基于 LLM 的综合性体系结构,能够编排 Data + AI 生态系统,以自主完成广泛的数据相关任务 [20], [21]。 如图 1 所示,数据智能体充当了一个中央智能层,连接面向用户的应用程序与底层数据基础设施,生成的输出包括优化的数据库配置、准备好的数据、数据洞见、可视化图表或分析报告等。形式上,我们可定义一个作用于原始数据 DDD、处于环境 EEE(例如数据库管理系统、代码解释器、API 等)中的数据智能体 AAA,其利用 LLM 模型 MMM 生成输出 OOO 来完成特定的数据任务 TTT:A:(T,D,E,M)→O.A : (T, D, E, M) \rightarrow O.A:(T,D,E,M)→O. 与那些面向数学推理或开放式对话的通用 LLM 智能体不同,数据智能体专为探索和操作庞大、异构的数据湖而设计。表 1 比较了数据智能体与一般 LLM 智能体的差异。后者的问题通常封闭且自包含,可通过有限的提示求解;而数据湖则由多种格式与结构的海量数据源组成,无法整体纳入上下文窗口。因此,数据智能体必须能够主动地探索与交互、抽样数据子集、探测模式与结构、动态优化查询,以按需发现洞见而无需穷尽式数据处理。更重要的是,数据智能体并非处理静态且完备的数据,而是面对动态、多噪声的环境,因此在数据管理与准备中需具备鲁棒性与自适应能力。

为应对上述挑战,数据智能体需具备以下关键能力: (i) 感知、监测与交互式探索异构数据湖的能力,通过采样、查询与环境反馈实现符合用户意图的推理; (ii) 稳健的工具调用能力,包括 SQL 等价检查器、数据库管理工具、代码解释器或可视化库等; (iii) 具备应对噪声、不一致性、可扩展性限制及实时更新的自适应知识与推理能力,从而在数据清洗、集成等任务中防止误差累积、保障结果可靠性。 数据智能体的出现,标志着实现“数据任务民主化”的关键一步 [8], [22], [23]。这一进展贯穿于数据生命周期的三个阶段: 1. 数据管理(Data Management):包括 (i) 系统参数调优(如数据库参数配置)以优化性能;(ii) 查询优化(SQL 重写与执行计划选择);(iii) 系统诊断(检测与修复异常)。 1. 数据准备(Data Preparation):包括 (i) 数据清洗(识别并修复错误、缺失或不一致值);(ii) 数据集成(融合异构数据源并解决模式或实体冲突);(iii) 数据发现(识别相关数据集、元数据与模式)。 1. 数据分析(Data Analysis):包括 (i) 结构化数据分析(如 TableQA、NL2SQL、NL2VIS 等);(ii) 非结构化数据分析(文档、图像等);(iii) 报告生成(将分析结果整合为连贯叙述)。

近期研究致力于通过先进的数据智能体减轻这些任务的高劳动强度。例如,GaussMaster [24] 通过多智能体协同系统改进数据库维护与索引建议;AutoPrep [25] 通过增强推理与工具调用能力,实现基于自然语言问题的数据准备;Alpha-SQL [26] 与 nvAgent [27] 则通过自然语言接口提升数据库交互与可视化编排的便利性;而 iDataLake [28] 进一步扩展至异构数据分析中的数据链接、管道编排与执行。


B. “数据智能体”术语的歧义性

尽管数据智能体研究进展显著,但该术语在学术界与产业界使用不一致,导致明显的术语歧义。这一模糊标签将自主性、可靠性与复杂性迥异的系统混为一谈。例如,有研究致力于开发能够自主交互、调用外部工具(搜索引擎、代码解释器、数据库连接器等)、编排与优化复杂数据管道的高级系统;而另一些则将“数据智能体”用于描述仅执行原子任务、缺乏环境感知与自我优化的简单助手系统。 这种歧义带来了三类主要风险: * 用户侧风险:术语模糊造成期望错位。用户若无法准确理解智能体的能力范围,容易高估或误用系统,从而产生错误信任或拒绝正确结果。 * 治理风险:期望错位引发问责难题。当智能体超出其能力边界运行,导致数据泄露、隐私违规或报告错误时,责任界限模糊:是操作人员理解不足的过错,还是供应方系统设计不当? * 产业侧风险:术语模糊阻碍行业发展。缺乏统一的自主性分级体系,难以客观比较系统能力,易导致过度宣传与市场信任下滑,最终抑制技术落地。


C. 数据智能体的层级分类体系

这一问题并非首次出现。自动驾驶领域曾面临类似困境,“自动驾驶”一词长期混淆了驾驶辅助与完全自主系统。为此,汽车工程师学会(SAE)提出了著名的 J3016 六级分类标准 [29],明确划分了从 0 到 5 各级中人机之间的责任与控制界限,从而形成了统一的技术语言 [30]。该标准极大促进了责任界定、公众认知与产业标准化。 借鉴此思路,本文提出一种面向数据智能体的层级分类体系(L0–L5),以自主性递增的视角描绘控制与责任如何从人转移至智能体。随着自主性提高,人类角色从“执行者”逐步转变为“监督者”、“旁观者”,直至“完全脱离”,而数据智能体则从辅助工具演化为具备责任意识的完全自主数据科学家。 如图 1 所示,该体系包括六个层级: * L0:完全人工操作; * L1:针对孤立任务的初级无状态辅助; * L2:部分自动化,能够感知环境并执行特定流程,但仍需人类编排; * L3:条件自主,能自主编排与优化管道以在监督下执行复杂任务; * L4:高自主性,主动型智能体具备持续自管理能力,无需监督; * L5:完全自主与生成式,能够创造知识与创新范式,相当于专家级数据科学家。

通过该层级体系,本文旨在明确各级智能体的能力边界与责任划分,从而提升用户预期管理、科研导向与治理有效性。第 II 节将详细阐述各层级特征。


D. 对比与本文贡献

与现有综述 [7], [22], [23], [31]–[36] 及教程 [8]–[10], [37] 相比,本文的主要区别与贡献如下: * 提出首个层级分类体系(L0–L5),以自主性递进方式系统比较数据智能体,构建统一分析框架,而现有综述多按体系结构或应用场景分类,缺乏自主性演化视角。 * 覆盖完整数据生命周期,系统梳理数据管理、准备与分析各阶段的智能体研究,而以往多数综述聚焦于子领域或单一阶段。 * 聚焦前沿进展,综述当前专用型与多任务型智能体的发展趋势,尤其是具备自编排能力的综合系统。 * 揭示演化跃迁与技术缺口,重点分析从自动执行到自主编排的关键瓶颈,包括管道编排能力不足、依赖预定义算子、生命周期覆盖不全与战略推理缺失。 * 提出前瞻性路线图,展望未来方向,如数据湖中的自主问题发现、生命周期权衡、长期与整体视角的综合推理,迈向具备主动治理能力与生成能力的高自主数据智能体。

本文主要贡献如下:

创新性层级分类体系:首个系统性 L0–L5 分类框架,用于比较现有系统、划定能力边界与责任界限; 1. 结构化系统综述:基于自主性演化的系统性回顾与差距识别; 1. 演化与挑战分析:深入探讨数据智能体发展的关键跃迁与当前瓶颈; 1. 前瞻性研究路线图:提出面向主动型与生成式数据智能体的未来研究方向。


E. 论文结构

本综述的结构如下: * 第 II 节介绍所提出的 L0–L5 层级体系,并阐述各自主性等级之间的演化特征; * 第 III、IV、V 节分别综述处于 L0/L1、L2 以及向 L3 过渡阶段的研究工作; * 第 VI 节展望实现 L4 与 L5 数据智能体的愿景与挑战; * 第 VII 节给出总结与未来展望。

成为VIP会员查看完整内容
0

相关内容

国防领域人工智能走向何方?
专知会员服务
10+阅读 · 10月18日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
17+阅读 · 9月7日
深度学习图像匹配:综述与展望
专知会员服务
16+阅读 · 6月6日
非结构化环境中的自动驾驶:我们已走多远?
专知会员服务
26+阅读 · 2024年10月13日
专题综述 | 大语言模型中的知识生命周期
专知会员服务
59+阅读 · 2024年4月16日
人工智能与博弈论的融合:彻底改变战略决策
专知会员服务
65+阅读 · 2024年1月23日
盘点当下大热的 7 大 Github 机器学习『创新』项目
机器学习算法与Python学习
13+阅读 · 2019年9月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
脉冲神经网络,下一代机器学习?
专知
12+阅读 · 2018年1月13日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
十种主流GANs,我该如何选择?
AI前线
14+阅读 · 2017年11月21日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 10月23日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
176+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
国防领域人工智能走向何方?
专知会员服务
10+阅读 · 10月18日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
17+阅读 · 9月7日
深度学习图像匹配:综述与展望
专知会员服务
16+阅读 · 6月6日
非结构化环境中的自动驾驶:我们已走多远?
专知会员服务
26+阅读 · 2024年10月13日
专题综述 | 大语言模型中的知识生命周期
专知会员服务
59+阅读 · 2024年4月16日
人工智能与博弈论的融合:彻底改变战略决策
专知会员服务
65+阅读 · 2024年1月23日
相关资讯
盘点当下大热的 7 大 Github 机器学习『创新』项目
机器学习算法与Python学习
13+阅读 · 2019年9月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
脉冲神经网络,下一代机器学习?
专知
12+阅读 · 2018年1月13日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
十种主流GANs,我该如何选择?
AI前线
14+阅读 · 2017年11月21日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员