摘要—— 大语言模型(LLM)与智能体(Agent)在数据分析中的应用(即 LLM/Agent-as-Data-Analyst)已在学术界与工业界展现出显著影响。与传统的基于规则或小模型的方法相比,(具备智能体特性的)LLM 能够支持复杂数据理解、自然语言交互、语义分析功能,以及自主的数据管道编排。技术演进进一步提炼出智能数据分析智能体的五大关键设计目标,即语义感知设计、模态融合集成、自主管道、工具增强工作流,以及开放世界任务支持。从模态视角来看,我们回顾了基于 LLM 的技术在以下方面的应用:(i)结构化数据(如关系数据的表格问答与图数据的 NL2GQL),(ii)半结构化数据(如标记语言理解与半结构化表格建模),(iii)非结构化数据(如图表理解、文档理解、编程语言漏洞检测),以及(iv)异构数据(如数据湖的数据检索与模态对齐)。最后,我们总结了尚存的挑战,并提出若干见解与实践方向,以推动基于 LLM/智能体的数据分析发展。 关键词—— LLM,智能体,数据分析,结构化数据,半结构化数据,非结构化数据,异构数据
数据分析(广义地定义为对数据进行检查、转换与建模,以发现有用信息并支持决策的过程)是现代科学研究与商业智能的基石之一 [70, 13, 113, 282]。它覆盖从结构化数据库、半结构化表格到非结构化文档与视频等多种数据模态,并支撑着金融、医疗、工程、社会科学等领域的关键应用 [162, 23, 27]。
传统的数据分析流水线虽能有效提取信息与统计模式,但往往需要大量领域知识、繁重的人工特征工程,以及多种专用工具的集成 [244]。随着数据规模、复杂度与异质性不断增长 [130],这些限制愈发凸显,构成了传统数据分析的内在薄弱环节。 L1:人工式开发。 最耗力的挑战在于传统工作流依赖僵硬的、手工设计的流水线,要求领域专家事先明确各个建模步骤 [286, 287, 280]。在大型企业数据库中,客户、订单、支付、发货、商品等分别以独立数据表存储且各含数十个属性,即便是回答诸如“上个季度高级会员的平均配送时长是多少?”这样看似简单的业务查询,也可能迫使分析人员选择关联表、定位对应属性、处理复杂的多表连接、施加领域约束并统一时间戳字段。对于文档问答,在包含多样元素(如文本块、表格、图表、图像)的长文档中检索相关信息通常需要分析师逐页审阅并概括内容,这一过程高度依赖人力。此类手工流水线不仅构建耗时,而且当数据特性或分析目标变化时难以适配。 L2:硬编码的工具依赖。 现有数据分析系统通常内置一组与特定工作流紧耦合的工具(如可视化看板、统计包或机器学习模块 [5]),这与底层数据类型的复杂性相关。例如,从知识图谱中抽取统计信息并进一步做线性回归建模时,分析人员需先撰写 GQL 查询并调用图数据库内置 API 获取数据,随后再借助机器学习库(如 scikit-learn、PyTorch)开展分析。相对地,3D 模型分析则更依赖领域特定知识与专用系统(如 AutoCAD、PyMOL [4])。这类分析常受限于这些系统内嵌的功能,要求缺乏编程能力的分析师跨系统集成多个工具才能完成单一任务。异构系统的耦合不仅提高了分析流程的复杂度与开销,也妨碍了可扩展性并使其难以融入更广泛的分析工作流。 L3:同质化的模态支持。 现有系统通常针对特定数据类型进行了优化,其体系结构与查询引擎也面向特定格式而定制。例如,关系型数据库适于结构化数据 [95],而 MongoDB 等系统则面向 JSON 等半结构化格式 [6]。在分析附带时间戳描述的视频时,分析人员常需手动将帧与相应文档对齐以实现跨模态分析 [158]。这种“专才化”削弱了跨模态异构数据的分析能力,进而提升了分析复杂度、引入错误并限制了洞察的广度与效率。 L4:基于表层格式的分析。 传统方法虽擅长过滤、聚合等操作,但缺乏对数据中语义信息的推理能力。比如在表格分析中,若单元格包含较长文本,SQL 往往只能检索或匹配关键词,而无法理解其语义(如情感、意图、因果关系)[280]。同样地,对于图表或文档等非结构化数据,分析师仍需手动解读与总结以满足分析需求 [69]。缺乏语义理解限制了当前系统的分析深度,也难以支撑超越表层模式、需要复杂知识推理的任务。
近来的大语言模型(LLM)与基于 LLM 的智能体带来了缓解上述挑战的新机遇。如图 1 所示,通过自设计的分析流水线、自适应的工具辅助工作流与自然语言交互,LLM 有潜力降低技术门槛、增强可解释性,并加速从多样数据形式中发现可执行洞见。 O1:复杂数据理解。 得益于对潜在模式与上下文依赖的表征能力 [196, 200],LLM 能够处理并推理关系数据、半结构化表格与非结构化文本等复杂数据。以图数据为例,模型不仅能理解结点与边所承载的语义内容,还能就其底层结构属性(如连通性、社群模式、层级组织)进行推理。这种深度而整体的理解使分析师能够产出融合定量度量与定性细节的更丰富洞见 [18]。 O2:自然语言接口(NL-based)。 基于 LLM 的分析智能体以自然语言为主要交互接口,使用户无需掌握 SQL 等专用查询语言或高级编程技能即可表达分析需求 [130, 115]。这种接口形式既提升了分析便捷性、加快了整体流程,也拓宽了不同用户群体参与数据驱动决策的范围 [202, 69]。 O3:语义算子。 LLM 使能结构解读、内容摘要等语义层操作,尤其适用于结构关系丰富或文本信息密集的数据 [219]。例如,在医疗记录数据库检索中,传统查询可能只返回包含“fever(发热)”一词的文档,而 LLM 驱动的算子还能识别“high temperature(高体温)”“febrile condition(发热状态)”等语义相关表述,从而增强查询的表达力,帮助分析师获得更准确、具备上下文意识的结果 [94, 232]。 O4:自主进化。 LLM 智能体并非静态工具,而是能够通过持续交互与学习来改进表现的自适应系统。鉴于分析需求与数据环境必然随时间演化 [76],这一能力尤为关键。例如,一个金融分析智能体最初或许专注趋势预测,但在迭代反馈中会扩展到实时检测异常或纳入新兴风险因子。此类自主演化有助于保持系统的先进性,减少对人工重配置的依赖,并持续提供更个性化与高效的分析支持 [19]。
如图 1 与图 2 所示,鉴于数据格式与应用场景的多样性,我们从两条维度对 LLM 赋能的数据分析进行分类:(1)所支持的数据模态范围(x 轴):结构化、半结构化、非结构化与异构;(2)交互范式的演进(y 轴):基于代码(code-based)、基于领域特定语言(DSL-based)与基于自然语言(NL-based)。
结构化数据(如关系数据库 [42] 与图数据 [16])因其标准化模式与明确定义语义而在工业实践中居于核心。传统路径依赖 SQL 等代码式查询语言,随后发展出面向特定领域任务的 DSL [2]。在 LLM 的推动下,用户可通过自然语言接口进行交互,进一步经代码生成、DSL 映射或LLM 问答来操作结构化数据 [139, 188],而智能体还能编排多步分析工作流 [292]。其核心在于利用 LLM 驱动流水线或端到端处理。 * 关系数据。 常见做法是将自然语言分析任务通过 LLM 转为 SQL 或代码,进而对数据库进行操作以获得结果。为更好对齐自然语言与专用语言,常在流水线中引入模式链接 [271]、信息检索 [174] 与任务分解 [76];或在特定任务上对模型进行微调 [265] 以提升端到端生成质量。另一方向是跳过数据库操作,直接使用 LLM 做语义分析,这要求模型更好理解分析意图与结构化数据内在关系,因而在流水线中常采用 RAG [170]、提示工程 [290] 与任务分解 [283],并通过 MLLM/LLM [285, 196] 在文本或可视化表格表示上进行推理。作为关系数据的一种特化形态,时间序列同样受益于类似技术:将自然语言转代码、检索与变换序列,或直接进行时序推理 [14, 96]。 * 图数据。 图以实体及其依赖关系刻画复杂网络语义,但也带来巨大的搜索空间与路径推理挑战。已有图数据库与专用查询语言 [1, 3],因此可将 LLM 作为自然语言与图查询语言的接口。为促进模型对图结构与语法的理解,常引入智能体 [130]、微调与提示工程 [129]。而面向图上的语义分析,主流思路体现为 RAG [276]、智能体 [146] 与微调 [264] 的结合。
半结构化数据介于非结构化文本与完全结构化的关系数据库之间,通常具备一定组织结构但不遵循严格模式。 * 标记语言。 XML、JSON 与 HTML 是常见形式。由于其同时包含标签与内容并天然具备结构属性,其技术演进与半结构化表格关系紧密,也推动了结构感知的预训练语言模型(PLM)发展 [18, 221]。 * 半结构化表格。 这是一类更灵活的表格数据。传统基于 PLM 的方法(如 [73][140])受限于对复杂版式、不规则表头与层级结构的表征能力。随着 LLM 的出现,新范式包括将半结构化表格转换为类关系型形式(SemiStru2Stru) [54, 117],以及利用 DSL 显式编码结构与操作的DSL 建模 [202]。
非结构化数据涵盖图表、视频、文档、程序代码与 3D 模型等,因缺乏固定模式而对传统流水线提出挑战。 * 图表(Chart)。 传统方法多依赖手工特征、模板匹配或规则解析 [99, 157, 180],易受设计与版式变化影响。LLM 出现后,可借助多模态理解解释图表的视觉与结构元素 [154],执行语义数据抽取,并支持基于自然语言的推理、描述生成 [135, 164, 193] 与 QA [243, 46, 256] 等任务。 * 视频(Video)。 视频包含随时间演化的空间内容,需要语义与动态的联合建模。传统视觉骨干结合时间池化/注意力的方法面临标注成本与长序列效率问题 [33][210]。近期工作将视频重构为结构化 token 序列,以便 LLM 推理;智能体进一步将查询分解为时间定位、模态融合与摘要等子任务,从而实现更丰富的时序理解与高效计算 [33][49]。基于此,LLM 也扩展到视频情感分析(融合视觉、声学、文本线索进行情绪推断),并结合姿态/3D 网格重建,支持互动建模与关系情感预测 [90, 159]。在目标检测方面,将高精度检测器与多模态推理结合,能够在视频中进行以对象为中心的摘要与参照定位 [48, 269]。此外,手势与行为检测可利用 LLM 驱动的流水线提取细粒度运动与手势特征,支持交互分析与具身行为推理,常借助 3D 重建以提升保真度 [236, 235]。 * 文档(Document)。 PDF、网页与扫描报告是商业与学术信息的主要载体。传统文档分析依赖 OCR 与规则模板 [277, 67],在复杂/多变版式与深层语义理解上乏力。多模态 LLM 通过统一处理文本—版面—视觉信息带来了变革: (1) 架构创新(如 LayoutLM 系列到 DocLLM)协同理解结构与内容 [253, 254, 86, 209];(2) RAG 适配长文档或多文档的问答与摘要 [110, 108];(3) 合成数据生成缓解标注数据稀缺 [184, 187]。这些技术推动文档处理从信息抽取迈向深度推理与综合。 * 程序(Program)。 程序分析旨在理解、验证与优化源代码,是软件工程的基石。传统静态/动态分析严谨但需要大量专业知识,且难以扩展至语义复杂的大型代码库。LLM 通过大规模代码学习获得了强大的生成与理解能力,催生新的分析范式。其核心在于构建与利用代码—任务对(如带漏洞标签、功能描述的代码片段)。借助迭代改写、自我校正等高级数据合成技术 [148, 34],可生成高质量训练数据,支持自动定理证明(ATP)、漏洞检测与仓库级补全等前沿应用 [247, 142, 272]。值得注意的是,代码领域 RAG 的深化显著增强了模型利用整个代码仓上下文的能力 [128, 239, 63]。 * 3D 模型(3D Model)。 3D 模型以点云、网格或体素表示欧氏空间中的物体/场景,广泛用于场景理解与科学分析。传统流程依赖几何处理(如网格简化、点云配准)[78, 59, 37] 与专业建模软件(如 Blender、Maya [25, 204]),既需要人工标注又缺乏语义理解。近期方法通过 3D–语言对齐 [77] 将几何转换为结构化嵌入或文本描述以便推理;智能体编排专用 3D 编码器与工具链,支持描述生成、导航、科学问答等任务 [77, 250]。进一步地,3D–语言融合框架将点云/网格映射到与自然语言对齐的嵌入,促进3D-LLM、3UR-LLM 等任务 [77, 250];面向领域的扩展将分子与蛋白结构纳入多模态推理(如 3D-MoLM、ProteinChat、ProtChatGPT)[119, 61, 208]。此外,跨模态细化通过特征增强与域自适应来桥接 2D/3D(如视觉定位、2D–3D 对齐或联合预训练),增强多模态 LLM 的泛化 [77, 119, 250]。
异构数据指多种类型数据的集成(如关系数据、半结构化表格、文档图像)[217]。早期研究聚焦异构数据管理 [7],通过类 SQL 语言实现数据检索。结合 LLM 的最新进展主要体现在三方面:(i)跨模态对齐 [205, 38](如利用自然语言描述计算跨模态相似度);(ii)面向异构数据检索的自然语言接口 [169, 218](将用户查询翻译为预定义 API 序列);(iii)异构数据分析智能体 [162, 219](为 LLM 配备适配不同模态的语义操作工具)。
如图 1 所示,LLM 赋能的数据分析智能体可沿五个关键维度概括,每一维对应通用数据分析智能体的设计目标: * 从字面到语义。 早期更多是生成可执行代码或 DSL 来辅助分析;现在正转向基于语义理解直接产出分析结果,减少中间过程。 * 从单一模态到模态融合。 由仅支持单模态转向可在多模态之间进行协同分析的模态混合能力。 * 从人工开发到自主设计。 由人工分解工作流(任务拆解、代码生成、操作执行)转向更广泛的自主工作流设计,降低人为介入。 * 从工具耦合到工具辅助。 由紧耦合、框架特定的工具体系,转向可调用任意工具集的解耦架构,提升灵活性与适应性。 * 从封闭世界到开放世界。 由面向特定领域任务的定制智能体,演进到可分析多样真实世界数据(文档、视频等)的通用型智能体,降低用户门槛。
相较于现有关于数据分析 LLM 的综述 [139, 188, 292, 185, 181, 97, 242, 53, 22, 58, 12, 201],我们的工作更全面、细致地覆盖了不同数据类型上的关键技术,并强调这些类型之间的内在联系。我们独特地从数据模态与接口语言两个视角审视技术发展趋势,并进一步提出构建通用 LLM 数据分析智能体的关键设计维度。 * 典型数据分析任务的全景式综述。 不同于聚焦于单一模态或单一任务(如 NL2SQL [139, 188, 292]、图理解 [185, 181]、表格问答 [97, 242]、文档理解 [53, 22]、图表理解 [58, 12]、视频理解 [201])的综述,我们按结构化—半结构化—非结构化—异构数据系统化梳理技术版图,追踪 LLM 赋能数据分析的技术演进,并识别面向通用数据分析智能体的五个关键设计维度。 * 数据分析技术的细粒度回顾。 超越高层概述,我们深入讨论具有代表性的技术路线,阐释其基本原理、技术设计与应用场景。区别于以往综述,我们进一步强调面向下游任务的数据构建/整理的重要作用,并给出相应的分析洞见。 * LLM/智能体作为数据分析师的最新进展。 除既有技术外,我们着重梳理了利用 LLM 推动数据分析的前沿发展(如智能体式设计、多模态对齐、交互技术),为研究者与实践者提供最新的参考。 * 开放挑战与未来方向。 我们识别了尚未解决的关键技术与实践挑战(如可扩展性、评测、真实系统集成),并在此基础上提出有前景的研究方向,以引导通用型 LLM 数据分析智能体的发展。
第 2 节讨论面向结构化数据的 LLM 方法,涵盖关系数据(第 2.1 节)与图数据(第 2.2 节)。第 3 节回顾半结构化数据分析,包括标记语言(第 3.1 节)与半结构化表格(第 3.2 节)。第 4 节考察非结构化数据分析,覆盖图表(第 4.1 节)、视频(第 4.2 节)、文档(第 4.3 节)、编程语言(第 4.4 节)与 3D 模型(第 4.5 节)。第 5 节面向异构数据分析。对每类数据,我们先介绍数据分析技术,再给出数据构建/整理的小节。第 6 节讨论各数据类型面临的挑战与未来方向,第 7 节总结全文。