【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

大型语言模型（Large Language Models，LLMs）在多样且复杂的任务上展现出了卓越能力，但前沿模型与成千上万具有领域特定需求的下游 AI 应用之间，仍然存在着一种根本性的解耦。这种割裂同时限制了性能与效率：模型的训练与服务过程并未考虑下游应用的具体需求。在本论文中，我们设计了一系列系统与算法，将模型层与应用层进行紧密耦合，从而推动应用感知（application-aware）的基础设施与模型发展。首先，我们提出了三种面向应用感知基础设施的系统，用以优化成本与性能。Agentix 是一种推理服务引擎，它为 AI 智能体引入了应用感知的调度机制。通过跟踪 LLM 调用之间的依赖关系并利用应用层统计信息，Agentix 相较于 vLLM 等最先进系统，在端到端响应时间上实现了 4–15 倍的提升，从而显著降低了成本。接下来，Stylus 是一种可扩展的模型路由器，能够从超过 10 万个 LoRA 适配器中检索并组合最优适配器，从而在性能上超越基础版 Stable Diffusion。最后，Starburst 是一种面向混合云机器学习基础设施的成本感知调度器，它根据作业特性动态分配等待时间，在保持极低作业完成时间的同时，将云端成本最高降低 91%。随后，我们进一步表明，通过强化学习（Reinforcement Learning，RL）将模型与应用进行耦合，能够同时实现更高性能与更低成本。借助 Agentica Project，我们展示了经由应用特定强化学习训练的小模型，能够以远低于前沿模型的成本达到相当的性能水平。DeepScaleR 是一个 15 亿参数的模型，仅使用 3,800 GPU 小时便在数学推理任务上超越了 o1-preview，相较以往方法实现了 18 倍的成本降低。DeepCoder 使用一个 140 亿参数模型，在竞技编程任务上达到了 o3-mini 级别的性能。最后，DeepSWE 训练了一个 320 亿参数的最先进自主编程智能体，其性能相比所有先前的开源智能体提升了超过 12 个百分点。总体而言，这些工作为应用开发者与各类组织民主化了对前沿级 AI 能力的获取，使高性能、低成本的 AI 系统构建成为可能。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】结构与解构：知识引擎生成中的双重力量

专知会员服务

19+阅读 · 9月5日

【CMU博士论文】通信高效且差分隐私的优化方法

专知会员服务

14+阅读 · 8月2日

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

21+阅读 · 7月17日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

20+阅读 · 7月6日