包括大型语言模型(LLMs)和扩散模型在内的大规模模型的快速发展,正在改变人工智能的格局,但其广泛部署仍受计算效率、内存带宽和资源利用等关键瓶颈的制约。本文系统性地研究了这些挑战,并提出了多种新方法,在不同的大模型推理任务中优化推理性能,在速度、内存和计算需求之间实现平衡,同时不牺牲输出质量。 对于 LLMs,一个核心瓶颈是自回归解码过程中的内存带宽限制:顺序生成 token 会因模型参数的重复传输而带来大量开销。为此,我们提出 Medusa 框架,通过增加并行解码头并采用基于树的注意力机制,实现同时预测多个 token,从而减少 2.3–2.8× 的解码步骤,在保持输出质量的前提下显著加速推理。 此外,我们还针对高效部署多个微调模型的问题,提出 BitDelta 方法,将微调模型的权重差(delta)压缩为 1 位(single bit),在不降低性能的前提下将 GPU 内存占用减少超过 10×,从而支持高效的多租户部署,实现定制化模型的更快、更经济的服务。 除了面向硬件的优化,我们还探索了系统级的协同优化,以提升大模型推理的整体效率。ToolMaker 提出了一个闭环框架,由一个强大的 LLM 生成可复用的工具(如 Python 函数),再由更轻量的模型调用这些工具进行问题求解。这种在资源密集的工具创建与成本更低的工具使用之间的分工,有助于降低推理成本并提升模型的可扩展性。 在扩散模型领域,由于分辨率提升会显著增加计算成本,我们提出 Distrifusion 分布式推理框架,利用扩散步骤间的时间一致性(temporal coherence),复用预计算的特征图,并通过流水线机制减少通信开销,从而在多 GPU 环境下实现最高 6.1× 的加速。进一步地,SVDQuant 提出针对扩散模型的 4 比特量化方法,能够利用现代张量核心(tensor cores)显著提升计算吞吐量,同时不降低图像质量。 总体而言,这些工作针对不同模型架构与部署场景的关键瓶颈提出了系统性的解决方案,并已在工业界得到广泛应用。