摘要——扩散模型(Diffusion Models)凭借其卓越的生成质量与可控性,已成为当代生成式人工智能的核心支柱。然而,其固有的“多步迭代”与“复杂主干网络”推理范式导致了巨大的计算开销与显著的生成延迟,成为限制其实时交互式应用部署的关键瓶颈。尽管现有加速技术已取得一定进展,但仍面临适用性受限、训练成本高或生成质量下降等问题。 在此背景下,Diffusion Caching(扩散缓存) 作为一种无需训练(training-free)、与架构无关(architecture-agnostic)且高效的推理范式,展现出极具潜力的技术路径。其核心机制在于精准识别并重用扩散推理过程中的内在计算冗余,通过特征级跨步复用(feature-level cross-step reuse)与层间调度(inter-layer scheduling),在不改变模型参数的前提下有效降低计算负担。 本文系统回顾了扩散缓存的理论基础与技术演进,并提出了一个统一的分类与分析框架。通过对代表性方法的比较分析,我们指出扩散缓存呈现出从“静态复用(static reuse)”到“动态预测(dynamic prediction)”的清晰演化路径。这一趋势不仅增强了缓存机制在应对多样化生成任务计算需求方面的灵活性,也为其与采样优化(sampling optimization)、模型蒸馏(model distillation)等主流加速技术的深度融合奠定了基础,从而共同构建面向未来多模态与交互式应用的统一高效推理框架。 通过本综述的系统梳理与前瞻性分析,我们旨在为研究者提供清晰的扩散缓存技术路线图。我们认为,这一高效推理范式将成为推动生成式人工智能迈向实时性能与广泛应用的关键支撑技术,为“高效生成智能(Efficient Generative Intelligence)”的理论构建与实践落地注入新的活力。 关键词——扩散模型;基于缓存的加速;推理加速;特征缓存
近年来,扩散模型(Diffusion Models, DMs) 在生成式人工智能领域取得了突破性进展,尤其在图像与视频生成任务中展现出卓越的性能 [1], [2]。继 GANs [3] 和 VAEs [4] 之后,扩散模型已成为最具代表性的生成范式之一。随着 Diffusion Transformer (DiT) 架构 [5] 的兴起,新一代图像生成模型(如 FLUX [6] 与 Qwen-Image [7])展现出极强的生成能力。同时,在视频生成领域,大量产业化投入推动了超大规模视频扩散模型的发展,催生了多个参数规模高达数千亿的模型,包括开源模型(如 Wan2.1 [2]、Hunyuan [8])与闭源模型(如 Sora2.0 [9]、Movie-Gen [10]、Seaweed [11])。这些模型在生成质量、多样性与可控性方面屡次刷新纪录,展现出强大的生成潜力。 然而,这种性能跃升以计算复杂度和模型规模的迅速膨胀为代价。由于扩散模型采用“逐步去噪(step-by-step denoising)”的生成机制,在采样阶段需要通过深度神经网络进行多次迭代推理,天然具有高度的计算密集性。这一问题在高分辨率图像生成与长序列视频合成中尤为突出,计算需求呈指数增长。例如,使用 Qwen-Image [7] 生成一张 1328 × 1328 图像约需 1.29 × 10⁴ TFLOPs 的计算量,在 NVIDIA H20 GPU 上生成一张图像的延迟高达 127 秒。如此巨大的计算开销严重限制了扩散模型在实时创作与大规模生产中的可行性。 传统加速工作主要集中于数值求解优化 [12] 和模型蒸馏 [13] 等方向。尽管这些方法在一定程度上提升了推理速度,但往往难以在加速与生成保真度之间取得平衡。过度减少采样步数可能引入离散化误差并造成图像质量下降,而基于蒸馏或优化的方案则需额外的计算与标注资源,缺乏灵活性与通用性。 因此,扩散模型的高计算复杂度与推理延迟 已成为其实用化部署的关键瓶颈。生成单张高分辨率图像往往需要数十秒至数分钟,生成一段视频甚至需数小时。这不仅导致系统吞吐量下降,也难以满足实时交互与低成本部署的需求。如何在不牺牲生成质量的前提下实现高效推理,已成为扩散模型从理论研究走向实际应用的关键挑战。
尽管扩散模型在生成质量与可控性方面取得了范式性突破 [14],其计算密集型生成机制在推理阶段仍面临严重的效率瓶颈,生成延迟过高 是最突出的难题。 扩散模型的固有计算结构结合了多步迭代与复杂网络架构,是推理延迟的根源。在生成过程中,模型需逐步对高维噪声进行去噪,每一步都涉及大量参数计算与非线性映射。高保真合成通常需要 20–50 步 去噪,每一步都需执行一次完整的前向传播(如通过多层的 U-Net 或 DiT 网络)。因此,推理时间大致与序列长度、图像分辨率及网络深度呈线性乃至超线性增长。 例如,在 NVIDIA H20 GPU 上生成单张 2K 分辨率图像往往需数分钟,而生成约 129 帧的 720p 视频 则可能需数小时。随着分辨率和时间长度的提升,生成延迟呈指数增长。这一问题不仅存在于学术基准测试中,在实际应用中同样突出: * (1)交互式生成中的延迟问题: 延迟直接影响用户体验。虚拟试衣、实时游戏场景生成、直播背景替换等任务对响应速度极其敏感。当输入与输出间的延迟达数秒乃至数分钟时,交互的自然性与沉浸感显著下降,难以实现真正的实时系统集成。 * (2)设备端与边缘系统部署困难: 即使在高端消费级 GPU(如 RTX 4090)上生成高分辨率图像也需数十秒,而中低端硬件的延迟更为严重。这种对硬件的强依赖提高了应用门槛,限制了模型的普及性。 * (3)云端大规模部署的经济压力: 高延迟直接降低系统吞吐量与并发能力,迫使服务提供者投入更多算力维持响应速度,增加能耗与运营成本,削弱了商业可行性。
综上所述,高生成延迟已成为扩散模型走出实验室、迈向应用化的首要瓶颈。它不仅限制了实时与交互式应用的拓展,也提高了云端部署与个人设备使用的经济门槛。因此,如何在保持生成质量与模型稳定性的同时显著降低端到端推理延迟,成为当前扩散模型加速研究的核心问题。
为应对扩散模型推理延迟高的问题,现有研究主要沿两条技术路线展开: 1. 减少采样步数(Step Reduction); 1. 降低单步计算成本(Single-Step Cost Reduction)。
二者均旨在降低总体计算量,但在实践中往往需要在速度、质量与通用性之间权衡。 * (1)减少采样步数
此类方法通常将扩散过程建模为常微分方程(ODE)或随机微分方程(SDE)的数值积分问题,通过高阶数值求解器(如 DPM-Solver [12]、UniPC [15])扩大积分步长以减少采样次数。然而,当采样步数低于一定阈值(如 <10),离散化误差会迅速累积,导致细节丢失、结构扭曲与伪影出现。 另一类基于蒸馏(如 Consistency Distillation、Progressive Distillation)的方法通过训练轻量模型来近似原模型的多步行为,从而实现少步生成。虽然此类方法加速效果显著,但训练成本高、适应性差,对目标模型与任务依赖强,难以通用部署。 * (2)降低单步计算成本
该方向通过模型压缩或系统级优化降低每次前向传播的计算负担。模型压缩(如量化 [16]、剪枝 [17])可减少计算与内存消耗,但往往牺牲生成质量且需复杂的再训练。轻量架构设计虽能结构性降耗,但受限于模型容量与预训练生态的依赖,难兼顾保真与泛化。系统级优化(如 FlashAttention [18]、TensorRT 加速)可提升算子效率与内存调度,但高度依赖特定平台与硬件支持,通用性受限。
在此背景下,Diffusion Caching(扩散缓存) 作为一种基于全新原理的优化范式脱颖而出。不同于改动模型结构或重新训练的方式,缓存机制旨在识别并消除推理过程中的计算冗余。在迭代去噪过程中,许多中间结果是可复用的,例如在固定文本条件下,Cross-Attention 层的 Key 与 Value 矩阵在不同时间步间保持不变,而相邻时间步间的特征图变化缓慢,重复计算这些部分造成了大量浪费。扩散缓存正是通过利用这种时间相关性与特征不变性,实现计算复用与高效推理。 这一思想在自回归大语言模型(LLMs)中已被验证成功,其中 KV-Cache 已成为标准组件,在保持生成质量的同时实现了数倍加速。类比之下,扩散缓存具有两大核心优势: 1. 无需训练(Training-Free):仅在推理阶段工作,无需额外训练或微调; 1. 正交且可组合(Orthogonal & Composable):可与采样步数压缩、模型压缩等其他加速技术结合,实现互补增益。
因此,扩散缓存并非现有加速策略的替代方案,而是一种低成本、高兼容性、易部署的新型优化手段,为在不牺牲生成质量的前提下克服扩散模型推理瓶颈提供了新的研究思路与理论支撑。
当前,扩散缓存领域尚缺乏系统性综述与统一理论框架,现有研究在原理解释、策略设计与适用范围上存在显著差异。为填补这一空白,本文的主要贡献如下: 1. 首次系统性总结扩散缓存的理论与实践。
从原理层面阐释扩散缓存的核心思想——识别并重用扩散推理过程中的计算冗余以减少重复计算,实现高效加速。本文从数值分析与神经网络计算图双重视角,揭示其数学本质、适用条件与约束,并明确扩散缓存于扩散模型加速生态中的独特地位,提出统一的理论框架。 1. 提出统一的分类与分析体系。
本文首次从“触发条件(Trigger Condition)”“复用粒度(Reuse Granularity)”“更新策略(Update Strategy)”三维构建扩散缓存的系统化分类框架,揭示不同方法间的内在逻辑与技术演进。我们将现有方法划分为**静态缓存(Static Caching)与动态缓存(Dynamic Caching)**两大类,并在动态范式下进一步识别出四种代表性策略:时间步自适应(Timestep-Adaptive)、层级自适应(Layer-Adaptive)、预测式(Predictive)与混合式缓存(Hybrid Caching)。通过系统比较与分析,本文揭示了扩散缓存从“静态复用”到“动态预测”的技术演化轨迹。 1. 总结发展趋势并展望未来研究方向。
在系统梳理现有工作的基础上,本文总结了扩散缓存在一致性、泛化性、内存效率与跨平台适应性等方面的共性挑战与潜在突破口。展望未来,一方面扩散缓存可与其他推理加速技术协同,实现多层次加速;另一方面,其理念可拓展至更复杂的生成任务,为高效生成开辟新的可扩展路径。
综上,本文从理论、方法与应用三方面对扩散缓存进行了首个系统化综述,提出了统一分析框架并展望未来方向。我们认为,扩散缓存将成为未来“高效生成(Efficient Generation)”的关键支撑技术,为扩散模型的工程部署与可持续优化提供新的研究范式与实现思路。