![]()
https://efficient-genai.github.io/ 我们正见证着图像到文本和图像到视频模型的突破性成果。然而,这些模型的生成过程是迭代的,并且计算代价高昂,需要通过大规模的模型进行多次采样。随着需求的增加,如何在不使用过多GPU/TPU的情况下,加快这些算法的速度,以服务数百万用户,成为了一个亟待解决的问题。在本课程中,我们将重点介绍以下技术:渐进并行解码、蒸馏方法和马尔可夫随机场,以在生成模型中实现加速。
![]()
扩散模型的数学原理
我们将介绍扩散模型的数学基础[6],这是许多生成方法的基础。我们将特别强调扩散模型背后的理论和基本原理,这是当前社区中关注较少的部分。 高效的文本到图像生成方法
我们将首先提供一些关于文本到图像生成的背景,然后讨论时序蒸馏和基于马尔可夫随机场(MRF)的方法[3],这些方法旨在提高基于标记的生成方法(如Muse[1])的效率。 用于文本到图像生成的连续马尔可夫随机场(MRF)与专家场(FoE)模型
我们将讨论当前的图像生成评估标准(如FID)以及一些改进的评估标准,如CMMD[4]。同时,我们将介绍通过马尔可夫随机场和专家场模型来加速扩散模型的新方法。 高效的文本到3D和文本到视频生成
我们将概述3D和视频生成中的生成算法,特别是讨论通过几何先验驱动的视频生成的高效算法[7]。 用于高效文本到图像和文本到视频生成的潜在表示
我们将概述不同的图像[2]和视频[7]标记化策略,这些策略有助于提高生成效率。如果时间允许,我们还将讨论可以仅在单一3D网格上训练的“数据高效”扩散模型[12]。
References
- Chang, H., Zhang, H., Barber, J., Maschinot, A., Lezama, J., Jiang, L., Yang, M.H., Murphy, K., Freeman, W.T., Rubinstein, M., Li, Y., Krishnan, D.: Muse: Text-to-image generation via masked generative transformers. ICML (2023)
- Esteves, C., Suhail, M., Makadia, A.: Spectral image tokenizers (2024)
- Jayasumana, S., Glasner, D., Ramalingam, S., Veit, A., Chakrabarti, A., Kumar, S.: Markovgen: Structured prediction for efficient text-to-image generation (2023)
- Jayasumana, S., Ramalingam, S., Veit, A., Glasner, D., Chakrabarti, A., Kumar, S.: Rethinking fid: Towards a better evaluation metric for image generation (2024)
- Mitchel, T., Esteves, C., Makadia, A.: Single mesh diffusion models with field latents for texture generation. In: CVPR (2024)
- Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: Proceedings of the 32nd International Conference on Machine Learning (2015)
- Suhail, M., Esteves, C., Sigal, L., Makadia, A.: Four-plane factorized video autoencoders (2024)
- Vice, J., Akhtar, N., Hartley, R., Mian, A.: On the fairness, diversity and reliability of textto-image generative models (2024)
- Vice, J., Akhtar, N., Hartley, R., Mian, A.: Safety without semantic disruptions: Editingfree safe image generation via context-preserving dual latent reconstruction (2024)
- Yang, Z., Yu, Z., Xu, Z., Singh, J., Zhang, J., Campbell, D., Tu, P., Hartley, R.: Impus: Image morphing with perceptually-uniform sampling using diffusion models (2024),
- Ranasinghe, K., Jayasumana, S., Veit, A., Chakrabarti, A., Glasner, D., Ryoo, M., Ramalingam, S., Kumar, S., LatentCRF: Continuous CRF for Efficient Latent Diffusion, arxiv 2025
- Mitchel, T., Esteves, C., Makadia, A.: Single mesh diffusion models with field latents for texture generation. In: CVPR (2024)