任意分辨率的图像生成能够在不同设备上提供一致的视觉体验,在生产者和消费者应用中具有广泛价值。然而,现有的扩散模型在分辨率提升时,其计算需求会 随分辨率呈二次方增长,导致 4K 图像生成的延迟超过 100 秒。为了解决这一问题,我们探索了 潜在扩散模型(latent diffusion models)的第二代改进。在该框架中,扩散模型生成的固定潜在表示被视为内容表征,我们进一步提出利用一个 单步生成器,将这一紧凑的潜在表示解码为任意分辨率的图像。因此,我们提出了 InfGen,用其替代传统的 VAE。

成为VIP会员查看完整内容
10

相关内容

【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
17+阅读 · 2024年4月25日
【NeurIPS2022】GENIE:高阶去噪扩散求解器
专知会员服务
18+阅读 · 2022年11月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
17+阅读 · 2024年4月25日
【NeurIPS2022】GENIE:高阶去噪扩散求解器
专知会员服务
18+阅读 · 2022年11月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员