文本到图像的扩散模型(text-to-image diffusion models)擅长将语言提示转化为逼真的图像,其核心在于通过跨模态注意力机制隐式地对文本概念进行语义绑定。近年来,多模态扩散 Transformer(MM-DiT)进一步发展了这一能力,通过在拼接的图像与文本 token 上引入联合自注意力,实现了更丰富且更具扩展性的跨模态对齐。然而,对于这些注意力图在图像生成过程中具体如何以及在哪些位置发挥作用,仍缺乏细致的理解。 在本文中,我们提出 Seg4Diff(Segmentation for Diffusion),一个系统化框架,用于分析 MM-DiT 的注意力结构,重点考察特定层如何将语义信息从文本传播到图像。通过全面分析,我们识别出一个 语义绑定专家层(semantic grounding expert layer)——这是一个特定的 MM-DiT 模块,它能够稳定地将文本 token 与空间一致的图像区域对齐,自然地产生高质量的语义分割掩码。 进一步地,我们展示了:在具备掩码标注图像数据的条件下,结合轻量化微调方案,可以增强这些层的语义分组能力,从而同时提升分割性能与生成图像的保真度。我们的研究结果表明,语义分组是扩散 Transformer 的一种涌现属性,并且可以通过选择性放大来同时推动分割与生成性能的发展,为连接视觉感知与生成的统一模型铺平道路。https://cvlab-kaist.github.io/Seg4Diff

成为VIP会员查看完整内容
1

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
37+阅读 · 2021年2月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
37+阅读 · 2021年2月10日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
26+阅读 · 2018年2月27日
微信扫码咨询专知VIP会员