近年来,扩散模型(Diffusion Models)的快速发展极大地提升了文本到图像(text-to-image)生成的质量,使得生成的图像更加逼真。然而,现有的文本到图像扩散模型在准确理解和执行复杂文本提示(textual prompts)方面仍存在困难。与其仅依靠提升扩散模型自身的文本理解能力,不如为模型提供更精炼、结构化的输入,这通常更为高效。基于这一思路,研究者开始将大语言模型(Large Language Models, LLMs)引入多模态对话式图像生成框架中。 预训练的大语言模型在准确理解文本提示方面表现出色,而相比传统的单轮扩散生成方式,基于多轮对话的生成方法能够让用户更有效地达成其期望的图像生成效果。受反事实推理(counterfactual reasoning)理念的启发,本研究系统性地探索了如何减少用户指令中的误导信息,并在图像生成过程中缓解语言偏差(linguistic biases)。 为此,我们提出了一种基于扩散模型的反事实多模态对话系统(Counterfactual Multimodal Dialogue system based on Diffusion model, CMDD),这是一个以反事实推理原理为基础的新型多模态对话框架。该方法无需额外的参数微调或模型优化,却能在生成准确性方面显著优于基线扩散模型。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NUS博士论文】视频语义理解的因果模型
专知会员服务
9+阅读 · 3月19日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
36+阅读 · 2024年10月30日
【博士论文】自然语言处理不确定估计
专知会员服务
23+阅读 · 2024年5月22日
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
最新《图嵌入组合优化》综述论文,40页pdf
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员