近年来,扩散模型(Diffusion Models)的快速发展极大地提升了文本到图像(text-to-image)生成的质量,使得生成的图像更加逼真。然而,现有的文本到图像扩散模型在准确理解和执行复杂文本提示(textual prompts)方面仍存在困难。与其仅依靠提升扩散模型自身的文本理解能力,不如为模型提供更精炼、结构化的输入,这通常更为高效。基于这一思路,研究者开始将大语言模型(Large Language Models, LLMs)引入多模态对话式图像生成框架中。 预训练的大语言模型在准确理解文本提示方面表现出色,而相比传统的单轮扩散生成方式,基于多轮对话的生成方法能够让用户更有效地达成其期望的图像生成效果。受反事实推理(counterfactual reasoning)理念的启发,本研究系统性地探索了如何减少用户指令中的误导信息,并在图像生成过程中缓解语言偏差(linguistic biases)。 为此,我们提出了一种基于扩散模型的反事实多模态对话系统(Counterfactual Multimodal Dialogue system based on Diffusion model, CMDD),这是一个以反事实推理原理为基础的新型多模态对话框架。该方法无需额外的参数微调或模型优化,却能在生成准确性方面显著优于基线扩散模型。