【NTU博士论文】反事实推理在多模态对话生成中的应用 - 专知VIP

会员服务 ·

1

博士论文 · 反事实推理 · 多模态对话生成 ·

【NTU博士论文】反事实推理在多模态对话生成中的应用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，扩散模型（Diffusion Models）的快速发展极大地提升了文本到图像（text-to-image）生成的质量，使得生成的图像更加逼真。然而，现有的文本到图像扩散模型在准确理解和执行复杂文本提示（textual prompts）方面仍存在困难。与其仅依靠提升扩散模型自身的文本理解能力，不如为模型提供更精炼、结构化的输入，这通常更为高效。基于这一思路，研究者开始将大语言模型（Large Language Models, LLMs）引入多模态对话式图像生成框架中。预训练的大语言模型在准确理解文本提示方面表现出色，而相比传统的单轮扩散生成方式，基于多轮对话的生成方法能够让用户更有效地达成其期望的图像生成效果。受反事实推理（counterfactual reasoning）理念的启发，本研究系统性地探索了如何减少用户指令中的误导信息，并在图像生成过程中缓解语言偏差（linguistic biases）。为此，我们提出了一种基于扩散模型的反事实多模态对话系统（Counterfactual Multimodal Dialogue system based on Diffusion model, CMDD），这是一个以反事实推理原理为基础的新型多模态对话框架。该方法无需额外的参数微调或模型优化，却能在生成准确性方面显著优于基线扩散模型。

成为VIP会员查看完整内容

1

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】用于提升含优化层学习的算法与体系结构

【CMU博士论文】用于提升含优化层学习的算法与体系结构

专知会员服务

12+阅读 · 10月7日

【CMU博士论文】基于深度学习的高效贝叶斯实验设计

【CMU博士论文】基于深度学习的高效贝叶斯实验设计

专知会员服务

16+阅读 · 8月19日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

18+阅读 · 7月6日

【NUS博士论文】视频语义理解的因果模型

【NUS博士论文】视频语义理解的因果模型

专知会员服务

9+阅读 · 3月19日

【NTU博士论文】基于深度生成模型的图像恢复与表示

【NTU博士论文】基于深度生成模型的图像恢复与表示

专知会员服务

19+阅读 · 2月23日

【HKUST博士论文】基于生成模型的高保真图像与视频编辑

【HKUST博士论文】基于生成模型的高保真图像与视频编辑

专知会员服务

15+阅读 · 1月23日

【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用

【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用

专知会员服务

20+阅读 · 2024年12月24日

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

专知会员服务

21+阅读 · 2024年12月16日

【NUS博士论文】视频语义理解中的因果模型

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

36+阅读 · 2024年10月30日

【博士论文】自然语言处理不确定估计

【博士论文】自然语言处理不确定估计

专知会员服务

23+阅读 · 2024年5月22日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

21+阅读 · 2022年7月16日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

40+阅读 · 2020年8月31日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Controlling the image generation process with parametric activation functions

Controlling the image generation process with parametric activation functions

Arxiv

0+阅读 · 10月17日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

VIP会员

相关主题

反事实推理

多模态对话生成

相关VIP内容

【CMU博士论文】用于提升含优化层学习的算法与体系结构

【CMU博士论文】用于提升含优化层学习的算法与体系结构

专知会员服务

12+阅读 · 10月7日

【CMU博士论文】基于深度学习的高效贝叶斯实验设计

【CMU博士论文】基于深度学习的高效贝叶斯实验设计

专知会员服务

16+阅读 · 8月19日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

18+阅读 · 7月6日

【NUS博士论文】视频语义理解的因果模型

【NUS博士论文】视频语义理解的因果模型

专知会员服务

9+阅读 · 3月19日

【NTU博士论文】基于深度生成模型的图像恢复与表示

【NTU博士论文】基于深度生成模型的图像恢复与表示

专知会员服务

19+阅读 · 2月23日

【HKUST博士论文】基于生成模型的高保真图像与视频编辑

【HKUST博士论文】基于生成模型的高保真图像与视频编辑

专知会员服务

15+阅读 · 1月23日

【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用

【博士论文】面向忠实度的新型可解释性范式在自然语言处理中的应用

专知会员服务

20+阅读 · 2024年12月24日

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

专知会员服务

21+阅读 · 2024年12月16日

【NUS博士论文】视频语义理解中的因果模型

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

36+阅读 · 2024年10月30日

【博士论文】自然语言处理不确定估计

【博士论文】自然语言处理不确定估计

专知会员服务

23+阅读 · 2024年5月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【NTU博士论文】反事实推理在多模态对话生成中的应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

ICCV最佳论文出炉，朱俊彦团队用砖块积木摘得桂冠

面向具身操作的高效视觉–语言–动作模型：系统综述

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

21+阅读 · 2022年7月16日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

24+阅读 · 2022年5月4日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

40+阅读 · 2020年8月31日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

相关论文

Controlling the image generation process with parametric activation functions

Controlling the image generation process with parametric activation functions

Arxiv

0+阅读 · 10月17日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员