人类通过整合多种感官模态来理解世界,从而能够感知、推理并想象动态的物理过程。受这一能力启发,多模态基础模型(Multimodal Foundation Models, MFMs)已成为实现多模态理解与生成的强大工具。然而,当今的 MFMs 尚不足以作为真正有效的世界模型(World Models)。它们仍然缺乏一些关键能力,如反事实推理动态过程模拟时空信息理解生成结果控制以及多层次综合推理等。 本论文旨在探讨如何弥合多模态基础模型与世界模型之间的鸿沟。我们首先通过判别式任务提升 MFM 的推理能力,并赋予其结构化推理技能,包括因果推理反事实思维时空推理,使模型能够超越表层相关性,理解视觉与文本数据中的更深层关系。接着,我们探索了多模态基础模型在图像与视频模态下的生成能力,提出了用于结构化与可控生成的新框架。我们的方案融合了场景图(scene graph)多模态条件控制多模态对齐等策略,以引导生成过程,确保生成内容在高层语义一致性细粒度用户意图上的协调统一。进一步地,我们将这些技术扩展至可控的四维(4D)生成,实现了在时间与空间维度上可交互、可编辑、可形变的对象合成。 为了全面评估这一方向的进展,并推动迈向世界模型的最终目标,我们提出了 MMWorld 基准(benchmark),用于在跨学科与多维度推理任务上评测多模态基础模型的表现。 综上所述,本论文旨在推动研究从静态感知迈向能够想象、推理与行动的智能系统,赋予模型在结构化环境中理解与交互的能力。通过使多模态基础模型更接近世界模型,本研究迈出了重要一步——朝着构建能够像人类一样观察、推理、模拟并与世界交互的智能系统前进。

成为VIP会员查看完整内容
1

相关内容

【NTU博士论文】让语言模型成为更类人的学习者
专知会员服务
22+阅读 · 9月23日
【CMU博士论文】面向目标的自主智能体推理
专知会员服务
23+阅读 · 9月11日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
39+阅读 · 2024年10月21日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 多内容实体和关系联合抽取的对抗训练
开放知识图谱
42+阅读 · 2018年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员