人类通过整合多种感官模态来理解世界,从而能够感知、推理并想象动态的物理过程。受这一能力启发,多模态基础模型(Multimodal Foundation Models, MFMs)已成为实现多模态理解与生成的强大工具。然而,当今的 MFMs 尚不足以作为真正有效的世界模型(World Models)。它们仍然缺乏一些关键能力,如反事实推理、动态过程模拟、时空信息理解、生成结果控制以及多层次综合推理等。 本论文旨在探讨如何弥合多模态基础模型与世界模型之间的鸿沟。我们首先通过判别式任务提升 MFM 的推理能力,并赋予其结构化推理技能,包括因果推理、反事实思维与时空推理,使模型能够超越表层相关性,理解视觉与文本数据中的更深层关系。接着,我们探索了多模态基础模型在图像与视频模态下的生成能力,提出了用于结构化与可控生成的新框架。我们的方案融合了场景图(scene graph)、多模态条件控制与多模态对齐等策略,以引导生成过程,确保生成内容在高层语义一致性与细粒度用户意图上的协调统一。进一步地,我们将这些技术扩展至可控的四维(4D)生成,实现了在时间与空间维度上可交互、可编辑、可形变的对象合成。 为了全面评估这一方向的进展,并推动迈向世界模型的最终目标,我们提出了 MMWorld 基准(benchmark),用于在跨学科与多维度推理任务上评测多模态基础模型的表现。 综上所述,本论文旨在推动研究从静态感知迈向能够想象、推理与行动的智能系统,赋予模型在结构化环境中理解与交互的能力。通过使多模态基础模型更接近世界模型,本研究迈出了重要一步——朝着构建能够像人类一样观察、推理、模拟并与世界交互的智能系统前进。