Text to video generation has emerged as a critical frontier in generative artificial intelligence, yet existing approaches struggle with maintaining temporal consistency, compositional understanding, and fine grained control over visual narratives. We present MOVAI (Multimodal Original Video AI), a novel hierarchical framework that integrates compositional scene understanding with temporal aware diffusion models for high fidelity text to video synthesis. Our approach introduces three key innovations: (1) a Compositional Scene Parser (CSP) that decomposes textual descriptions into hierarchical scene graphs with temporal annotations, (2) a Temporal-Spatial Attention Mechanism (TSAM) that ensures coherent motion dynamics across frames while preserving spatial details, and (3) a Progressive Video Refinement (PVR) module that iteratively enhances video quality through multi-scale temporal reasoning. Extensive experiments on standard benchmarks demonstrate that MOVAI achieves state-of-the-art performance, improving video quality metrics by 15.3% in LPIPS, 12.7% in FVD, and 18.9% in user preference studies compared to existing methods. Our framework shows particular strength in generating complex multi-object scenes with realistic temporal dynamics and fine-grained semantic control.


翻译:文本到视频生成已成为生成式人工智能的关键前沿领域,然而现有方法在保持时间一致性、组合式理解以及对视觉叙事的细粒度控制方面仍面临挑战。本文提出MOVAI(多模态原创视频人工智能),一种新颖的分层框架,将组合式场景理解与时间感知扩散模型相结合,以实现高保真度的文本到视频合成。我们的方法引入了三项关键创新:(1)组合式场景解析器(CSP),将文本描述分解为带有时间标注的分层场景图;(2)时空注意力机制(TSAM),在保持空间细节的同时确保跨帧的连贯运动动态;(3)渐进式视频优化(PVR)模块,通过多尺度时间推理迭代提升视频质量。在标准基准上的大量实验表明,MOVAI实现了最先进的性能,与现有方法相比,在LPIPS指标上提升了15.3%,在FVD指标上提升了12.7%,在用户偏好研究中提升了18.9%。我们的框架在生成具有真实时间动态和细粒度语义控制的复杂多对象场景方面表现出显著优势。

0
下载
关闭预览

相关内容

国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员