稳定电影度量(Stable Cinemetrics):面向专业视频生成的结构化评测框架

近年来,视频生成技术的快速发展使得从用户给定的文本提示中合成高保真视频成为可能。然而,现有的模型与基准测试仍无法充分反映专业视频生成所需的复杂性与多维要求。为此,我们提出 Stable Cinemetrics ——一个结构化的评测框架,将电影制作中的控制要素形式化为四个可解耦的层次化分类体系: * Setup(场景设置)

Event(事件动作)

Lighting(光照控制)

Camera(镜头控制)

这四个分类共同定义了 76 个精细化控制节点,并以影视行业的实际制作规范为依据。基于这些分类,我们构建了一个与专业视频制作应用场景对齐的提示语基准,并开发了一个自动化流程,用于提示语分类与问题生成,从而支持对每个控制维度的独立评估。 我们进行了大规模人工评测研究,涵盖 10 余种模型20,000 个视频样本,并由 80 多位影视专业人士进行标注。粗粒度与细粒度分析均表明,即使是当前性能最强的模型,在 事件控制(Events)镜头控制(Camera) 两个方面仍存在显著差距。 为实现可扩展的自动化评测,我们训练了一个自动评估器——一个与专家标注对齐的视觉-语言模型,其性能优于现有的零样本基线方法。SCINE 是首个将专业视频生成纳入视频生成模型研究体系的方法,围绕电影化控制构建了新的分类体系,并辅以结构化评测流程与系统性分析,为未来的研究方向提供了明确指导。

成为VIP会员查看完整内容
1

相关内容

【CVPR2025】具有显式3D建模的世界一致性视频扩散
【ACL2024】多方面可控文本生成与解耦反事实增强
专知会员服务
19+阅读 · 2024年6月3日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
专知会员服务
22+阅读 · 2021年8月10日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
28+阅读 · 2020年5月25日
【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector
专知会员服务
56+阅读 · 2020年2月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员