近年来,视频生成技术的快速发展使得从用户给定的文本提示中合成高保真视频成为可能。然而,现有的模型与基准测试仍无法充分反映专业视频生成所需的复杂性与多维要求。为此,我们提出 Stable Cinemetrics ——一个结构化的评测框架,将电影制作中的控制要素形式化为四个可解耦的层次化分类体系: * Setup(场景设置)
Event(事件动作)
Lighting(光照控制)
Camera(镜头控制)。
这四个分类共同定义了 76 个精细化控制节点,并以影视行业的实际制作规范为依据。基于这些分类,我们构建了一个与专业视频制作应用场景对齐的提示语基准,并开发了一个自动化流程,用于提示语分类与问题生成,从而支持对每个控制维度的独立评估。 我们进行了大规模人工评测研究,涵盖 10 余种模型与 20,000 个视频样本,并由 80 多位影视专业人士进行标注。粗粒度与细粒度分析均表明,即使是当前性能最强的模型,在 事件控制(Events) 与 镜头控制(Camera) 两个方面仍存在显著差距。 为实现可扩展的自动化评测,我们训练了一个自动评估器——一个与专家标注对齐的视觉-语言模型,其性能优于现有的零样本基线方法。SCINE 是首个将专业视频生成纳入视频生成模型研究体系的方法,围绕电影化控制构建了新的分类体系,并辅以结构化评测流程与系统性分析,为未来的研究方向提供了明确指导。