Text-driven video editing aims to modify video content based on natural language instructions. While recent training-free methods have leveraged pretrained diffusion models, they often rely on an inversion-editing paradigm. This paradigm maps the video to a latent space before editing. However, the inversion process is not perfectly accurate, often compromising appearance fidelity and motion consistency. To address this, we introduce FlowDirector, a novel training-free and inversion-free video editing framework. Our framework models the editing process as a direct evolution in the data space. It guides the video to transition smoothly along its inherent spatio-temporal manifold using an ordinary differential equation (ODE), thereby avoiding the inaccurate inversion step. From this foundation, we introduce three flow correction strategies for appearance, motion, and stability: 1) Direction-aware flow correction amplifies components that oppose the source direction and removes irrelevant terms, breaking conservative streamlines and enabling stronger structural and textural changes. 2) Motion-appearance decoupling optimizes motion agreement as an energy term at each timestep, significantly improving consistency and motion transfer. 3) Differential averaging guidance strategy leverages differences among multiple candidate flows to approximate a low variance regime at low cost, suppressing artifacts and stabilizing the trajectory. Extensive experiments across various editing tasks and benchmarks demonstrate that FlowDirector achieves state-of-the-art performance in instruction following, temporal consistency, and background preservation, establishing an efficient new paradigm for coherent video editing without inversion.


翻译:文本驱动视频编辑旨在基于自然语言指令修改视频内容。尽管近期无训练方法已利用预训练扩散模型,它们通常依赖于反转-编辑范式。该范式在编辑前将视频映射至隐空间,然而反转过程并非完全精确,常会损害外观保真度与运动一致性。为解决此问题,我们提出FlowDirector,一种新颖的无训练且无需反转的视频编辑框架。本框架将编辑过程建模为数据空间中的直接演化,通过常微分方程(ODE)引导视频沿其固有的时空流形平滑过渡,从而避免不精确的反转步骤。基于此,我们提出三种针对外观、运动与稳定性的流校正策略:1)方向感知流校正通过放大与源方向相悖的分量并移除无关项,打破保守流线,实现更强的结构与纹理变化;2)运动-外观解耦将运动一致性优化为每个时间步的能量项,显著提升一致性与运动迁移效果;3)差分平均引导策略利用多个候选流之间的差异以低成本近似低方差状态,抑制伪影并稳定轨迹。在多种编辑任务与基准测试上的广泛实验表明,FlowDirector在指令遵循、时序一致性与背景保持方面达到最先进性能,为无需反转的连贯视频编辑建立了高效新范式。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员