深度学习视频超分辨率综述

摘要——视频超分辨率（Video Super-Resolution，简称 VSR）是计算机视觉低层次任务中的一个重要研究方向，其中深度学习技术发挥了关键作用。近年来，深度学习的快速发展及其在 VSR 领域中的广泛应用，推动了相关方法与技术的蓬勃发展。然而，这些方法的使用方式往往缺乏充分解释，其设计决策更多是基于定量性能的提升。考虑到 VSR 在多个领域中具有广泛而深远的潜在影响，有必要对 VSR 研究中所采用的关键要素和深度学习方法进行系统的分析。这样的系统性分析有助于针对具体应用需求开发更合适的模型。本文对基于深度学习的视频超分辨率模型进行了全面综述，详细探讨了模型的各个组成部分及其潜在影响。同时，我们总结了当前主流以及早期 VSR 模型中所采用的关键技术和组件。通过对相关方法的解析与系统分类，我们揭示了该领域的发展趋势、实际需求与面临的挑战。作为首个专门针对基于深度学习的 VSR 模型的综述性工作，本文还建立了一个多层次的分类体系，为当前及未来的 VSR 研究提供指导，推动 VSR 技术在多种实际应用中的发展与理解。

关键词——视频超分辨率，深度学习，上采样，融合，综述，下采样，对齐，损失函数

一、引言

近年来，随着视频采集技术、传输网络以及显示设备的不断进步，视频类多媒体内容的使用量显著增加。这些技术的发展促使用户对更高质量视频信号的需求不断增长。视频质量可以从两个角度来定义：服务质量（Quality of Service，QoS）和体验质量（Quality of Experience，QoE）。从 QoS 的角度看，较高的视频质量意味着更高的码率、更大的空间分辨率和/或更高的时间分辨率（即每秒帧数更多）。而从 QoE 的角度看，较高的质量则是一种主观感受，难以量化，因为它取决于用户的观感体验，这种体验因人而异。

已有研究表明，在视频信号的时空维度上进行增强，通常能够提高 QoS，从而进一步改善用户的 QoE 感知体验【1】。更高的分辨率不仅提升了视频的视觉效果，也增强了整体用户体验。因此，越来越多的视频超分辨率（Video Super-Resolution，VSR）模型被提出和开发【2】【3】。VSR 的目标是从给定的低分辨率（Low-Resolution，LR）视频输入中生成高分辨率（High-Resolution，HR）的视频输出，从而提升图像质量。

我们可以假设高分辨率视频经历了如下操作后生成低分辨率视频：其中，LR 表示低分辨率视频，其来源是将高分辨率视频 HR 的每一帧与模糊核进行卷积处理，随后再进行其他降采样操作。其中，LR 表示低分辨率视频，是在将高分辨率视频 HR 的每一帧与模糊核或三次插值核 kkk 进行卷积处理后，接着执行下采样操作 ddd，并叠加噪声 nsn_sns 所得到的结果。因而，从 LR 视频中重建出 HR 视频的超分辨任务，实质上是对模糊核、下采样过程以及噪声的估计过程，是一个典型的逆问题。正如公式（1）所示，VSR 是一个病态的逆问题，是计算机视觉低层任务中的一个尚未完全解决的研究方向。 VSR 在研究中通常被视为单图像超分辨（Single-Image Super-Resolution，SISR）和多图像超分辨（Multi-Image Super-Resolution，MISR）的扩展。然而，与 SISR 和 MISR 不同，VSR 面临更大的挑战，因为它需要对视频序列中高度相关但时空对齐不一致的帧进行有效建模【4】【5】。若直接将传统 SISR 或 MISR 的方法应用于视频超分辨任务，往往难以捕捉视频帧之间的时间依赖性【6】【7】。因此，近年来研究者转而采用基于学习的方法，充分挖掘低分辨率视频中的时空特征，将其还原为高分辨率视频【8】–【13】。

在传统方法中，通常采用反投影（Back-Projection）方法【14】或基于最小均方（Least Mean Squares, LMS）的卡尔曼滤波方法【15】来插值图像或视频帧中的像素。这些方法主要基于确定性函数，将 LR 输入映射为 HR 输出。然而，传统方法的确定性本质限制了它们在不同视频内容上的泛化能力，所求得的逆函数也无法充分刻画从 HR 到 LR 的非线性变换过程。

相比之下，近年来基于深度学习的视频超分辨模型因其具有随机性和数据驱动的特点，受到了广泛关注。这类模型不仅具有良好的泛化能力，还能学习复杂的非线性映射函数，将 LR 视频有效还原为 HR 视频。学习型的 VSR 方法通常包括特征提取、对齐、融合、重建和上采样等关键步骤。在这类模型中，从精确对齐的帧中提取相关特征并进行融合，是整个重建过程的核心【13】【16】【17】。本文将深入探讨基于深度学习的视频超分辨模型的各个组成部分。迄今为止，仅有一项研究在该方向上进行过综述【18】，但该研究仅以对齐过程为核心，采用了单层分类体系，未能充分覆盖 VSR 领域中的多样性与复杂性。而事实上，VSR 中的多个子模块具有极高的多样性，导致模型的行为和性能结果难以解释与归因。

因此，本文旨在弥补这些空白，具体目标包括： * 提出一个新的多层次分类体系，并全面梳理各 VSR 组件中的方法与研究趋势； * 深入评述深度学习在视频超分辨任务中的应用方法； * 系统总结 VSR 相关文献中的研究现状、发展趋势、典型应用和挑战； * 增强 VSR 模型及其性能的可解释性； * 为未来 VSR 的研究提供基于当前需求与研究空白的实践指导。