作为人类,我们始终在与一个三维动态世界进行交互与观察。要在视觉算法中构建这种时空(spatiotemporal)或四维(4D)理解并非易事,因为与二维图像和视频相比,四维数据的规模要少上几个数量级。这凸显了一个关键需求——如何以有意义的方式利用二维数据来实现四维任务。 近期在“基础模型(foundation models)”构建方面的进展,使我们能够从互联网规模的数据中以数据驱动的方式学习到生成性/结构性先验(generative/structural priors),从而免费获取这些丰富的现实世界先验。在本论文中,我们探讨了如何调整和利用这些先验,以应对诸如非显式(amodal)跟踪与补全、动态重建以及下一时刻预测等四维感知任务。
我们从三个互补的方向展开研究: 第一, 在缺乏基础先验的情况下,我们通过自监督学习(self-supervised manner)自行构建这些先验。具体地,我们利用动态场景的3D LiDAR 扫描序列进行下一时刻预测(next-timestep prediction)任务。重要的是,我们展示了在此过程中引入4D 表征瓶颈(4D representation bottleneck)至关重要。我们发现,这种预测模型可直接用于自动驾驶车辆的下游运动规划(motion planning),并在显著程度上降低了碰撞率。 第二, 我们以零样本(zero-shot)的方式利用基础先验。我们使用能够为图像和视频预测每像素深度的大规模重建模型(reconstruction models),并据此解决两个欠定任务:(1)在2.5D 空间中跨遮挡的目标跟踪;(2)从稀疏视角重建动态场景。在这两种情形下,我们发现,借助以数据驱动深度先验(data-driven depth priors)形式提供的额外场景线索,性能可显著超越以往的最先进方法。 第三, 我们通过微调(finetuning)进一步挖掘基础先验的潜力。具体而言,我们研究视频扩散模型(video diffusion models),并将非显式感知(amodal perception)与动态新视角合成(dynamic novel-view synthesis)重新表述为视频模型擅长的自监督修复任务(inpainting)。研究表明,对视频扩散模型进行微调在数据与计算开销上都出乎意料地轻量。这一发现暗示,类似人类视觉感知的概念已隐含于基础模型之中,而我们只需“控制(control)”它们以执行其他任务。 总体而言,这些工作展示了如何以可扩展的方式构建、利用与适配基础先验,以实现时空感知能力。这种可扩展性得益于对互联网规模二维数据的日益依赖,以及精心设计的自监督学习目标,使模型能够在更广泛的任务中高效学习和泛化。