在多种图形学与元宇宙应用中,对三维物体建模是关键步骤,同时也是迈向三维机器推理的重要基础。若能仅通过RGB图像实现高质量的三维重建,将极大扩展其实际应用场景。三维物体的表示通常包含两个核心方面:几何结构(描述物体质量的分布位置)与外观特性(决定渲染图像中像素颜色)。尽管在已知几何的前提下学习外观相对简单,但仅从RGB图像同时恢复准确几何与外观长期以来都是一项极具挑战性的任务。 近年来,可微渲染(Differentiable Rendering)与神经隐式表示(Neural Implicit Representations)的进步极大推动了几何与外观从RGB图像中联合重建的能力。借助这些表示方式所具备的连续性、可微性与灵活性,研究者可以从真实图像中同时优化几何与外观,从而获得更精确的重建结果与更高质量的再渲染效果。 在众多神经隐式表示方法中,神经辐射场(Neural Radiance Field, NeRF)因其能够从稠密的RGB图像集中联合恢复体积几何与非朗伯外观而广受关注。与此同时,也涌现出诸多用于特定任务的表示变体,如:用于平滑曲面建模、稀疏视角重建或动态场景重建等。然而,目前的方法往往对场景的捕获与重建存在严格假设,限制了其实际应用范围。例如:常假设场景为完全不透明、无动态遮挡物或半透明效应,或在面对高频外观时未对渲染效率进行优化。 本论文提出三项关键改进,旨在推动基于图像的三维重建朝向更鲁棒、可靠、可部署的现实应用迈进。这些改进覆盖了从表示方法、网络架构到优化策略的全链条。
AlphaSurf:我们提出了一种新型隐式表示方法,结合了解耦的几何结构与表面不透明度,并基于网格架构以支持复杂或半透明物体的高精度表面重建。与传统仅建模几何和外观的方式不同,AlphaSurf将射线-表面交点的求解与交点的不透明度建模分别处理,同时保持两者的可微性,从而支持基于光度损失的解耦优化。其交点通过三次多项式的解析解获得,无需蒙特卡洛采样,因此具有完备的可微性;另外,配合网格结构的不透明度与辐射场建模,实现了纯RGB图像驱动的重建。 1. D²NeRF:针对静态场景中常见的动态噪声与遮挡物问题(如街景扫描中出现的人、车、植物等),我们提出一种可将动态因素从静态场景中解耦的重建方法。该方法可从普通手机视频中恢复静态三维场景,并同时建模三维与四维对象。通过引入自由度约束实现动态解耦,无需语义先验,因此对诸如流动液体或移动阴影等非典型动态噪声也具备良好适应性。 1. 轻量高频建模:为提升重建效率,我们提出一种用于简单几何但高频外观的场景建模方法,尤其适用于神经人像中的高频衣物纹理。该方法通过稀疏锚点构建3D到2D纹理空间的对应关系,在保证表达力的同时大幅简化表示形式,配合神经形变建模,实现了精细外观的轻量级建模。
综上所述,本论文全面综述了神经隐式表示及其在基于RGB图像的三维重建中的应用,并通过提出一系列方法,在应对实际挑战(如半透明表面、动态遮挡、外观高频等)方面取得了显著进展。我们表明,只有在表示、架构与优化策略上进行有针对性的设计,才能有效应对图像驱动三维重建中高度不适定的问题。通过合理方法设计,我们可以仅依赖有位姿信息的多视图图像或单目视频,实现对透明体表面、动态遮挡物剔除及高频外观的高效建模与重建。
https://www.repository.cam.ac.uk/items/1eb37661-8efa-41a0-a36e-3b20511d6650