人类智能展现出非凡的灵活性和丰富性,尤其体现在其能够无缝地感知、交互并推理物理世界。我的研究旨在构建具备空间智能的人工智能系统——能够以类人感知和认知能力理解三维环境的机器。实现这一目标需要克服两个紧密关联的挑战:(1)高质量三维数据的稀缺,即使是最大的三维数据集,其规模也比不上网络级二维语料库的几个数量级;(2)三维表示本身的复杂性与非规则性,这体现在多样化的数据形式中,从点云到神经场,每种形式都需要专门的架构来处理。 为应对这些挑战,本论文提出了一种双重策略:一方面在数据稀缺条件下优化三维感知的效率,另一方面通过可扩展生成增强三维数据的体量与多样性。具体而言: * 高效三维感知:提出 InvJoint,通过引入不变性训练策略结合联合困难样本,缓解点云小样本感知中的数据稀缺问题。该方法提升了预训练二维与三维模型之间的协作,使稀疏三维数据的识别更具鲁棒性与效率。 * 可扩展且通用的三维生成:提出两种互补方法用于静态三维生成。DTC123 利用预训练的二维扩散模型引导单图像到三维的重建,并通过时间步课程学习实现由粗到细的对齐与多视角一致性。MVGamba 则突破了逐场景优化的局限,将状态空间建模与三维高斯泼溅(3D Gaussian Splatting)相结合,在单一框架下实现统一而高效的文本生成三维和稀疏视角重建。 * 动态世界建模:提出 NutWorld,将静态三维生成扩展至动态环境,可将随意捕获的视频转化为动态三维场景。通过其结构化的**时空对齐高斯(STAG)**表示和基于 Transformer 的自编码器,NutWorld 支持实时视频驱动的四维场景建模,并增强了对物理环境的推理能力。
这些方法形成了互补且协同的关系——改进的生成方法不断提供更多样、更高质量的合成数据,从而补充现有数据集,推动感知模型的进一步发展。总体而言,本研究代表了向具备复杂空间理解与物理世界交互能力的人工智能系统迈出的坚实一步。