【NTU博士论文】面向高效感知与可扩展生成的三维物理世界

人类智能展现出非凡的灵活性和丰富性，尤其体现在其能够无缝地感知、交互并推理物理世界。我的研究旨在构建具备空间智能的人工智能系统——能够以类人感知和认知能力理解三维环境的机器。实现这一目标需要克服两个紧密关联的挑战：（1）高质量三维数据的稀缺，即使是最大的三维数据集，其规模也比不上网络级二维语料库的几个数量级；（2）三维表示本身的复杂性与非规则性，这体现在多样化的数据形式中，从点云到神经场，每种形式都需要专门的架构来处理。为应对这些挑战，本论文提出了一种双重策略：一方面在数据稀缺条件下优化三维感知的效率，另一方面通过可扩展生成增强三维数据的体量与多样性。具体而言： * 高效三维感知：提出 InvJoint，通过引入不变性训练策略结合联合困难样本，缓解点云小样本感知中的数据稀缺问题。该方法提升了预训练二维与三维模型之间的协作，使稀疏三维数据的识别更具鲁棒性与效率。 * 可扩展且通用的三维生成：提出两种互补方法用于静态三维生成。DTC123 利用预训练的二维扩散模型引导单图像到三维的重建，并通过时间步课程学习实现由粗到细的对齐与多视角一致性。MVGamba 则突破了逐场景优化的局限，将状态空间建模与三维高斯泼溅（3D Gaussian Splatting）相结合，在单一框架下实现统一而高效的文本生成三维和稀疏视角重建。 * 动态世界建模：提出 NutWorld，将静态三维生成扩展至动态环境，可将随意捕获的视频转化为动态三维场景。通过其结构化的**时空对齐高斯（STAG）**表示和基于 Transformer 的自编码器，NutWorld 支持实时视频驱动的四维场景建模，并增强了对物理环境的推理能力。

这些方法形成了互补且协同的关系——改进的生成方法不断提供更多样、更高质量的合成数据，从而补充现有数据集，推动感知模型的进一步发展。总体而言，本研究代表了向具备复杂空间理解与物理世界交互能力的人工智能系统迈出的坚实一步。

成为VIP会员查看完整内容

相关内容

博士论文

关注 121

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】《迈向实用的时间序列智能》

专知会员服务

18+阅读 · 5月29日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

13+阅读 · 5月9日

【NYU博士论文】面向开放世界的人工智能：学习原则

专知会员服务

41+阅读 · 4月26日

【CUHK博士论文】现代机器学习中的因果性学习

专知会员服务

34+阅读 · 1月24日