人类智能展现出非凡的灵活性和丰富性,尤其体现在其能够无缝地感知、交互并推理物理世界。我的研究旨在构建具备空间智能的人工智能系统——能够以类人感知和认知能力理解三维环境的机器。实现这一目标需要克服两个紧密关联的挑战:(1)高质量三维数据的稀缺,即使是最大的三维数据集,其规模也比不上网络级二维语料库的几个数量级;(2)三维表示本身的复杂性与非规则性,这体现在多样化的数据形式中,从点云到神经场,每种形式都需要专门的架构来处理。 为应对这些挑战,本论文提出了一种双重策略:一方面在数据稀缺条件下优化三维感知的效率,另一方面通过可扩展生成增强三维数据的体量与多样性。具体而言: * 高效三维感知:提出 InvJoint,通过引入不变性训练策略结合联合困难样本,缓解点云小样本感知中的数据稀缺问题。该方法提升了预训练二维与三维模型之间的协作,使稀疏三维数据的识别更具鲁棒性与效率。 * 可扩展且通用的三维生成:提出两种互补方法用于静态三维生成。DTC123 利用预训练的二维扩散模型引导单图像到三维的重建,并通过时间步课程学习实现由粗到细的对齐与多视角一致性。MVGamba 则突破了逐场景优化的局限,将状态空间建模与三维高斯泼溅(3D Gaussian Splatting)相结合,在单一框架下实现统一而高效的文本生成三维和稀疏视角重建。 * 动态世界建模:提出 NutWorld,将静态三维生成扩展至动态环境,可将随意捕获的视频转化为动态三维场景。通过其结构化的**时空对齐高斯(STAG)**表示和基于 Transformer 的自编码器,NutWorld 支持实时视频驱动的四维场景建模,并增强了对物理环境的推理能力。

这些方法形成了互补且协同的关系——改进的生成方法不断提供更多样、更高质量的合成数据,从而补充现有数据集,推动感知模型的进一步发展。总体而言,本研究代表了向具备复杂空间理解与物理世界交互能力的人工智能系统迈出的坚实一步。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】《迈向实用的时间序列智能》
专知会员服务
18+阅读 · 5月29日
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
34+阅读 · 1月24日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
29+阅读 · 2024年8月16日
【ETHZ博士论文】增强现实中3D场景的重建、理解与编辑
专知会员服务
34+阅读 · 2024年2月17日
【CMU博士论文】以人为中心的机器学习:统计和算法视角
专知会员服务
40+阅读 · 2023年10月1日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
15+阅读 · 2020年8月23日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
16+阅读 · 2019年1月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员