当前计算机视觉中流行的骨干网络,如视觉transformer (ViT)和ResNets,经过训练可以从2D图像中感知世界。为更有效地理解2D骨干中的3D结构先验,本文提出Mask3D,在自监督预训练中利用现有的大规模RGB-D数据,将这些3D先验嵌入到2D学习的特征表示中.与需要3D重建或多视图对应的传统3D对比学习范式相比,所提出方法很简单:通过屏蔽单个RGB- D帧中的RGB和深度补丁来制定前文本重建任务。Mask3D在将3D先验嵌入到强大的2D ViT主干中特别有效,能对各种场景理解任务进行改进的表示学习,如语义分割、实例分割和目标检测。实验表明,Mask3D在ScanNet、NYUv2和Cityscapes图像理解任务上明显优于现有的自监督3D预训练方法,在ScanNet图像语义分割上比最先进的Pri3D提高了+6.5% mIoU。

https://www.zhuanzhi.ai/paper/2cc5e9e67bcbea75082fac9489f2e2a4

成为VIP会员查看完整内容
24

相关内容

【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准
专知会员服务
36+阅读 · 2022年4月2日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
33+阅读 · 2022年3月3日
专知会员服务
65+阅读 · 2021年4月11日
没有3D卷积的3D重建方法,A100上重建一帧仅需70ms
机器之心
0+阅读 · 2022年9月13日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
相关VIP内容
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准
专知会员服务
36+阅读 · 2022年4月2日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
33+阅读 · 2022年3月3日
专知会员服务
65+阅读 · 2021年4月11日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
相关论文
微信扫码咨询专知VIP会员