近年来,三维目标检测和新类别检测领域取得了显著进展,但关于三维物体性(3D objectness)泛化学习的研究仍然相对不足。本文聚焦于开放世界三维物体性学习(open-world 3D objectness learning),其核心目标是在三维场景中检测出所有物体,包括训练阶段从未见过的新类别。传统的封闭集三维检测器在开放世界场景中难以具备良好的泛化能力,而直接引入三维开放词汇模型(3D open-vocabulary models)以实现开放世界能力,又常受到词汇扩展和语义重叠问题的限制。 为实现泛化的三维物体发现(generalized 3D object discovery),我们提出了一种类无关(class-agnostic)开放世界无提示三维检测器(Open-World Prompt-free 3D Detector, OP3Det),能够在无需手工构造文本提示(text prompts)的情况下检测任意三维场景中的物体。OP3Det 利用二维基础模型(2D foundation models)强大的泛化与零样本能力,结合二维语义先验与三维几何先验,生成类无关的候选区域,从而拓展三维物体发现的范围。随后,OP3Det 通过跨模态专家混合(cross-modal mixture of experts)结构,将点云与RGB图像中的互补信息动态路由至单模态与多模态特征通道,以学习泛化的三维物体性表示(generalized 3D objectness)。
大量实验结果表明,OP3Det 取得了卓越性能:在开放世界三维检测任务上,性能较现有方法提升最高可达 16.0% AR,并相比封闭世界三维检测器提升 13.5%,显著验证了其在开放世界三维物体发现中的有效性。