Monocular 3D Visual Grounding (Mono3DVG) is an emerging task that locates 3D objects in RGB images using text descriptions with geometric cues. However, existing methods face two key limitations. Firstly, they often over-rely on high-certainty keywords that explicitly identify the target object while neglecting critical spatial descriptions. Secondly, generalized textual features contain both 2D and 3D descriptive information, thereby capturing an additional dimension of details compared to singular 2D or 3D visual features. This characteristic leads to cross-dimensional interference when refining visual features under text guidance. To overcome these challenges, we propose Mono3DVG-EnSD, a novel framework that integrates two key components: the CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) and the Dimension-Decoupled Module (D2M). The CLIP-LCA dynamically masks high-certainty keywords while retaining low-certainty implicit spatial descriptions, thereby forcing the model to develop a deeper understanding of spatial relationships in captions for object localization. Meanwhile, the D2M decouples dimension-specific (2D/3D) textual features from generalized textual features to guide corresponding visual features at same dimension, which mitigates cross-dimensional interference by ensuring dimensionally-consistent cross-modal interactions. Through comprehensive comparisons and ablation studies on the Mono3DRefer dataset, our method achieves state-of-the-art (SOTA) performance across all metrics. Notably, it improves the challenging Far(Acc@0.5) scenario by a significant +13.54%.


翻译:单目三维视觉定位(Mono3DVG)是一项新兴任务,旨在利用包含几何线索的文本描述在RGB图像中定位三维物体。然而,现有方法面临两个关键局限。首先,它们往往过度依赖明确识别目标对象的高确定性关键词,而忽视了关键的空间描述。其次,广义文本特征同时包含二维和三维描述性信息,相较于单一的二维或三维视觉特征,其捕获了额外的细节维度。这一特性导致在文本指导下细化视觉特征时产生跨维度干扰。为克服这些挑战,我们提出了Mono3DVG-EnSD,一个集成两个关键组件的新框架:CLIP引导的词法确定性适配器(CLIP-LCA)和维度解耦模块(D2M)。CLIP-LCA动态掩蔽高确定性关键词,同时保留低确定性的隐式空间描述,从而迫使模型深入理解描述中的空间关系以进行物体定位。同时,D2M从广义文本特征中解耦出维度特定(二维/三维)的文本特征,以指导同维度的对应视觉特征,通过确保维度一致的跨模态交互来缓解跨维度干扰。在Mono3DRefer数据集上的全面比较与消融研究表明,我们的方法在所有指标上均达到了最先进的性能。值得注意的是,在具有挑战性的远距离场景(Acc@0.5)中,性能显著提升了+13.54%。

0
下载
关闭预览

相关内容

Mono 是一个由 Novell 公司(由Ximian发起,并由Miguel de lcaza领导的,一个致力于开创.NET在Linux上使用的开源工程。
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员