Open-Set Domain Generalization (OSDG) tackles the realistic scenario where deployed models encounter both domain shifts and novel object categories. Despite impressive progress with vision-language models like CLIP, existing methods still fall into the dilemma between structural risk of known-classes and open-space risk from unknown-classes, and easily suffers from over-confidence, especially when distinguishing ``hard unknowns" that share fine-grained visual similarities with known classes. To this end, we propose a Semantic-enhanced CLIP (SeeCLIP) framework that explicitly addresses this dilemma through fine-grained semantic enhancement. In SeeCLIP, we propose a semantic-aware prompt enhancement module to decompose images into discriminative semantic tokens, enabling nuanced vision-language alignment beyond coarse category labels. To position unknown prompts effectively, we introduce duplex contrastive learning with complementary objectives, that is, repulsion to maintain separability from known classes, and cohesion to preserve semantic proximity. Further, our semantic-guided diffusion module synthesizes pseudo-unknowns by perturbing extracted semantic tokens, generating challenging samples that are visually similar to known classes yet exhibit key local differences. These hard negatives force the model to learn finer decision boundaries. Extensive experiments across five benchmarks demonstrate consistent improvements of 3% accuracy and 5% H-score over state-of-the-art methods.


翻译:开放集域泛化(OSDG)旨在应对部署模型同时遭遇域偏移和新颖对象类别的现实场景。尽管基于视觉语言模型(如CLIP)的方法已取得显著进展,现有方法仍陷入已知类结构风险与未知类开放空间风险之间的两难困境,且易出现过拟合,尤其在区分与已知类具有细粒度视觉相似性的“困难未知类”时。为此,我们提出语义增强型CLIP(SeeCLIP)框架,通过细粒度语义增强显式解决这一困境。在SeeCLIP中,我们设计了语义感知提示增强模块,将图像分解为判别性语义标记,实现超越粗粒度类别标签的精细化视觉-语言对齐。为有效定位未知类提示,我们引入具有互补目标的双工对比学习:排斥性以保持与已知类的可分离性,凝聚性以维持语义邻近性。进一步,我们通过语义引导扩散模块,通过扰动提取的语义标记合成伪未知类样本,生成视觉上与已知类相似但存在关键局部差异的挑战性样本。这些困难负样本迫使模型学习更精细的决策边界。在五个基准数据集上的大量实验表明,本方法在准确率上较现有最优方法提升3%,H-score提升5%,且具有一致的改进效果。

0
下载
关闭预览

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员