Open-domain visual entity recognition aims to identify and link entities depicted in images to a vast and evolving set of real-world concepts, such as those found in Wikidata. Unlike conventional classification tasks with fixed label sets, it operates under open-set conditions, where most target entities are unseen during training and exhibit long-tail distributions. This makes the task inherently challenging due to limited supervision, high visual ambiguity, and the need for semantic disambiguation. We propose a Knowledge-guided Contrastive Learning (KnowCoL) framework that combines both images and text descriptions into a shared semantic space grounded by structured information from Wikidata. By abstracting visual and textual inputs to a conceptual level, the model leverages entity descriptions, type hierarchies, and relational context to support zero-shot entity recognition. We evaluate our approach on the OVEN benchmark, a large-scale open-domain visual recognition dataset with Wikidata IDs as the label space. Our experiments show that using visual, textual, and structured knowledge greatly improves accuracy, especially for rare and unseen entities. Our smallest model improves the accuracy on unseen entities by 10.5% compared to the state-of-the-art, despite being 35 times smaller.


翻译:开放域视觉实体识别旨在识别图像中描绘的实体,并将其链接到广泛且不断演化的现实世界概念集合(如Wikidata中的概念)。与具有固定标签集的传统分类任务不同,该任务在开放集条件下运行,其中大多数目标实体在训练期间未见过,并呈现长尾分布。由于监督有限、视觉歧义性高以及需要进行语义消歧,该任务本质上具有挑战性。我们提出了一个知识引导的对比学习(KnowCoL)框架,该框架将图像和文本描述结合到一个基于Wikidata结构化信息的共享语义空间中。通过将视觉和文本输入抽象到概念层面,模型利用实体描述、类型层次结构和关系上下文来支持零样本实体识别。我们在OVEN基准测试上评估了我们的方法,这是一个以Wikidata ID为标签空间的大规模开放域视觉识别数据集。实验表明,结合视觉、文本和结构化知识显著提高了准确性,特别是对于罕见和未见过的实体。我们最小的模型在未见过的实体上的准确率比现有最优方法提高了10.5%,尽管其规模小了35倍。

0
下载
关闭预览

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
专知会员服务
10+阅读 · 2021年10月6日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员