Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.


翻译:人类不仅能看到属性相似性——我们还能识别关系相似性。苹果与桃子相似是因为两者都是红色的水果,但地球也与桃子相似:其地壳、地幔和地核分别对应桃子的表皮、果肉和果核。认知科学家认为,这种感知和识别关系相似性的能力可能是人类区别于其他物种的关键特征。然而,当前广泛使用的视觉相似性度量方法(如LPIPS、CLIP、DINO)仅关注感知属性相似性,未能捕捉人类所感知的丰富且常令人惊讶的关系相似性。我们如何超越图像的可见内容以捕捉其关系属性?如何让具有相同关系逻辑的图像在表示空间中更接近?为回答这些问题,我们首先将关系图像相似性形式化为一个可度量的问题:当两幅图像内部视觉元素间的关系或功能相互对应时,即使其视觉属性不同,它们也具有关系相似性。随后,我们构建了一个包含11.4万张图像-文本对的数据集,其中文本描述经过匿名化处理——旨在描述场景的底层关系逻辑而非表面内容。利用该数据集,我们对视觉-语言模型进行微调,以度量图像间的关系相似性。该模型成为通过底层关系结构(而非可见外观)连接图像的第一步。研究表明,尽管关系相似性具有众多实际应用,现有图像相似性模型却无法捕捉它——这揭示了视觉计算领域的一个关键空白。

0
下载
关闭预览

相关内容

【ICML2024】超图增强的双半监督图分类
专知会员服务
15+阅读 · 2024年5月9日
专知会员服务
34+阅读 · 2021年8月16日
专知会员服务
26+阅读 · 2021年7月17日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月27日
Arxiv
0+阅读 · 11月20日
Arxiv
0+阅读 · 11月18日
VIP会员
相关VIP内容
【ICML2024】超图增强的双半监督图分类
专知会员服务
15+阅读 · 2024年5月9日
专知会员服务
34+阅读 · 2021年8月16日
专知会员服务
26+阅读 · 2021年7月17日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员