Crowdsourced street-view imagery from social media provides real-time visual evidence of urban flooding and other crisis events, yet it often lacks reliable geographic metadata for emergency response. Existing image geo-localization approaches, also known as Visual Place Recognition (VPR) models, exhibit substantial performance degradation when applied to such imagery due to visual distortions and domain shifts in cross-source scenarios. This paper presents VPR-AttLLM, a model-agnostic framework that integrates the semantic reasoning and geo-knowledge of Large Language Models (LLMs) into established VPR pipelines through attention-guided descriptor enhancement. By leveraging LLMs to identify location-informative regions within the city context and suppress visual noise, VPR-AttLLM improves retrieval performance without requiring model retraining or additional data. Comprehensive evaluations are conducted on extended benchmarks including SF-XL enriched with real social-media flood images, synthetic flooding scenarios over established query sets and Mapillary photos, and a new HK-URBAN dataset capturing morphologically distinct cityscapes. Integrating VPR-AttLLM with three state-of-the-art VPR models-CosPlace, EigenPlaces, and SALAD-consistently improves recall performance, yielding relative gains typically between 1-3% and reaching up to 8% on the most challenging real flood imagery. Beyond measurable gains in retrieval accuracy, this study establishes a generalizable paradigm for LLM-guided multimodal fusion in visual retrieval systems. By embedding principles from urban perception theory into attention mechanisms, VPR-AttLLM bridges human-like spatial reasoning with modern VPR architectures. Its plug-and-play design, strong cross-source robustness, and interpretability highlight its potential for scalable urban monitoring and rapid geo-localization of crowdsourced crisis imagery.


翻译:社交媒体上的众包街景图像为城市洪水等危机事件提供了实时视觉证据,但这些图像往往缺乏可靠的元地理数据,影响了应急响应。现有的图像定位方法,即视觉地点识别模型,在处理此类图像时因视觉失真和跨源场景中的领域偏移而表现出显著的性能下降。本文提出了VPR-AttLLM,这是一个模型无关的框架,通过注意力引导的描述符增强,将大型语言模型的语义推理和地理知识集成到现有的视觉地点识别流程中。通过利用大型语言模型识别城市语境中具有位置信息的区域并抑制视觉噪声,VPR-AttLLM在不需模型重新训练或额外数据的情况下提升了检索性能。我们在扩展基准上进行了全面评估,包括使用真实社交媒体洪水图像增强的SF-XL数据集、基于现有查询集和Mapillary照片的合成洪水场景,以及一个捕捉形态各异城市景观的新数据集HK-URBAN。将VPR-AttLLM与三种先进的视觉地点识别模型——CosPlace、EigenPlaces和SALAD——集成后,一致提升了召回性能,相对增益通常在1-3%之间,在最具挑战性的真实洪水图像上最高可达8%。除了检索准确率的可量化提升外,本研究为视觉检索系统中基于大型语言模型的多模态融合建立了一个可推广的范式。通过将城市感知理论的原则嵌入注意力机制,VPR-AttLLM将类人的空间推理与现代视觉地点识别架构相连接。其即插即用的设计、强大的跨源鲁棒性和可解释性凸显了其在可扩展的城市监测和众包危机图像快速定位中的潜力。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员