Despite progress in Large Vision-Language Models (LVLMs), their capacity for visual reasoning is often limited by the binding problem: the failure to reliably associate perceptual features with their correct visual referents. This limitation underlies persistent errors in tasks such as counting, visual search, scene description, and spatial relationship understanding. A key factor is that current LVLMs process visual features largely in parallel, lacking mechanisms for spatially grounded, serial attention. This paper introduces Visual Input Structure for Enhanced Reasoning (VISER), a simple, effective method that augments visual inputs with low-level spatial structures and pairs them with a textual prompt that encourages sequential, spatially-aware parsing. We empirically demonstrate substantial performance improvements across core visual reasoning tasks, using only a single-query inference. Specifically, VISER improves GPT-4o performance on visual search, counting, and spatial relationship tasks by 25.0%, 26.8%, and 9.5%, respectively, and reduces edit distance error in scene description by 0.32 on 2D datasets. Furthermore, we find that the visual modification is essential for these gains; purely textual strategies, including Chain-of-Thought prompting, are insufficient and can even degrade performance. VISER underscores the importance of visual input design over purely linguistically based reasoning strategies and suggests that visual structuring is a powerful and general approach for enhancing compositional and spatial reasoning in LVLMs.


翻译:尽管大规模视觉语言模型(LVLMs)取得了进展,但其视觉推理能力常受限于绑定问题:即未能可靠地将感知特征与其正确的视觉指代对象关联起来。这一限制导致了在计数、视觉搜索、场景描述和空间关系理解等任务中持续存在的错误。一个关键因素是,当前LVLMs主要并行处理视觉特征,缺乏基于空间定位的序列注意力机制。本文提出了增强推理的视觉输入结构(VISER),这是一种简单有效的方法,通过低层次空间结构增强视觉输入,并搭配鼓励序列化、空间感知解析的文本提示。我们通过实证证明,仅使用单次查询推理,即可在核心视觉推理任务上实现显著的性能提升。具体而言,VISER将GPT-4o在视觉搜索、计数和空间关系任务上的性能分别提高了25.0%、26.8%和9.5%,并在二维数据集上将场景描述的编辑距离误差降低了0.32。此外,我们发现视觉修改对这些增益至关重要;纯文本策略(包括思维链提示)不仅不足,甚至可能降低性能。VISER强调了视觉输入设计相对于纯语言推理策略的重要性,并表明视觉结构化是增强LVLMs组合与空间推理能力的强大且通用的方法。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员