Recent advances in Large Multimodal Models (LMMs) have revolutionized their reasoning and Optical Character Recognition (OCR) capabilities. However, their complex logical reasoning performance on text-rich images remains underexplored. To bridge this gap, we introduce LogicOCR, a benchmark comprising 2780 questions with two subsets, i.e., LogicOCR-Gen with 1100 multi-choice questions on generated images, and LogicOCR-Real with 1680 meticulously designed free-form questions on real-world images. For constructing LogicOCR-Gen, we first curate a text corpus from the Chinese National Civil Servant Examination, and customize an automatic pipeline to steer GPT-Image-1 to generate images with varied layouts and fonts, ensuring contextual relevance and visual realism. Then, the generated images are manually verified. We evaluate a range of representative LMMs under Chain-of-Thought (CoT) and direct-answer settings. Our multi-dimensional analysis reveals key insights, such as the impact of test-time scaling, input modality differences, and sensitivity to visual-text orientation. Notably, LMMs still lag in multimodal reasoning compared to text-only inputs, indicating that they have not fully bridged visual reading with reasoning. Moreover, we propose TextCue, a training-free method that enhances LMMs' perception of image regions containing important text cues for solving questions. We leverage LMMs' attention maps and an off-the-shelf text segmentation specialist to determine the region, which is then cropped and enlarged to augment the original image. Experiments show its effectiveness, e.g., a 1.8% accuracy gain over LLaVA-OV-1.5-8B under the CoT setting. Our benchmark is available at https://github.com/MiliLab/LogicOCR.


翻译:近期大型多模态模型(LMMs)的发展已在其推理与光学字符识别(OCR)能力方面带来革命性进步。然而,这些模型在文本丰富图像上的复杂逻辑推理性能仍未得到充分探索。为填补这一空白,我们提出了LogicOCR基准测试,包含2780个问题,分为两个子集:LogicOCR-Gen包含1100个基于生成图像的多选题,LogicOCR-Real包含1680个基于真实世界图像精心设计的开放式问题。在构建LogicOCR-Gen时,我们首先从中国国家公务员考试中筛选文本语料,并定制自动化流程引导GPT-Image-1生成具有多样化布局与字体的图像,确保上下文相关性与视觉真实感。随后对生成图像进行人工验证。我们在思维链(CoT)与直接答案两种设置下评估了一系列代表性LMMs。多维分析揭示了关键发现,例如测试时缩放的影响、输入模态差异以及对视觉文本方向的敏感性。值得注意的是,与纯文本输入相比,LMMs在多模态推理方面仍存在差距,表明其尚未完全实现视觉阅读与推理的融合。此外,我们提出TextCue——一种无需训练的方法,通过增强LMMs对图像中关键文本线索区域的感知来提升问题解决能力。该方法利用LMMs的注意力图与现成的文本分割专用工具确定关键区域,将其裁剪放大后与原始图像叠加。实验证明其有效性,例如在CoT设置下使LLaVA-OV-1.5-8B准确率提升1.8%。本基准测试开源地址:https://github.com/MiliLab/LogicOCR。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员