LogicOCR

github2025-05-17 更新2025-05-20 收录

下载链接：

https://github.com/MiliLab/LogicOCR

下载链接

链接失效反馈

官方服务：

资源简介：

LogicOCR是一个包含1,100个多项选择题的基准数据集，旨在评估大型多模态模型（LMMs）在文本丰富图像上的逻辑推理能力，同时最小化对领域特定知识（如数学）的依赖。数据集通过可扩展的自动化管道将原始文本语料库转换为多模态样本构建而成。

LogicOCR is a benchmark dataset containing 1,100 multiple-choice questions designed to evaluate the logical reasoning capabilities of large multi-modal models (LMMs) on text-rich images while minimizing the reliance on domain-specific knowledge, such as mathematics. The dataset is constructed from the original text corpus through an extensible automated pipeline to build multi-modal samples.

创建时间：

2025-05-12

原始信息汇总

LogicOCR 数据集概述

基本信息

数据集名称: LogicOCR
创建者: Maoyuan Ye, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao
机构: 武汉大学, 南洋理工大学
发布日期: 2025年5月16日
许可证: CC BY-NC-SA 4.0
论文链接: https://arxiv.org/abs/2505.12307
项目主页: https://ymy-k.github.io/LogicOCR.github.io/
数据集地址: https://huggingface.co/datasets/MiliLab/LogicOCR

数据集简介

LogicOCR 是一个包含1,100个多项选择题的基准数据集，旨在评估大型多模态模型（LMMs）在文本丰富图像上的逻辑推理能力。数据集通过自动化流程从原始文本语料库转换为多模态样本，并经过人工验证以确保质量。

数据集特点

多样性: 图像具有多样的背景、文本-插图布局和字体。
逻辑推理: 专注于逻辑推理能力，减少对领域特定知识（如数学）的依赖。
评估设置: 支持Chain-of-Thought (CoT) 和直接回答两种评估方式。

主要发现

CoT 并未显著提高模型在LogicOCR上的准确性。
测试时扩展显著提升性能，但开源LMMs的效率仍有提升空间。
最先进的LMMs在视觉阅读和推理的整合上仍有不足。
LMMs在不同视觉文本方向上的感知鲁棒性需要改进。

数据集获取与评估

下载方式: bash git clone https://github.com/MiliLab/LogicOCR cd LogicOCR wget https://huggingface.co/datasets/MiliLab/LogicOCR/resolve/main/images.zip unzip images.zip && rm images.zip wget https://huggingface.co/datasets/MiliLab/LogicOCR/resolve/main/LogicOCR.json
评估脚本: 提供在 infer_models 目录下。
环境要求: python>=3.10, torch 2.5.1, torchvision 0.20.1, transformers 4.49.0, flash-attn 2.7.4.post1。

数据来源

原始文本语料库: 来自 LogiQA 和 LogiQA2.0。
推理脚本: 修改自 OCRBench。
OCR评估工具: 修改自 Fox。

引用

latex @article{ye2025logicocr, title={LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?}, author={Maoyuan Ye and Jing Zhang and Juhua Liu and Bo Du and Dacheng Tao}, journal={arXiv preprint arXiv:2505.12307}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文本丰富图像逻辑推理领域，LogicOCR数据集的构建采用了创新的自动化流水线技术。研究团队通过精心设计的提示模板引导GPT-Image-1生成具有多样化背景、图文交错布局和丰富字体的图像样本，确保视觉真实性与上下文相关性。生成后的图像经过严格人工验证，剔除低质量样本，最终形成包含1,100道多选题的基准数据集。这种构建方法既保证了数据多样性，又有效控制了领域知识的干扰因素。

特点

LogicOCR数据集最显著的特点在于其专注于评估多模态模型的纯逻辑推理能力，而非依赖特定领域知识。数据集包含的文本丰富图像具有复杂的视觉-文本交互特征，包括旋转扰动等真实场景挑战。特别值得注意的是，该基准揭示了思维链推理在现有模型中的局限性，为研究视觉阅读与逻辑推理的深度融合提供了重要实证依据。测试时缩放带来的性能提升现象也为模型优化提供了新的研究方向。

使用方法

使用LogicOCR进行模型评估需遵循标准化的技术流程。研究者需克隆项目仓库并下载图像及JSON标注文件，配置包含torch 2.5.1和transformers 4.49.0等组件的Python环境。评估脚本支持端到端推理和OCR两步验证两种模式，用户可通过修改eval.sh参数实现不同测试场景。数据集还提供图像生成参考代码，支持用户通过API自定义扩展样本，生成结果将自动保存至指定目录供后续分析使用。

背景与挑战

背景概述

LogicOCR是由武汉大学和南洋理工大学的研究团队于2025年推出的一个创新性多模态基准数据集，旨在评估大型多模态模型（LMMs）在富含文本图像上的逻辑推理能力。该数据集包含1,100道多选题，通过自动化流程将原始文本语料转化为多模态样本，同时最小化对领域特定知识的依赖。LogicOCR的构建采用了GPT-Image-1生成的多样化背景和文本布局图像，并经过人工验证以确保质量。该数据集的推出填补了多模态模型在复杂逻辑推理任务上的评估空白，为相关领域的研究提供了重要工具。

当前挑战

LogicOCR面临的核心挑战包括多模态模型在逻辑推理任务中的表现不足，尤其是链式思维（CoT）并未显著提升模型准确性，揭示了推理路径设计的缺陷。此外，模型在视觉文本感知鲁棒性方面表现不佳，图像旋转等扰动会导致准确率大幅下降。数据构建过程中，确保生成图像的上下文相关性和视觉真实性也是一大挑战，需要通过人工验证筛选低质量样本。这些挑战突显了当前多模态模型在融合视觉阅读与逻辑推理能力上的局限性。

常用场景

经典使用场景

在人工智能领域，LogicOCR数据集主要用于评估大型多模态模型（LMMs）在文本丰富图像上的逻辑推理能力。通过包含1,100道多选题的数据集，研究者能够系统地测试模型在复杂视觉文本环境中的表现。这一数据集特别强调逻辑推理而非领域知识，为模型的多模态理解能力提供了标准化测试平台。

衍生相关工作

围绕LogicOCR衍生的研究主要集中在大规模多模态模型的鲁棒性优化方向。部分工作基于其发现的图像旋转敏感性问题，提出了增强视觉文本感知的对抗训练方法；另有研究受其推理路径缺陷启发，开发了新型注意力机制来改善多模态融合效果。这些工作显著推动了文本图像理解领域的发展。

数据集最近研究