LogicOCR
收藏LogicOCR 数据集概述
基本信息
- 数据集名称: LogicOCR
- 创建者: Maoyuan Ye, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao
- 机构: 武汉大学, 南洋理工大学
- 发布日期: 2025年5月16日
- 许可证: CC BY-NC-SA 4.0
- 论文链接: https://arxiv.org/abs/2505.12307
- 项目主页: https://ymy-k.github.io/LogicOCR.github.io/
- 数据集地址: https://huggingface.co/datasets/MiliLab/LogicOCR
数据集简介
LogicOCR 是一个包含1,100个多项选择题的基准数据集,旨在评估大型多模态模型(LMMs)在文本丰富图像上的逻辑推理能力。数据集通过自动化流程从原始文本语料库转换为多模态样本,并经过人工验证以确保质量。
数据集特点
- 多样性: 图像具有多样的背景、文本-插图布局和字体。
- 逻辑推理: 专注于逻辑推理能力,减少对领域特定知识(如数学)的依赖。
- 评估设置: 支持Chain-of-Thought (CoT) 和直接回答两种评估方式。
主要发现
- CoT 并未显著提高模型在LogicOCR上的准确性。
- 测试时扩展显著提升性能,但开源LMMs的效率仍有提升空间。
- 最先进的LMMs在视觉阅读和推理的整合上仍有不足。
- LMMs在不同视觉文本方向上的感知鲁棒性需要改进。
数据集获取与评估
-
下载方式: bash git clone https://github.com/MiliLab/LogicOCR cd LogicOCR wget https://huggingface.co/datasets/MiliLab/LogicOCR/resolve/main/images.zip unzip images.zip && rm images.zip wget https://huggingface.co/datasets/MiliLab/LogicOCR/resolve/main/LogicOCR.json
-
评估脚本: 提供在
infer_models目录下。 -
环境要求: python>=3.10, torch 2.5.1, torchvision 0.20.1, transformers 4.49.0, flash-attn 2.7.4.post1。
数据来源
- 原始文本语料库: 来自 LogiQA 和 LogiQA2.0。
- 推理脚本: 修改自 OCRBench。
- OCR评估工具: 修改自 Fox。
引用
latex @article{ye2025logicocr, title={LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?}, author={Maoyuan Ye and Jing Zhang and Juhua Liu and Bo Du and Dacheng Tao}, journal={arXiv preprint arXiv:2505.12307}, year={2025} }




