OCR-Reasoning Benchmark

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/SCUT-DLVCLab/OCR-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

OCR-Reasoning是一个全面的基准测试，旨在系统评估多模态大型语言模型在文本丰富图像推理任务中的表现。该基准包含1,069个人工标注的示例，涵盖6种核心推理能力和18种实际推理任务。与其他仅标注最终答案的文本丰富图像理解基准不同，OCR-Reasoning还同时标注了推理过程，从而能够全面分析模型的问题解决能力。

OCR-Reasoning constitutes a comprehensive benchmark for systematically evaluating the performance of multimodal large language models on rich-image text reasoning tasks. The benchmark includes 1,069 manually annotated examples, covering 6 core reasoning abilities and 18 practical reasoning tasks. Unlike other rich-image text understanding benchmarks that only annotate the final answers, OCR-Reasoning also annotates the reasoning process, enabling a comprehensive analysis of the models' problem-solving capabilities.

创建时间：

2025-05-16

原始信息汇总

OCR-Reasoning Benchmark 数据集概述

基本信息

数据集名称: OCR-Reasoning Benchmark
发布机构: 华南理工大学 & 华为云
发布日期: 2025年5月18日
许可证: CC BY-NC-SA 4.0
数据集地址: HuggingFace

数据集简介

OCR-Reasoning 是一个用于评估多模态大语言模型（MLLMs）在文本丰富图像推理任务中性能的综合基准。该数据集旨在系统地评估模型在复杂文本丰富图像场景下的推理能力。

核心特点

核心推理能力: 包含6种核心推理能力：
- 空间推理
- 数值分析推理
- 数学推理
- 枚举推理
- 逻辑推理
- 多学科知识推理
任务范围: 涵盖18种实际推理任务
数据规模: 1,069个人工标注的样本
标注内容: 同时标注最终答案和推理过程

评估方法

评估框架: 集成于VLMEvalKit框架
评估指标: 同时评估模型生成的最终答案和推理过程
评估结果: 当前最先进的MLLMs在OCR-Reasoning上的准确率均未超过50%

数据集示例

包含来自多个公开数据集的图像，如：
- InfoVQA
- DocVQA
- CharXiv
- WildReceipt
- MME-Finance

使用说明

克隆仓库： bash git clone https://github.com/SCUT-DLVCLab/OCR-Reasoning
运行评估脚本： bash cd OCR_Reasoning python run.py --data OCR_Reasoning --model Qwen2.5-VL-7B-Instruct --verbose

引用

如需使用该数据集，请引用相关论文（引文格式待补充）。

搜集汇总

数据集介绍

构建方式

在视觉推理领域，OCR-Reasoning Benchmark的构建采用了系统化的人工标注方法。研究团队从6类核心推理能力（空间推理、数值分析推理、数学推理、枚举推理、逻辑推理及跨学科知识推理）出发，精心收集了1,069个文本密集图像样本。每个样本不仅标注了最终答案，还同步记录了完整的推理过程，这种双重标注机制为评估多模态大语言模型的推理能力提供了立体化的分析维度。数据来源整合了InfoVQA、DocVQA等多个权威视觉问答数据集，确保了样本的多样性和代表性。

特点

该数据集最显著的特点是突破了传统文本图像理解基准的局限。不同于仅关注最终答案的评估体系，OCR-Reasoning通过记录推理链条实现了对模型思维过程的可视化分析。实验数据表明，当仅提供OCR识别文本时，大语言模型的准确率显著下降，印证了视觉信息在文本密集场景推理中的不可替代性。基准测试中现有模型不足50%的准确率，凸显了该数据集在检验模型深层推理能力方面的严格性。

使用方法

研究者可通过HuggingFace平台直接获取数据集资源，并利用集成的VLMEvalKit框架进行评估。评估脚本支持自动化下载图像与标注文件，用户只需指定目标模型（如Qwen2.5-VL-7B-Instruct）即可启动测试流程。该框架不仅输出最终准确率，还能生成推理过程分析报告，为改进模型在空间关系理解、数值计算等细分能力的表现提供诊断依据。数据集采用CC BY-NC-SA 4.0协议，保障学术研究自由的同时规范了使用边界。

背景与挑战

背景概述

OCR-Reasoning Benchmark由华南理工大学与华为云的研究团队于2025年联合推出，旨在系统评估多模态大语言模型在文本密集图像推理任务中的真实性能。该数据集包含1,069个人工标注样本，涵盖空间推理、数值分析推理、数学推理、枚举推理、逻辑推理及跨学科知识推理等6类核心能力，涉及18种实际推理场景。区别于传统文本图像理解基准仅标注最终答案，该数据集创新性地同步标注推理过程，为分析模型问题解决能力提供了全新维度。作为首个系统性评估文本密集图像推理能力的基准，其发布填补了多模态慢思考系统在该领域的评估空白，对推动视觉语言模型在金融、文档分析等实际场景的应用具有里程碑意义。

当前挑战

文本密集图像推理面临双重挑战：在领域问题层面，现有模型在综合推理任务中表现欠佳，最优模型准确率不足50%，暴露出多模态融合、符号推理等关键技术瓶颈；在数据集构建层面，需攻克跨场景样本平衡性、细粒度推理过程标注等难题。特别地，当仅使用OCR文本输入时模型性能显著下降，证实视觉特征与文本语义的协同理解仍是未解难题。此外，强化学习方法在该任务上的失效现象，也揭示了传统范式在复杂推理场景中的局限性。这些挑战为下一代多模态推理系统的设计提供了明确的技术攻关方向。

常用场景

经典使用场景

OCR-Reasoning Benchmark数据集在文本丰富的图像推理任务中展现了其独特的价值。该数据集通过涵盖空间推理、数值分析推理、数学推理、枚举推理、逻辑推理以及多学科知识推理等六大核心能力，为研究者提供了一个系统评估多模态大语言模型在复杂文本图像场景下推理能力的平台。其精心标注的1,069个样本不仅包含最终答案，还详细记录了推理过程，使得模型在生成答案的同时，其推理路径也能被全面评估。

衍生相关工作

OCR-Reasoning Benchmark的推出激发了多项相关研究。例如，基于该数据集，研究者提出了新的强化学习方法以提升模型在文本丰富图像推理任务中的表现。此外，该数据集还被用于改进多模态大语言模型的训练策略，例如结合视觉和文本信息的联合建模方法。这些工作不仅推动了文本丰富图像推理领域的发展，也为其他多模态任务提供了借鉴。

数据集最近研究