OCRBench v2

Name: OCRBench v2
Creator: Authors of the paper
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/Yuliang-liu/MultimodalOCR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的双语文本中心基准，包含了全面的一组任务，用于评估大型多模态模型的光学字符识别（OCR）能力。相较于之前的OCRBench基准，该基准包含了四倍多的任务，并涵盖了包括街头场景、收据、公式和图表在内的各种情景。其规模达到了31个多样化情景中，10000个人工验证的问答对。任务范围包括文本定位、手写内容提取、逻辑推理以及文本识别。

This dataset is a large-scale bilingual text-centric benchmark that includes a comprehensive suite of tasks for evaluating the optical character recognition (OCR) capabilities of large multimodal models. Compared with the previous OCRBench benchmark, this benchmark contains more than four times as many tasks and covers various scenarios including street scenes, receipts, mathematical formulas and charts. It consists of 10,000 manually verified question-answer pairs across 31 diverse scenarios. The scope of tasks includes text localization, handwritten content extraction, logical reasoning and text recognition.

提供机构：

Authors of the paper

搜集汇总

数据集介绍

构建方式

在视觉文本理解领域，现有基准往往难以全面评估大型多模态模型在复杂场景下的综合能力。OCRBench v2的构建过程体现了系统性的数据策展与任务设计，其核心方法涵盖三个关键环节。数据集从81个文本密集的学术数据集中精心筛选与整合，并补充私有数据，最终覆盖31种典型场景，确保场景多样性。针对每种任务，研究团队设计了特定的指令模板，将原始标注转化为模型兼容的格式，对于需要结构化输出的复杂任务，还提供了格式示例以降低指令遵循能力的影响。所有指令与响应对均经过人工验证，修正了约1%的标注错误，最终形成了包含10,000对高质量、人工验证的问答对的大规模双语基准。

特点

作为评估大型多模态模型光学字符识别能力的综合性基准，OCRBench v2展现出多维度显著特征。其核心在于对八项文本阅读核心能力的系统性评估，涵盖文本识别、文本指代、文本定位、关系抽取、元素解析、数学计算、视觉文本理解及知识推理，并细化为23项具体任务，任务数量是前代多场景基准的四倍。数据集在场景覆盖上极为广泛，囊括了街景、收据、公式、图表等31种多样化的现实情境。数据质量方面，其问题具有更高的平均熵和词符类型比，表明问题不可预测性与词汇多样性更强，对模型构成了更严峻的挑战。此外，数据集中包含高比例的困难样本，旨在深入揭示模型在细粒度感知、复杂布局理解等方面的局限。

使用方法

在模型评估实践中，OCRBench v2提供了一套严谨且多角度的使用方法。评估框架针对23项不同任务的特点，适配了六类专门的评价指标，而非采用单一标准。对于元素解析类任务，采用基于树编辑距离的结构相似性度量；文本定位任务则使用交并比分数量化预测区域与真实值的接近程度。关系抽取能力通过F1分数进行评估，而涉及长文本阅读的任务则综合运用BLEU、METEOR、F1分数及编辑距离等多种指标。对于文本计数任务，使用预测值与真实值之间的L1距离进行度量。在基础的视觉问答评估中，则根据答案长度和格式，灵活采用精确字符串匹配或答案归一化莱文斯坦相似度等方法。该基准已成功应用于对38个代表性大型多模态模型的系统评测，为理解模型在复杂、实用OCR场景下的性能提供了标准化流程。

背景与挑战

背景概述

OCRBench v2 由华中科技大学、字节跳动等机构的研究团队于2024年提出，旨在系统评估大规模多模态模型在视觉文本定位与推理任务上的性能。该数据集聚焦于解决传统OCR基准在任务多样性、场景覆盖和评估深度上的不足，特别是在文本定位、手写内容提取和逻辑推理等复杂任务上的空白。通过整合31种多样化场景和23项具体任务，OCRBench v2 构建了包含10,000个人工验证问答对的大规模双语基准，显著推动了多模态模型在文档理解、图表解析和数学推理等前沿领域的研究与应用。

当前挑战

OCRBench v2 所针对的核心领域挑战在于大规模多模态模型对视觉文本的细粒度感知与复杂推理能力不足，具体表现为文本定位精度低、手写内容识别困难以及逻辑推理能力薄弱。在数据集构建过程中，研究团队面临多重挑战：一是需从81个现有数据集中筛选并整合高质量样本，确保场景多样性与任务平衡性；二是设计涵盖八类核心能力的统一评估框架，需克服不同任务输出格式与评估指标的异构性问题；三是人工标注与验证过程需处理大量复杂样本，如重叠文本、旋转布局和多语言混合内容，对标注一致性与质量控制提出较高要求。

常用场景

经典使用场景

在视觉文本理解领域，OCRBench v2作为一项综合性基准测试，主要用于评估大规模多模态模型在复杂场景下的文本定位与推理能力。该数据集通过涵盖31种多样化场景，如街景、收据、公式、图表等，构建了包含10,000个人工验证问答对的大规模双语文本中心化评估框架。其经典使用场景体现在对模型在文本识别、文本定位、手写内容提取及逻辑推理等23项具体任务上的系统性测评，为研究者提供了全面衡量模型在真实世界文本密集型任务中表现的有效工具。

衍生相关工作

OCRBench v2的推出催生了一系列围绕多模态模型优化的经典研究工作。基于其揭示的模型缺陷，研究者相继提出了如TextMonkey的令牌重采样机制、UReader的高分辨率图像分块处理策略，以及LayoutLLM结合布局编码器的架构改进。这些工作不仅针对文本定位和元素解析等薄弱环节进行增强，还促进了如mPLUG-DocOwl 1.5等模型在文档理解任务上的性能突破，形成了从评估到改进的良性研究循环。

数据集最近研究