five

OCRBench v2

收藏
arXiv2024-12-31 更新2025-01-06 收录
下载链接:
https://github.com/YuliangLiu/MultimodalOCR
下载链接
链接失效反馈
资源简介:
OCRBench v2 是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动联合创建的一个大规模双语文本中心基准数据集。该数据集包含10,000条经过人工验证的问答对,涵盖了31种不同的场景,如街景、收据、公式、图表等。数据集通过23个任务评估LMMs在文本识别、文本定位、手写内容提取和逻辑推理等方面的能力。OCRBench v2 的创建过程包括从81个学术数据集中手动筛选数据,并补充私有数据以确保场景的多样性。该数据集主要用于评估LMMs在复杂OCR任务中的性能,旨在解决现有基准在任务多样性、上下文复杂性和规模上的不足。

OCRBench v2 is a large-scale bilingual text-centric benchmark dataset jointly created by Huazhong University of Science and Technology, University of Adelaide, South China University of Technology, and ByteDance. It contains 10,000 manually verified question-answer pairs, covering 31 distinct scenarios such as street scenes, receipts, formulas, charts and more. The dataset evaluates the capabilities of Large Multimodal Models (LMMs) in text recognition, text localization, handwritten content extraction, logical reasoning and other aspects through 23 tasks. The development process of OCRBench v2 includes manually screening data from 81 academic datasets and supplementing with private data to ensure the diversity of scenarios. This dataset is mainly used to evaluate the performance of LMMs in complex OCR tasks, aiming to address the shortcomings of existing benchmarks in terms of task diversity, contextual complexity and scale.
提供机构:
华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动
创建时间:
2024-12-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
OCRBench v2 数据集的构建基于对现有光学字符识别(OCR)任务的扩展与优化。研究团队从81个学术数据集中手动筛选并整合了丰富的文本数据,涵盖了31种不同的场景,如街景、收据、公式、图表等。数据集包含10,000个人工验证的问答对,并特别增加了高难度的样本比例。每个任务的设计都经过精心策划,确保能够全面评估大型多模态模型(LMMs)在文本定位、手写内容提取和逻辑推理等方面的能力。
特点
OCRBench v2 数据集的特点在于其广泛的场景覆盖和多样化的任务设计。数据集不仅包含传统的文本识别任务,还引入了文本定位、手写内容提取、数学推理等复杂任务。此外,数据集还提供了六种评估指标,确保对模型性能的全面评估。数据集中包含了大量的双语样本,且任务难度较高,能够有效揭示LMMs在复杂视觉文本理解中的局限性。
使用方法
OCRBench v2 数据集的使用方法主要围绕对大型多模态模型的评估展开。研究人员可以通过该数据集测试模型在文本识别、文本定位、手写内容提取等任务中的表现。数据集提供了详细的评估脚本和任务说明,用户可以根据需要选择特定的任务进行评估。此外,数据集还支持对模型在不同分辨率设置下的表现进行对比分析,帮助研究人员深入理解模型在复杂场景中的表现。
背景与挑战
背景概述
OCRBench v2是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动等机构的研究人员共同开发的一个大规模双语文本中心基准测试数据集,旨在评估大型多模态模型(LMMs)在视觉文本定位和推理任务中的表现。该数据集于2024年发布,是目前最全面的OCR基准测试之一,涵盖了31种不同的场景和23个任务,包含10,000个人工验证的问答对,并包含大量高难度样本。OCRBench v2的推出填补了现有基准测试在任务多样性、场景覆盖和评估指标上的不足,特别是在文本定位、手写内容提取和逻辑推理等复杂任务上的评估能力。该数据集对推动多模态模型在OCR相关领域的研究和应用具有重要意义。
当前挑战
OCRBench v2面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管现有的LMMs在文本识别等基础任务上表现出色,但在处理复杂场景中的文本定位、手写内容提取和逻辑推理等任务时,表现仍然不尽如人意。例如,模型在处理较少见的文本类型(如点阵文本和数学公式)时,识别准确率较低;在文本定位任务中,模型难以精确捕捉文本的位置;在处理复杂布局(如重叠或旋转文本)时,模型的感知能力有限。其次,在数据集构建过程中,研究人员面临了数据多样性和复杂性的挑战。为了确保数据集的广泛覆盖,研究人员从81个学术数据集中筛选数据,并补充了私有数据,涵盖了从街景、收据到科学文档等多种场景。此外,数据集的标注和验证过程也极为复杂,需要确保每个任务的指令格式和评估标准的一致性,这对数据集的构建提出了极高的要求。
常用场景
经典使用场景
OCRBench v2 数据集主要用于评估大规模多模态模型(LMMs)在视觉文本定位和推理任务中的表现。其经典使用场景包括文本识别、手写内容提取、数学推理、文本定位等任务。通过涵盖31种不同场景和23种具体任务,OCRBench v2 提供了全面的评估框架,能够有效测试模型在复杂视觉文本环境中的表现。
衍生相关工作
OCRBench v2 的推出催生了一系列相关研究工作,特别是在多模态模型的文本理解能力提升方面。例如,基于OCRBench v2 的评估结果,研究者提出了改进模型在文本定位和逻辑推理任务中的表现的方法。此外,该数据集还启发了更多针对特定场景的基准测试的开发,如表格解析、图表理解等,进一步推动了多模态模型在实际应用中的发展。
数据集最近研究
最新研究方向
OCRBench v2作为评估大规模多模态模型(LMMs)在视觉文本定位与推理能力上的改进基准,近年来引起了广泛关注。该数据集通过涵盖31种多样化场景和23项具体任务,提供了10,000个人工验证的问答对,旨在全面评估LMMs在复杂OCR任务中的表现。研究表明,尽管LMMs在文本识别等基础任务上表现优异,但在文本定位、手写内容提取、复杂元素解析及逻辑推理等更具挑战性的任务中,大多数模型的得分低于50分,揭示了其在处理复杂视觉文本信息时的局限性。OCRBench v2的推出不仅为LMMs的OCR能力提供了更全面的评估框架,还为未来研究指明了改进方向,尤其是在提升模型对罕见文本的识别能力、精细空间感知能力以及复杂布局理解能力方面。
相关研究论文
  • 1
    OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动 · 2024年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作