OCRBench v2|光学字符识别数据集|文本处理数据集

arXiv2024-12-31 更新2025-01-06 收录

光学字符识别

文本处理

下载链接：

https://github.com/YuliangLiu/MultimodalOCR

下载链接

链接失效反馈

资源简介：

OCRBench v2 是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动联合创建的一个大规模双语文本中心基准数据集。该数据集包含10,000条经过人工验证的问答对，涵盖了31种不同的场景，如街景、收据、公式、图表等。数据集通过23个任务评估LMMs在文本识别、文本定位、手写内容提取和逻辑推理等方面的能力。OCRBench v2 的创建过程包括从81个学术数据集中手动筛选数据，并补充私有数据以确保场景的多样性。该数据集主要用于评估LMMs在复杂OCR任务中的性能，旨在解决现有基准在任务多样性、上下文复杂性和规模上的不足。

提供机构：

华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动

创建时间：

2024-12-31

AI搜集汇总

数据集介绍

构建方式

OCRBench v2 数据集的构建基于对现有光学字符识别（OCR）任务的扩展与优化。研究团队从81个学术数据集中手动筛选并整合了丰富的文本数据，涵盖了31种不同的场景，如街景、收据、公式、图表等。数据集包含10,000个人工验证的问答对，并特别增加了高难度的样本比例。每个任务的设计都经过精心策划，确保能够全面评估大型多模态模型（LMMs）在文本定位、手写内容提取和逻辑推理等方面的能力。

特点

OCRBench v2 数据集的特点在于其广泛的场景覆盖和多样化的任务设计。数据集不仅包含传统的文本识别任务，还引入了文本定位、手写内容提取、数学推理等复杂任务。此外，数据集还提供了六种评估指标，确保对模型性能的全面评估。数据集中包含了大量的双语样本，且任务难度较高，能够有效揭示LMMs在复杂视觉文本理解中的局限性。

使用方法

OCRBench v2 数据集的使用方法主要围绕对大型多模态模型的评估展开。研究人员可以通过该数据集测试模型在文本识别、文本定位、手写内容提取等任务中的表现。数据集提供了详细的评估脚本和任务说明，用户可以根据需要选择特定的任务进行评估。此外，数据集还支持对模型在不同分辨率设置下的表现进行对比分析，帮助研究人员深入理解模型在复杂场景中的表现。

背景与挑战

背景概述

OCRBench v2是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动等机构的研究人员共同开发的一个大规模双语文本中心基准测试数据集，旨在评估大型多模态模型（LMMs）在视觉文本定位和推理任务中的表现。该数据集于2024年发布，是目前最全面的OCR基准测试之一，涵盖了31种不同的场景和23个任务，包含10,000个人工验证的问答对，并包含大量高难度样本。OCRBench v2的推出填补了现有基准测试在任务多样性、场景覆盖和评估指标上的不足，特别是在文本定位、手写内容提取和逻辑推理等复杂任务上的评估能力。该数据集对推动多模态模型在OCR相关领域的研究和应用具有重要意义。

当前挑战

OCRBench v2面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管现有的LMMs在文本识别等基础任务上表现出色，但在处理复杂场景中的文本定位、手写内容提取和逻辑推理等任务时，表现仍然不尽如人意。例如，模型在处理较少见的文本类型（如点阵文本和数学公式）时，识别准确率较低；在文本定位任务中，模型难以精确捕捉文本的位置；在处理复杂布局（如重叠或旋转文本）时，模型的感知能力有限。其次，在数据集构建过程中，研究人员面临了数据多样性和复杂性的挑战。为了确保数据集的广泛覆盖，研究人员从81个学术数据集中筛选数据，并补充了私有数据，涵盖了从街景、收据到科学文档等多种场景。此外，数据集的标注和验证过程也极为复杂，需要确保每个任务的指令格式和评估标准的一致性，这对数据集的构建提出了极高的要求。

常用场景

经典使用场景

OCRBench v2 数据集主要用于评估大规模多模态模型（LMMs）在视觉文本定位和推理任务中的表现。其经典使用场景包括文本识别、手写内容提取、数学推理、文本定位等任务。通过涵盖31种不同场景和23种具体任务，OCRBench v2 提供了全面的评估框架，能够有效测试模型在复杂视觉文本环境中的表现。

衍生相关工作

OCRBench v2 的推出催生了一系列相关研究工作，特别是在多模态模型的文本理解能力提升方面。例如，基于OCRBench v2 的评估结果，研究者提出了改进模型在文本定位和逻辑推理任务中的表现的方法。此外，该数据集还启发了更多针对特定场景的基准测试的开发，如表格解析、图表理解等，进一步推动了多模态模型在实际应用中的发展。

数据集最近研究

相关研究论文

1
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集，共计约1,0000,000轮，上亿级token，包含正式&非正式风格对话，使用偏口语化自然表达。覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上，DOTS-NLP-216包含了对真实场景的对话采集，及高度还原真实场景的模拟对话这两种方式，兼顾分布的代表性、多样性和样本规模。

魔搭社区收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

Simulation of rear wheel steering in a vehicle towing a single axle trailer with variable load distribution

This is the dataset for a publication on the stability of automotive vehicles when towing single axle trailers. The loading of the trailer is critical for stability, if the load distribution is too far back, then the trailer will begin to sway uncontrollably, dictating the track of the vehicle.In this research, small proportional control of the rear wheel steering of a larger towing vehicle is shown to be able to further stabilize the system easily, thus improving the safety margin. This is based on control measurements of the yaw angle, either directly measured or inferred from rear camera / parking sensor measurements.The simulation environment is Simulink and all scripts are included to initialise and plot the results. The work is based on the built in example "Two axle vehicle towing one axle trailer" with modifications to enable control algorithms for rear wheel steering control and variable load distribution. Reference for the original model is available at:T. M. Inc., Vehicle dynamics blockset version: 2.0 (r2023a) (2022). https://www.mathworks.comT. M. Inc., Trailer body 3dof documentation (2020). https://uk.mathworks.com/help/vdynblks/ref/trailerbody3dof.html<br>

DataCite Commons 收录