five

OCRBench v2|光学字符识别数据集|文本处理数据集

收藏
arXiv2024-12-31 更新2025-01-06 收录
光学字符识别
文本处理
下载链接:
https://github.com/YuliangLiu/MultimodalOCR
下载链接
链接失效反馈
资源简介:
OCRBench v2 是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动联合创建的一个大规模双语文本中心基准数据集。该数据集包含10,000条经过人工验证的问答对,涵盖了31种不同的场景,如街景、收据、公式、图表等。数据集通过23个任务评估LMMs在文本识别、文本定位、手写内容提取和逻辑推理等方面的能力。OCRBench v2 的创建过程包括从81个学术数据集中手动筛选数据,并补充私有数据以确保场景的多样性。该数据集主要用于评估LMMs在复杂OCR任务中的性能,旨在解决现有基准在任务多样性、上下文复杂性和规模上的不足。
提供机构:
华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动
创建时间:
2024-12-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
OCRBench v2 数据集的构建基于对现有光学字符识别(OCR)任务的扩展与优化。研究团队从81个学术数据集中手动筛选并整合了丰富的文本数据,涵盖了31种不同的场景,如街景、收据、公式、图表等。数据集包含10,000个人工验证的问答对,并特别增加了高难度的样本比例。每个任务的设计都经过精心策划,确保能够全面评估大型多模态模型(LMMs)在文本定位、手写内容提取和逻辑推理等方面的能力。
特点
OCRBench v2 数据集的特点在于其广泛的场景覆盖和多样化的任务设计。数据集不仅包含传统的文本识别任务,还引入了文本定位、手写内容提取、数学推理等复杂任务。此外,数据集还提供了六种评估指标,确保对模型性能的全面评估。数据集中包含了大量的双语样本,且任务难度较高,能够有效揭示LMMs在复杂视觉文本理解中的局限性。
使用方法
OCRBench v2 数据集的使用方法主要围绕对大型多模态模型的评估展开。研究人员可以通过该数据集测试模型在文本识别、文本定位、手写内容提取等任务中的表现。数据集提供了详细的评估脚本和任务说明,用户可以根据需要选择特定的任务进行评估。此外,数据集还支持对模型在不同分辨率设置下的表现进行对比分析,帮助研究人员深入理解模型在复杂场景中的表现。
背景与挑战
背景概述
OCRBench v2是由华中科技大学、阿德莱德大学、华南理工大学和字节跳动等机构的研究人员共同开发的一个大规模双语文本中心基准测试数据集,旨在评估大型多模态模型(LMMs)在视觉文本定位和推理任务中的表现。该数据集于2024年发布,是目前最全面的OCR基准测试之一,涵盖了31种不同的场景和23个任务,包含10,000个人工验证的问答对,并包含大量高难度样本。OCRBench v2的推出填补了现有基准测试在任务多样性、场景覆盖和评估指标上的不足,特别是在文本定位、手写内容提取和逻辑推理等复杂任务上的评估能力。该数据集对推动多模态模型在OCR相关领域的研究和应用具有重要意义。
当前挑战
OCRBench v2面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管现有的LMMs在文本识别等基础任务上表现出色,但在处理复杂场景中的文本定位、手写内容提取和逻辑推理等任务时,表现仍然不尽如人意。例如,模型在处理较少见的文本类型(如点阵文本和数学公式)时,识别准确率较低;在文本定位任务中,模型难以精确捕捉文本的位置;在处理复杂布局(如重叠或旋转文本)时,模型的感知能力有限。其次,在数据集构建过程中,研究人员面临了数据多样性和复杂性的挑战。为了确保数据集的广泛覆盖,研究人员从81个学术数据集中筛选数据,并补充了私有数据,涵盖了从街景、收据到科学文档等多种场景。此外,数据集的标注和验证过程也极为复杂,需要确保每个任务的指令格式和评估标准的一致性,这对数据集的构建提出了极高的要求。
常用场景
经典使用场景
OCRBench v2 数据集主要用于评估大规模多模态模型(LMMs)在视觉文本定位和推理任务中的表现。其经典使用场景包括文本识别、手写内容提取、数学推理、文本定位等任务。通过涵盖31种不同场景和23种具体任务,OCRBench v2 提供了全面的评估框架,能够有效测试模型在复杂视觉文本环境中的表现。
衍生相关工作
OCRBench v2 的推出催生了一系列相关研究工作,特别是在多模态模型的文本理解能力提升方面。例如,基于OCRBench v2 的评估结果,研究者提出了改进模型在文本定位和逻辑推理任务中的表现的方法。此外,该数据集还启发了更多针对特定场景的基准测试的开发,如表格解析、图表理解等,进一步推动了多模态模型在实际应用中的发展。
数据集最近研究
最新研究方向
OCRBench v2作为评估大规模多模态模型(LMMs)在视觉文本定位与推理能力上的改进基准,近年来引起了广泛关注。该数据集通过涵盖31种多样化场景和23项具体任务,提供了10,000个人工验证的问答对,旨在全面评估LMMs在复杂OCR任务中的表现。研究表明,尽管LMMs在文本识别等基础任务上表现优异,但在文本定位、手写内容提取、复杂元素解析及逻辑推理等更具挑战性的任务中,大多数模型的得分低于50分,揭示了其在处理复杂视觉文本信息时的局限性。OCRBench v2的推出不仅为LMMs的OCR能力提供了更全面的评估框架,还为未来研究指明了改进方向,尤其是在提升模型对罕见文本的识别能力、精细空间感知能力以及复杂布局理解能力方面。
相关研究论文
  • 1
    OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning华中科技大学, 阿德莱德大学, 华南理工大学, 字节跳动 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录