CC-OCR

Name: CC-OCR
Creator: 阿里巴巴集团
Published: 2024-12-05 21:51:57
License: 暂无描述

arXiv2024-12-05 更新2024-12-07 收录

下载链接：

https://github.com/QwenLM/CC-OCR

下载链接

链接失效反馈

官方服务：

资源简介：

CC-OCR是由阿里巴巴集团和华中科技大学共同创建的综合性OCR基准数据集，旨在评估大型多模态模型在识字能力方面的表现。该数据集包含四个主要任务：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取，涵盖39个子任务，包含7,058张全标注图像，其中41%来自实际应用。数据集的创建过程注重多样性、实用性和挑战性，涵盖自然场景、真实文档和手写图像等多种数据源。CC-OCR的应用领域广泛，包括文档数字化、办公机器人和城市监控等，旨在解决复杂文本识别和多模态理解的问题。

CC-OCR is a comprehensive OCR benchmark dataset jointly developed by Alibaba Group and Huazhong University of Science and Technology. It is designed to evaluate the text literacy performance of large multimodal models. This dataset includes four core tasks: multi-scene text reading, multi-language text reading, document parsing, and key information extraction, covering 39 subtasks, and contains 7,058 fully annotated images, 41% of which are sourced from real-world applications. The construction of CC-OCR prioritizes diversity, practicality and challenge, incorporating multiple data sources such as natural scene texts, real-world documents and handwritten images. CC-OCR has a wide range of application scenarios, including document digitization, office robotics, urban surveillance and so on, aiming to address the challenges of complex text recognition and multimodal understanding.

提供机构：

阿里巴巴集团

创建时间：

2024-12-03

搜集汇总

数据集介绍

构建方式

CC-OCR数据集的构建遵循多样性、实用性和挑战性的原则，涵盖了多种场景和任务。数据来源包括现有的具有合格注释的基准数据集、需要重新注释以满足LMMs评估标准的数据集，以及自收集的数据集。具体而言，CC-OCR包括四个以OCR为中心的赛道：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。数据集包含39个子集，共7058张全注释图像，其中41%来自实际应用，首次发布。

特点

CC-OCR数据集的特点在于其全面性和挑战性。它不仅涵盖了多种语言和场景，还包括了细粒度的视觉挑战，如方向敏感性、定位、自然噪声和艺术文本。此外，数据集还包括了多种表达形式的解码和结构化输入输出，如数学公式、化学分子式、HTML和JSON格式。这些特点使得CC-OCR成为评估大型多模态模型在OCR任务中能力的理想基准。

使用方法

CC-OCR数据集的使用方法包括对多场景文本阅读、多语言文本阅读、文档解析和关键信息提取任务的评估。评估方法包括使用类似于TextMonkey的Eval-Trans和EvalPos指标进行OCR评估，以及使用归一化编辑距离（NED）和树编辑距离相似性（TEDS）进行文档解析评估。对于关键信息提取任务，采用字段级别的F1分数进行评估。此外，数据集还提供了详细的注释和评估方法，确保模型性能的准确评估。

背景与挑战

背景概述

CC-OCR数据集由阿里巴巴集团、华中科技大学和华南理工大学联合开发，旨在为评估大型多模态模型在文字识别（OCR）任务中的表现提供一个全面且具有挑战性的基准。该数据集创建于2024年，涵盖了多场景文本阅读、多语言文本阅读、文档解析和关键信息提取四大核心任务，包含39个子集和7058张全标注图像。CC-OCR的推出填补了当前多模态模型在复杂结构和细粒度视觉挑战方面评估的空白，对推动多模态模型在实际应用中的进步具有重要意义。

当前挑战

CC-OCR数据集在构建过程中面临多重挑战。首先，解决领域问题的挑战在于如何全面评估多模态模型在不同场景和任务中的表现，特别是多方向文本和自然噪声等细粒度视觉挑战。其次，构建过程中的挑战包括数据集的多样性和实用性，确保数据来源广泛且具有代表性，同时需要对现有数据进行重新标注以满足多模态模型的评估标准。此外，数据集的标注过程复杂，需确保标注的准确性和一致性，以支持多模态模型的全面评估。

常用场景

经典使用场景

CC-OCR数据集在评估大型多模态模型（LMMs）的识字能力方面具有经典应用场景。该数据集通过四个核心任务——多场景文本阅读、多语言文本阅读、文档解析和关键信息提取，全面评估LMMs在处理复杂结构和细粒度视觉挑战方面的能力。这些任务涵盖了从自然场景到文档的各种文本识别需求，为模型提供了广泛的训练和测试环境。

衍生相关工作

CC-OCR数据集的发布催生了一系列相关研究工作，特别是在多场景文本阅读、多语言文本识别和文档解析等领域。例如，基于CC-OCR的评估结果，研究者们提出了多种改进模型，以提升LMMs在复杂文本环境下的识别精度和鲁棒性。此外，CC-OCR还激发了对文本识别和文档解析任务的深入研究，推动了相关技术的创新和发展。

数据集最近研究