CC-OCR

Name: CC-OCR
Creator: 阿里巴巴集团
Published: 2024-12-03 15:03:25
License: 暂无描述

arXiv2024-12-03 更新2024-12-06 收录

下载链接：

https://www.modelscope.cn/datasets/Qwen/CC-OCR/summary

下载链接

链接失效反馈

官方服务：

资源简介：

CC-OCR是由阿里巴巴集团和华中科技大学共同创建的综合性OCR基准数据集，旨在评估大型多模态模型在识字能力方面的表现。该数据集包含四个主要任务：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取，涵盖39个子任务，共有7058张全标注图像，其中41%来自实际应用场景。数据集的创建过程注重多样性、实用性和挑战性，涵盖自然场景、真实文档和手写图像等多种数据来源。CC-OCR的应用领域广泛，包括文档数字化、办公机器人和城市监控等，旨在解决复杂文本图像识别和理解的问题。

CC-OCR is a comprehensive OCR benchmark dataset jointly developed by Alibaba Group and Huazhong University of Science and Technology, aiming to evaluate the performance of large multimodal models in terms of literacy capabilities. This dataset encompasses four core tasks: multi-scene text reading, multi-language text reading, document parsing, and key information extraction, covering 39 subtasks and totaling 7058 fully annotated images, 41% of which are sourced from real-world application scenarios. The construction of CC-OCR emphasizes three core principles: diversity, practicality, and challenge, and incorporates diverse data sources including natural scenes, real documents, and handwritten images. CC-OCR has a wide range of application scenarios such as document digitization, office robotics, and urban surveillance, and is designed to solve the problems of complex text image recognition and understanding.

提供机构：

阿里巴巴集团

创建时间：

2024-12-03

搜集汇总

数据集介绍

构建方式

CC-OCR数据集的构建遵循多样性、实用性和挑战性的原则，涵盖了自然场景图像、真实世界捕获的文档和手写图像。数据来源包括现有基准数据集的重新标注、自收集数据以及部分公开数据集的整合。具体而言，数据集分为四个主要任务：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取，共计包含39个子集和7,058张全标注图像。

特点

CC-OCR数据集的显著特点在于其广泛的任务覆盖和多样的场景挑战。它不仅包括多场景和多语言的文本阅读任务，还涉及复杂的文档解析和关键信息提取。数据集中的41%图像来源于实际应用，首次公开，确保了数据的真实性和实用性。此外，数据集还涵盖了细粒度的视觉挑战，如方向敏感性、文本定位和自然噪声等。

使用方法

CC-OCR数据集适用于评估大型多模态模型在光学字符识别（OCR）相关任务中的表现。用户可以通过该数据集进行模型训练和性能评估，特别是在多场景、多语言和复杂文档处理方面。数据集提供了详细的标注信息，支持多种评估指标，如文本序列和位置序列的评估、归一化编辑距离（NED）和基于树编辑距离的相似性（TEDS）等，帮助用户全面了解模型的性能和局限性。

背景与挑战

背景概述

CC-OCR数据集由阿里巴巴集团、华中科技大学和华南理工大学联合开发，旨在为评估大型多模态模型（LMMs）在文字识别（OCR）任务中的表现提供一个全面且具有挑战性的基准。该数据集于2024年发布，涵盖了多种场景下的文字识别任务，包括多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。CC-OCR数据集的创建旨在填补现有基准在评估LMMs在复杂和细粒度视觉挑战方面的不足，推动LMMs在实际应用中的进一步发展，如文档数字化、办公机器人和城市监控。

当前挑战

CC-OCR数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，如图像分类中的图像多样性和复杂性；二是构建过程中遇到的挑战，如数据标注的复杂性和多样性。具体挑战包括：1) 多场景和多语言文本识别的复杂性；2) 文档解析中结构化布局和格式化输入输出的处理；3) 关键信息提取任务中对开放词汇和嵌套结构的处理；4) 数据集构建中对自然场景图像、真实世界文档和手写图像的多样化需求。此外，数据集还需要应对模型在细粒度文本定位、多方向文本处理和重复文本生成等方面的局限性。

常用场景

经典使用场景

CC-OCR数据集在多场景文本阅读、多语言文本阅读、文档解析和关键信息提取等四个核心任务中展现了其经典应用。通过涵盖多种复杂场景和挑战，CC-OCR为评估大型多模态模型（LMMs）在光学字符识别（OCR）任务中的表现提供了全面的基准。特别是在多场景文本阅读中，CC-OCR通过包含自然场景、文档、网页和手写文本等多种数据源，有效测试了模型在不同环境下的鲁棒性和准确性。

实际应用

CC-OCR数据集在实际应用中展现了其广泛的适用性，特别是在文档数字化、办公自动化和城市监控等领域。通过提供高质量的标注数据和多样化的测试场景，CC-OCR帮助开发者在实际应用中实现更高效、更准确的文本识别和信息提取。例如，在文档数字化过程中，CC-OCR能够有效处理各种复杂文档格式和语言，提升数字化效率和准确性。此外，在城市监控中，CC-OCR的多场景文本识别能力有助于快速准确地提取和分析监控视频中的关键信息。

衍生相关工作

CC-OCR数据集的发布催生了多项相关研究工作，推动了光学字符识别（OCR）和多模态学习领域的发展。例如，基于CC-OCR的评估结果，研究者们提出了多种改进模型，以提升在多语言和多场景文本识别中的表现。同时，CC-OCR也激发了新的研究方向，如细粒度文本定位和多方向文本处理，这些研究不仅提升了现有模型的性能，也为未来的技术创新提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集