SWHL/ChineseOCRBench

Name: SWHL/ChineseOCRBench
Creator: SWHL
Published: 2024-04-30 09:40:36
License: 暂无描述

Hugging Face2024-04-30 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/SWHL/ChineseOCRBench

下载链接

链接失效反馈

官方服务：

资源简介：

Chinese OCRBench是一个专门用于中文OCR任务评测的数据集，旨在填补多模态LLM在该领域的评测空白。该数据集包含3410张图像和3410条问答数据，均来自ReCTS和ESTVQA数据集。数据集的标注格式包括图像文件名、问题、答案等信息，适用于中文OCR任务的评测和研究。

Chinese OCRBench is a dedicated benchmark dataset for Chinese OCR tasks, aiming to fill the evaluation gap in this field for multimodal large language models (LLMs). This dataset contains 3410 images and 3410 question-answer pairs, all sourced from the ReCTS and ESTVQA datasets. The annotation format includes information such as image filenames, questions and answers, and is applicable to the evaluation and research of Chinese OCR tasks.

提供机构：

SWHL

原始信息汇总

数据集概述

数据集名称

Chinese OCRBench

数据集目的

专门用于中文OCR任务的评测，填补了多模态LLM中OCR方向缺少中文评测的空白。

数据集组成

包含3410张图像和3410条问答数据。
数据来源：ReCTS和ESTVQA数据集。

数据集详细组成

数据集	图像个数	问题个数
ESTVQA	709	709
ReCTS	2701	2701
总计	3410	3410

数据集标注格式

每个样本包含以下字段：dataset_name, id, question, answers, type, file_name。

使用方式

建议与MultimodalOCR评测脚本结合使用。

数据集加载示例

python from datasets import load_dataset

dataset = load_dataset("SWHL/ChineseOCRBench")

test_data = dataset[test] print(test_data[0])

{image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=760x1080 at 0x12544E770>, dataset_name: ESTVQA_cn, id: 0, question: 这家店的名字是什么?, answers: 禾不锈钢, type: Chinese}

许可证

Apache-2.0

语言

中文

数据集大小

1K<n<10K

搜集汇总

数据集介绍

构建方式

ChineseOCRBench数据集的构建源于对多模态大语言模型（LLM）在中文OCR任务评测中的需求。该数据集从《On the Hidden Mystery of OCR in Large Multimodal Models》研究中提取了专门用于中文OCR评测的数据，结合了ReCTS和ESTVQA两个数据集的内容，共计3410张图像和3410条问答数据。这些数据均来自MultimodalOCR项目，确保了数据的多样性和代表性。

特点

ChineseOCRBench数据集的特点在于其专注于中文OCR任务的评测，涵盖了丰富的图像和问答数据。数据集中的图像和问题均来自真实场景，如店铺名称、产品描述等，具有较高的实用性和挑战性。此外，数据集的标注格式清晰，每一条数据都包含图像、问题、答案及类型信息，便于模型训练和评估。

使用方法

使用ChineseOCRBench数据集时，建议与MultimodalOCR评测脚本结合使用。用户可以通过Hugging Face的`datasets`库加载数据集，并直接访问测试集数据。每条数据包含图像、问题、答案及类型信息，用户可以根据需要提取和处理这些信息，用于模型训练、验证或性能评估。

背景与挑战

背景概述

在人工智能的快速发展中，光学字符识别（OCR）技术作为连接视觉与文本的重要桥梁，其重要性日益凸显。特别是在中文OCR领域，由于语言的复杂性和多样性，传统的OCR技术面临着巨大的挑战。ChineseOCRBench数据集的创建，正是为了填补这一领域的研究空白。该数据集由SWHL团队于2023年推出，基于先前的研究工作《On the Hidden Mystery of OCR in Large Multimodal Models》中的中文OCR评测数据集，专门针对中文OCR任务进行优化和扩展。数据集包含3410张图像和相应的问题-答案对，主要来源于ReCTS和ESTVQA数据集，旨在为多模态大模型的中文OCR能力提供标准化的评测基准。

当前挑战

ChineseOCRBench数据集的构建和应用面临多重挑战。首先，中文OCR任务本身具有高度的复杂性，包括字符的多样性、字形的相似性以及文本布局的多变性等，这些因素都增加了OCR技术的难度。其次，数据集的构建过程中，如何确保数据的多样性和代表性，以及如何处理和标注大量的图像数据，都是需要克服的技术难题。此外，随着多模态大模型的发展，如何有效地评估这些模型在中文OCR任务上的性能，也是一个亟待解决的问题。这些挑战不仅考验着研究者的技术能力，也推动了相关技术的进步和创新。

常用场景

经典使用场景

在中文OCR任务的研究中，ChineseOCRBench数据集被广泛用于评估多模态大语言模型（LLM）在中文文本识别方面的性能。该数据集通过提供3410张图像及其对应的问答数据，为研究者提供了一个标准化的测试平台，以验证模型在处理中文文本时的准确性和鲁棒性。

实际应用

在实际应用中，ChineseOCRBench数据集可用于开发和优化中文OCR系统，特别是在需要高精度识别中文文本的场景中，如自动文档处理、智能客服和图像搜索等。通过使用该数据集，开发者能够更好地训练和评估模型，提升系统在实际应用中的表现。

衍生相关工作

ChineseOCRBench数据集的推出，激发了多模态大语言模型在中文OCR任务中的进一步研究。基于该数据集，研究者们开发了多种改进模型和算法，如结合视觉和语言信息的混合模型，以及针对中文文本识别的特定优化策略。这些工作不仅提升了模型的性能，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集