OCR Receipt Dataset

github2024-11-08 更新2024-11-14 收录

下载链接：

https://github.com/boostcampaitech7/level2-cv-datacentric-cv-01

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专门用于OCR任务，涉及收据的处理。数据集包含标记的收据元素图像，分为训练集和测试集。训练图像400张，训练边界框34623个，测试图像120张，涵盖4种语言（中文、日文、泰文、越南文）各100张。

This dataset is specifically tailored for Optical Character Recognition (OCR) tasks centered on receipt processing. It includes annotated images of receipt elements, split into training and test subsets. Specifically, the training subset contains 400 images paired with 34,623 annotated bounding boxes, while the test subset consists of 120 images that cover 100 samples for each of the four languages: Chinese, Japanese, Thai, and Vietnamese.

创建时间：

2024-10-28

原始信息汇总

数据集概述

数据集信息

数据集类型

任务类型: OCR（光学字符识别）
数据类型: 收据图像

数据集规模

训练图像: 400
训练边界框: 34623
测试图像: 120

语言分布

中文: 100
日文: 100
泰文: 100
越南文: 100

开发环境

硬件

GPU: V100 32GB × 4

软件

Python: 3.10
CUDA: 12.1
PyTorch: 2.1.0
PyTorch Lightning: 1.8.0
Libraries:
- Opencv-python: 4.10.0.84
- Numpy: 1.24.4

协作工具

Notion
WandB

结果

最终结果

Ensemble (WBF, IoU=0.3):
- Super resolution (x4) + Normalize (base) + Remove dash + 3 folds (9:1 train-valid split)
- Super resolution (x4) + Normalize (custom) + Remove dash

数据增强

图像处理技术:
- Salt and pepper
- Binarization
- Normalize
- Super resolution

搜集汇总

数据集介绍

构建方式

在构建OCR Receipt Dataset时，研究团队采用了数据中心化的方法，专注于提升数据质量而非仅依赖模型优化。该数据集包含了400张训练图像和120张测试图像，每张图像均标注了详细的边界框信息，共计34623个边界框。此外，数据集涵盖了四种语言的收据样本，包括中文、日文、泰文和越南文，每种语言各100张图像。通过K-fold交叉验证和多种数据增强技术，如盐椒噪声、二值化和归一化处理，确保了数据集的多样性和鲁棒性。

特点

OCR Receipt Dataset的一个显著特点是其多语言支持，涵盖了中文、日文、泰文和越南文四种语言，这为跨语言的OCR研究提供了宝贵的资源。此外，数据集的高质量标注和丰富的边界框信息，使得模型能够更精确地识别和定位收据中的各个元素。通过应用多种数据增强技术，数据集在保持多样性的同时，也增强了模型在不同环境下的适应能力。

使用方法

使用OCR Receipt Dataset时，研究者可以利用其提供的训练和测试图像进行模型训练和评估。数据集的标注信息包括边界框和语言标签，可用于训练目标检测和OCR识别模型。建议使用PyTorch或TensorFlow等深度学习框架，结合数据增强技术，如盐椒噪声、二值化和归一化处理，以提升模型的泛化能力。此外，数据集支持K-fold交叉验证，有助于更准确地评估模型的性能。

背景与挑战

背景概述

在深度学习任务中，通常有两种主要方法：模型为中心和数据为中心。OCR Receipt Dataset由BoostCamp AI Tech 7th CV-01 Object Detection Project团队创建，专注于收据的光学字符识别（OCR）任务。该数据集包含400张训练图像和120张测试图像，涵盖四种语言：中文、日文、泰文和越南文。其核心研究问题是如何通过数据优化提升OCR系统的准确性和鲁棒性，对OCR技术在多语言环境中的应用具有重要影响。

当前挑战

OCR Receipt Dataset在构建过程中面临多重挑战。首先，收据图像的多样性和复杂性，包括不同语言和字体的识别，增加了数据标注的难度。其次，数据增强技术的应用，如盐和胡椒噪声、二值化和归一化，需要精确调整以避免信息丢失。此外，数据集的规模相对较小，如何通过有效的数据分割和交叉验证提高模型的泛化能力也是一个重要挑战。

常用场景

经典使用场景

在光学字符识别（OCR）领域，OCR Receipt Dataset 被广泛应用于收据文本的自动识别与提取。该数据集包含了多种语言的收据图像，涵盖中文、日文、泰文和越南文，为跨语言的OCR研究提供了丰富的资源。通过训练模型，研究人员能够实现对收据中关键信息的精准定位与识别，从而在商业自动化和财务管理中发挥重要作用。

解决学术问题

OCR Receipt Dataset 解决了多语言环境下收据文本识别的学术难题。传统OCR系统在处理多语言文本时往往表现不佳，而该数据集通过提供多语言标注的收据图像，使得研究人员能够开发出更具普适性的OCR模型。这不仅推动了OCR技术在多语言环境中的应用，也为跨文化交流和全球化商业活动提供了技术支持。

衍生相关工作

基于 OCR Receipt Dataset，研究人员开发了多种先进的OCR模型和算法。例如，通过结合超分辨率技术和数据增强方法，研究者们提升了模型在低质量图像上的识别性能。此外，该数据集还激发了关于多模态学习的研究，探索如何结合图像和文本信息以提高OCR系统的准确性和鲁棒性。这些衍生工作不仅丰富了OCR领域的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集