amaye15/receipts-google-ocr

Name: amaye15/receipts-google-ocr
Creator: amaye15
Published: 2024-04-22 15:16:29
License: 暂无描述

Hugging Face2024-04-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/amaye15/receipts-google-ocr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含图像数据、类别标签和OCR信息。图像数据存储在pixel_values特征中，类别标签包括Barcode、Invoice、Object、Receipt和Non-Object五个类别。OCR信息包含bounding box（由四个顶点坐标组成）和text（文本内容）。数据集分为训练集和测试集，训练集包含10200个样本，测试集包含2551个样本，总大小为14634287806.125字节。

提供机构：

amaye15

原始信息汇总

数据集概述

数据集特征

pixel_values: 图像数据类型。
label: 分类标签，包含以下类别：
- 0: Barcode
- 1: Invoice
- 2: Object
- 3: Receipt
- 4: Non-Object
ocr: 包含以下子特征：
- bounding box: 结构化数据，包含四个顶点，每个顶点有x和y坐标，数据类型为int64。
- text: 文本数据类型。

数据集划分

train: 包含10200个样本，总大小为11491877483字节。
test: 包含2551个样本，总大小为3142410323.125字节。

数据集大小

下载大小: 14550090370字节
数据集总大小: 14634287806.125字节

数据文件配置

default 配置下，数据文件路径如下：
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在文档图像处理领域，高质量的标注数据是推动模型性能提升的关键。amaye15/receipts-google-ocr数据集的构建过程体现了系统化的数据采集与标注流程。该数据集通过收集大量真实场景下的收据、发票等文档图像，并利用Google OCR服务提取文本内容及其对应的边界框坐标。每张图像均被人工标注为五大类别之一，包括条形码、发票、物体、收据及非物体，确保了类别定义的准确性与实用性。这种结合自动化OCR与人工精细标注的方法，既提升了数据构建效率，又保障了标注质量，为文档理解任务提供了可靠的基础。

特点

该数据集在文档图像分析领域展现出鲜明的多模态与结构化特征。其核心在于同时提供了图像像素数据、类别标签以及OCR提取的文本与空间信息，形成了图像、文本与几何标注的有机整合。数据覆盖了收据、发票、条形码等多种常见文档类型，并包含非物体类别以增强模型的判别能力。OCR输出不仅包含识别文本，还精确记录了每个文本区域的边界框坐标，为端到端的文档理解与信息抽取任务提供了丰富的上下文。这种多维度的数据表征支持了从分类到结构解析的多种研究需求。

使用方法

对于研究者与开发者而言，该数据集适用于训练与评估文档图像分类及理解模型。典型的使用流程包括加载图像数据与对应的类别标签，进行图像预处理与增强，进而构建分类模型。同时，可利用附带的OCR文本与边界框信息，开发能够联合理解图像内容与文本布局的复杂模型，例如用于收据关键信息定位或结构化提取。数据集已划分为训练集与测试集，便于进行模型训练与性能验证。通过Hugging Face数据集库，用户可以便捷地加载与迭代数据，加速文档智能领域的实验与开发进程。

背景与挑战

背景概述

在文档图像分析与光学字符识别领域，针对商业票据的自动化处理一直是研究热点。amaye15/receipts-google-ocr数据集由独立研究者amaye15于近年构建，旨在为票据图像分类与文本识别提供高质量标注资源。该数据集聚焦于条形码、发票、物体、收据及非物体五大类别，并集成了Google OCR引擎提取的文本与位置信息，核心研究问题在于提升复杂场景下票据图像的细粒度分类与结构化信息抽取精度。其出现推动了智能文档处理技术在财务自动化、零售管理等实际应用中的发展，为相关模型训练与评估提供了重要基准。

当前挑战

该数据集致力于解决票据图像多类别分类与端到端信息提取的挑战，具体包括票据图像因拍摄角度、光照条件、背景杂乱及版式多样性导致的分类歧义，以及手写体、印章遮挡、低分辨率等因素对OCR精度的影响。在构建过程中，挑战主要体现于大规模票据图像的收集与隐私信息脱敏处理，需在保护用户敏感数据的同时保持图像可用性；同时，人工标注与OCR结果的对齐工作极为繁琐，确保边界框与文本在各类票据变形下的准确匹配，亦对数据一致性提出了较高要求。

常用场景

经典使用场景

在文档图像分析与智能信息处理领域，该数据集为多模态学习提供了关键支持。其经典使用场景聚焦于结合视觉与文本信息的联合建模，通过图像像素数据与OCR提取的文本及边界框标注，训练模型实现文档图像的细粒度分类与内容理解。研究人员常利用该数据集构建端到端的深度学习框架，以同时处理图像特征和文本序列，优化模型在复杂文档结构中的识别精度与鲁棒性。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，包括多模态Transformer架构的优化、文档布局分析算法的改进以及弱监督学习在OCR增强中的应用。这些工作进一步拓展了文档理解的技术边界，例如通过注意力机制融合视觉与文本特征，或利用生成式模型合成标注数据。相关成果已在国际顶级会议中发表，形成了持续演进的研究脉络，为后续的工业级解决方案奠定了理论基础。

数据集最近研究