scanned_receipts

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Voxel51/scanned_receipts

下载链接

链接失效反馈

官方服务：

资源简介：

ICDAR-SROIE（扫描收据OCR和信息提取）数据集包含1000张完整的扫描收据图像，来自现实世界的场景。该数据集作为ICDAR 2019竞赛的一部分引入，旨在推动文档分析、光学字符识别（OCR）和从结构化文档中提取信息的研究。数据集支持三个相互关联的任务：扫描收据文本定位、扫描收据OCR和关键信息提取。收据主要来自商店、商店和餐馆，代表不同的现实世界格式、布局和打印质量。这种多样性使其成为评估鲁棒文档理解系统的优秀基准。数据集的主要特点包括：总图像数为1000张扫描收据图像，训练集包含712张带注释的图像，测试集包含347张图像（某些版本中有361张），图像格式为JPEG，语言主要为英语，包含一些多语言内容，真实世界数据为真实的收据，具有自然的质量、布局和格式变化。

创建时间：

2025-10-18

原始信息汇总

ICDAR-SROIE数据集概述

数据集基本信息

数据集名称: ICDAR-SROIE (Scanned Receipts OCR and Information Extraction)
数据集标识: Voxel51/scanned_receipts
样本数量: 712个训练样本（总样本量1,000张图像）
语言: 主要为英语，包含多语言内容
许可证: CC-BY-4.0
任务类别: 目标检测、视觉问答、视觉文档检索

数据集描述

ICDAR-SROIE数据集包含从真实场景收集的1,000张完整扫描收据图像，作为ICDAR 2019竞赛的一部分推出，旨在推动文档分析、光学字符识别和信息提取的研究。

支持任务

扫描收据文本定位: 准确定位收据图像中的文本区域
扫描收据OCR: 从检测区域识别和转录文本内容
关键信息提取: 从收据中提取结构化信息（公司、地址、日期、总额）

关键特征

图像总数: 1,000张扫描收据图像
训练集: 712张带标注图像
测试集: 347张图像（某些版本为361张）
图像格式: JPEG
数据来源: 真实收据，具有质量、布局和格式的自然变化

数据集结构

每张图像关联的标注文件：

X00016469612.jpg - 收据图像
X00016469612_bbox.txt - 文本边界框和转录文本
X00016469612_metadata.txt - 提取的关键信息（JSON格式）

边界框格式

_bbox.txt文件每行包含：

x1,y1,x2,y2,x3,y3,x4,y4,transcript

其中四个顶点按顺时针顺序排列。

元数据格式

_metadata.txt文件包含JSON格式的提取信息： json { "company": "公司名称", "address": "地址", "date": "日期", "total": "总额" }

FiftyOne数据集模式

解析后的数据集包含以下字段：

filepath: 图像文件路径
metadata: 图像元数据
company: 公司名称
date: 收据日期
address: 地址
total: 总额
text_detections: 边界框检测
text_polygons: 原始4点多边形标注

评估指标

文本定位: 精确率、召回率、F1分数（基于IoU阈值）
OCR: 词级和字符级准确率
信息提取: 每个字段的精确匹配准确率

使用案例

OCR模型开发
信息提取研究
文档理解
基准评估
迁移学习
数据增强研究
多任务学习

引用信息

bibtex @article{huang2021icdar2019, title = {ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction}, author = {Zheng Huang and Kai Chen and Jianhua He and Xiang Bai and Dimosthenis Karatzas and Shijian Lu and C. V. Jawahar}, journal = {arXiv preprint arXiv:2103.10213}, year = {2021}, doi = {10.48550/arXiv.2103.10213}, url = {https://arxiv.org/abs/2103.10213} }

搜集汇总

数据集介绍

构建方式

在文档智能研究领域，该数据集通过系统化采集真实商业场景中的收据样本构建而成。研究人员从各类零售场所收集了1000张扫描收据图像，涵盖多样化的版式设计和印刷质量。构建过程采用专业标注工具对文本区域进行四边形边界框标注，每个框体包含四个顶点坐标及对应文本转录。关键信息提取阶段由训练有素的标注人员手动识别并结构化存储公司名称、地址、日期和总金额等核心字段，最终形成包含图像文件与对应标注文件的完整数据体系。

特点

该数据集最显著的特征在于其真实场景的多样性与标注体系的完整性。收据图像源自实际商业交易场景，呈现丰富的版式变化和印刷质量差异，有效模拟现实应用环境。数据集提供多层次标注信息：文本检测层面包含精确的四边形边界框坐标，文字识别层面提供完整转录文本，信息提取层面则结构化存储四个关键业务字段。这种多粒度标注结构使其能同时支持文本定位、光学字符识别和关键信息提取三项关联任务，为文档理解研究提供全面基准。

使用方法

基于FiftyOne框架的数据集加载流程极为简便，研究者通过安装fiftyone库并调用load_from_hub函数即可快速载入数据集。加载后的数据可通过launch_app方法启动交互式可视化界面，支持用户浏览收据图像、查看文本检测框与多边形标注、按元数据字段筛选样本等操作。数据集采用标准化字段结构，包含文件路径、图像元数据、关键信息字段及文本检测数据，研究者既可进行端到端模型训练，也能针对特定任务提取相应标注信息开展专项研究。

背景与挑战

背景概述

在文档分析与智能识别研究领域，ICDAR-SROIE数据集作为2019年国际文档分析与识别大会（ICDAR）竞赛的核心资源应运而生。该数据集由黄征、陈凯等学者联合构建，聚焦于扫描票据的光学字符识别与结构化信息提取任务。其包含1000张真实场景采集的票据图像，涵盖零售票据的多样化版式与质量变异，旨在推动多模态文档理解技术从文本定位到关键信息抽取的端到端发展。这一基准数据集的建立为票据数字化处理系统提供了标准化评估框架，显著促进了商业文档自动化分析技术的迭代与创新。

当前挑战

该数据集致力于解决真实场景票据图像中文本检测与结构化提取的双重难题。技术层面面临票据版式多样性导致的文本区域定位困难，如倾斜文本与密集排列的检测鲁棒性不足；同时票据图像存在打印模糊、透视畸变等质量退化问题，严重制约OCR识别的准确率。在构建过程中，标注团队需应对票据语义结构复杂性带来的标注挑战，例如同一语义实体的跨行文本分割，以及关键字段在异构版式中的位置不确定性。此外，真实票据中商业信息的隐私过滤与多语言混排现象进一步增加了数据清洗与标注一致性的维护难度。

常用场景

经典使用场景

在文档智能研究领域，该数据集常被用于构建端到端的收据理解系统。研究者通过其标注的文本边界框与转录内容，训练模型完成从图像中定位文字区域、识别字符到提取关键信息的完整流程。这种多层次任务设计使得该数据集成为评估文档分析系统综合性能的理想基准，尤其适用于验证模型在真实场景下的鲁棒性与准确性。

衍生相关工作

围绕该数据集衍生出众多经典研究工作，包括融合图神经网络与视觉特征的联合建模方法、基于注意力机制的多模态信息抽取框架等。这些工作不仅在国际文档分析与识别竞赛中取得突破性成果，还进一步推动了LayoutLM、Donut等文档智能预训练模型的发展，形成了从基准评测到算法创新的完整研究脉络。

数据集最近研究