rth/sroie-2019-v2

Hugging Face2024-03-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/rth/sroie-2019-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction，主要包含扫描收据的OCR和信息提取任务。数据集包括图像和对象两个主要特征，对象特征进一步细分为边界框、文本和实体（如公司、日期、地址和总金额）等。数据集分为训练集和测试集，训练集包含626个样本，测试集包含347个样本。数据集中的重复图像/注释已被移除。

提供机构：

rth

原始信息汇总

数据集概述

数据集特征

image: 图像数据类型。
objects: 结构化数据，包含以下子特征：
- bbox: 边界框，由整数序列组成。
- text: 文本数据，字符串类型。
- entities: 实体信息，结构化数据，包含以下子特征：
  - company: 公司名，字符串类型。
  - date: 日期，字符串类型。
  - address: 地址，字符串类型。
  - total: 总额，字符串类型。

数据集划分

train: 训练集，包含626个样本，总大小为357970471字节。
test: 测试集，包含347个样本，总大小为207508258字节。

数据集大小

下载大小: 501626251字节。
数据集总大小: 565478729字节。

数据文件配置

default 配置下，数据文件路径如下：
- 训练集路径: data/train-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在光学字符识别与信息抽取领域，扫描收据的自动化处理一直是研究热点。rth/sroie-2019-v2数据集源自ICDAR 2019扫描收据鲁棒阅读挑战赛，其构建过程基于原始SROIE数据集，经由Losyash等研究者对重复的图像与标注进行清洗与去重，最终形成高质量的版本。该数据集包含图像与结构化的标注信息，其中每张收据图像对应多个对象，每个对象涵盖边界框坐标、文本内容以及公司、日期、地址和总额等实体字段，为收据信息抽取任务提供了精细的标注基础。数据集划分为训练集与测试集，分别包含626和347个样本，数据规模适中，便于模型训练与评估。

特点

该数据集的核心特点在于其针对扫描收据场景的专门化设计。图像数据保留了真实收据的多样性与复杂性，包括不同字体、排版、污损及光照条件。标注信息不仅提供文本级边界框，还细粒度地标注了公司名称、日期、地址和总额等关键实体，使得模型能够同时学习文本检测与语义理解。此外，经过重复样本清除后的版本有效避免了数据泄露风险，提升了评估的公平性。数据集采用CC-BY-2.0许可协议，便于学术研究与商业应用，其紧凑的样本数量也适合快速迭代与验证。

使用方法

使用时，可通过HuggingFace数据集库加载rth/sroie-2019-v2，默认配置包含训练与测试分片。图像以PIL格式读取，标注以字典形式提供，其中'objects'字段包含'bbox'、'text'和'entities'子结构。研究人员可基于边界框与文本序列训练端到端的OCR模型，或利用实体标注进行信息抽取任务。推荐将图像进行归一化处理，并配合数据增强策略以提升泛化能力。评估指标可选用精确率、召回率及F1分数，针对实体级别的抽取结果进行衡量，从而全面验证模型在收据信息抽取上的表现。

背景与挑战

背景概述

在文档分析与光学字符识别领域，扫描收据的自动化信息提取一直是极具应用价值的研究方向。由ICDAR 2019发起的鲁棒阅读挑战赛（Robust Reading Challenge）聚焦于扫描收据的OCR与信息抽取任务，催生了SROIE-2019数据集。该数据集由国际模式识别领域的权威机构主导创建，核心研究问题在于如何从非结构化的扫描收据图像中精准识别文本并提取关键字段，如公司名称、日期、地址和总金额。自发布以来，该数据集已成为评估收据信息提取系统性能的基准之一，推动了深度学习模型在文档视觉理解与结构化信息抽取领域的发展。其训练集包含626张图像，测试集347张，并通过去除重复标注保证了数据质量，为研究人员提供了标准化的评测平台。

当前挑战

当前数据集所面临的挑战主要体现在两个维度。在领域问题层面，收据图像普遍存在光照不均、字体多样、打印模糊及背景杂乱等复杂噪声，使得文本检测与识别任务极易受到干扰；同时，关键字段的语义理解与边界界定（如地址的层级结构）对模型的结构化推理能力提出了极高要求。在数据集构建过程中，原始标注来源于不同收据样本，存在标注不一致或边界模糊的问题，尽管经过去重处理，但部分图像中文本与字段的对应关系仍可能因收据布局的多样性而难以统一，这要求模型具备更强的鲁棒性与泛化能力以应对真实场景中的变异性。

常用场景

经典使用场景

在文档智能与光学字符识别（OCR）研究领域，SROIE 2019数据集以其对扫描收据的精细化标注而著称。该数据集包含626张训练图像与347张测试图像，每张图像均配备边界框（bbox）与文本转录，并额外标注了公司名称、日期、地址与总金额等关键实体信息。研究者常将其作为端到端OCR与信息抽取（IE）任务的基准，用于评估模型在非结构化文档中定位并提取结构化字段的能力。其图像来源真实、噪声丰富，特别适合验证模型在遮挡、倾斜、模糊等复杂场景下的鲁棒性。

衍生相关工作

基于SROIE 2019，学界与工业界衍生出多项经典工作。例如，研究者提出了融合视觉与语言特征的LayoutLM系列模型，通过在预训练阶段引入布局信息，显著提升了收据信息抽取的准确率。此外，多模态文档解析模型如TROCR、Donut等也常以SROIE作为下游微调与评测数据集。在竞赛维度，ICDAR 2019的挑战赛直接催生了多种创新方案，如基于图卷积网络的实体关系推理方法，以及利用注意力机制进行端到端OCR-IE联合优化的框架。这些工作不仅巩固了SROIE作为文档智能基准的地位，还推动了多模态预训练范式在垂直领域的落地。

数据集最近研究