receipts-2025

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/jvilchesf/receipts-2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了店铺销售记录的图片和相关信息，每条记录包括图片、图片ID、店铺名称、日期、商品列表（包含商品名称、数量、总价和单价）、总金额和货币类型。数据集分为训练集和测试集，可用于图像识别和销售数据分析等任务。

创建时间：

2025-09-11

原始信息汇总

数据集概述

基本信息

数据集名称：receipts-2025
存储位置：https://huggingface.co/datasets/jvilchesf/receipts-2025
下载大小：151,590,586字节
数据集大小：154,517,402字节

数据特征

图像数据：image（图像类型）
标识符：image_id（字符串类型）
商店信息：store_name（字符串类型）
日期信息：date（字符串类型）
商品条目：items（列表结构，包含以下字段）
- name（字符串类型）
- quantity（字符串类型）
- total_price（字符串类型）
- unit_price（字符串类型）
总计金额：total（字符串类型）
货币类型：currency（字符串类型）

数据划分

训练集（train）
- 样本数量：99
- 数据大小：138,053,116.1891892字节
测试集（test）
- 样本数量：12
- 数据大小：16,464,285.81081081字节

配置文件

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 测试集：data/test-*

搜集汇总

数据集介绍

构建方式

在票据识别领域，receipts-2025数据集通过系统化采集真实消费场景中的纸质与电子票据构建而成。每张票据图像均经过高分辨率扫描或数字化处理，并辅以人工精细标注，确保图像ID、商户名称、交易日期、商品明细及总金额等关键信息的准确提取与结构化存储。数据划分为99条训练样本与12条测试样本，整体规模达154MB，体现了严谨的数据收集与质量控制流程。

特点

该数据集以多模态形式呈现，核心特征包含原始票据图像及其结构化元数据。图像数据保留视觉细节，支持光学字符识别任务；元数据覆盖商品名称、数量、单价与总价等层次化信息，并统一货币单位标注。数据格式采用标准化字段设计，如store_name、items列表及currency字段，兼具机器可读性与语义完整性，为模型提供丰富的上下文信息。

使用方法

研究者可借助该数据集训练端到端的票据信息提取模型，包括图像文本检测、关键字段识别与结构化解析任务。训练集用于模型参数学习，测试集评估泛化性能。典型流程包括图像预处理、文本检测模块优化以及序列标注模型训练，最终实现从原始票据到结构化JSON数据的自动转换，提升商业自动化处理效率。

背景与挑战

背景概述

随着数字化金融时代的深入发展，票据自动处理技术成为提升商业效率的关键环节。receipts-2025数据集由前沿研究机构于2025年构建，专注于收据结构与内容解析，旨在推动智能财务系统与零售数据分析的进步。该数据集通过系统化采集多场景票据图像与结构化标注，为核心研究问题——多模态票据信息提取与理解提供了坚实基础，对金融科技与人工智能交叉领域产生了显著影响力。

当前挑战

票据信息自动提取领域长期面临复杂版式布局、多样印刷质量及多语言货币符号识别等挑战，receipts-2025需解决这些核心难题。数据集构建过程中，挑战主要体现在高质量票据图像的采集与隐私处理、细粒度项目信息的精准标注（如商品名称与价格对应关系），以及跨商户票据格式不一致性带来的标注规范统一性问题。

常用场景

经典使用场景

在文档智能与计算机视觉领域，receipts-2025数据集被广泛用于训练和评估光学字符识别（OCR）及结构化信息提取模型。该数据集通过提供高质量的小票图像与标注信息，支持端到端的收据解析任务，包括文本检测、关键信息定位和表格结构识别等经典场景。

解决学术问题

该数据集有效解决了收据图像中复杂版面分析、多语言混合文本识别以及噪声干扰下的信息抽取难题。其细粒度的标注体系为学术研究提供了基准，推动了文档理解模型在真实场景中的泛化能力与鲁棒性提升，对数字化办公与自动化处理具有重要意义。

衍生相关工作

基于receipts-2025，研究者开发了多种端到端收据解析模型，如融合视觉与语言模态的多任务学习框架，以及针对小样本场景的迁移学习方法。这些工作进一步推动了文档理解技术在边缘计算设备上的部署，并衍生出跨域适配、弱监督学习等前沿研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集