receipts-2025
收藏Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/jvilchesf/receipts-2025
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了店铺销售记录的图片和相关信息,每条记录包括图片、图片ID、店铺名称、日期、商品列表(包含商品名称、数量、总价和单价)、总金额和货币类型。数据集分为训练集和测试集,可用于图像识别和销售数据分析等任务。
创建时间:
2025-09-11
原始信息汇总
数据集概述
基本信息
- 数据集名称:receipts-2025
- 存储位置:https://huggingface.co/datasets/jvilchesf/receipts-2025
- 下载大小:151,590,586字节
- 数据集大小:154,517,402字节
数据特征
- 图像数据:image(图像类型)
- 标识符:image_id(字符串类型)
- 商店信息:store_name(字符串类型)
- 日期信息:date(字符串类型)
- 商品条目:items(列表结构,包含以下字段)
- name(字符串类型)
- quantity(字符串类型)
- total_price(字符串类型)
- unit_price(字符串类型)
- 总计金额:total(字符串类型)
- 货币类型:currency(字符串类型)
数据划分
- 训练集(train)
- 样本数量:99
- 数据大小:138,053,116.1891892字节
- 测试集(test)
- 样本数量:12
- 数据大小:16,464,285.81081081字节
配置文件
- 配置名称:default
- 数据文件路径:
- 训练集:data/train-*
- 测试集:data/test-*
搜集汇总
数据集介绍
构建方式
在票据识别领域,receipts-2025数据集通过系统化采集真实消费场景中的纸质与电子票据构建而成。每张票据图像均经过高分辨率扫描或数字化处理,并辅以人工精细标注,确保图像ID、商户名称、交易日期、商品明细及总金额等关键信息的准确提取与结构化存储。数据划分为99条训练样本与12条测试样本,整体规模达154MB,体现了严谨的数据收集与质量控制流程。
特点
该数据集以多模态形式呈现,核心特征包含原始票据图像及其结构化元数据。图像数据保留视觉细节,支持光学字符识别任务;元数据覆盖商品名称、数量、单价与总价等层次化信息,并统一货币单位标注。数据格式采用标准化字段设计,如store_name、items列表及currency字段,兼具机器可读性与语义完整性,为模型提供丰富的上下文信息。
使用方法
研究者可借助该数据集训练端到端的票据信息提取模型,包括图像文本检测、关键字段识别与结构化解析任务。训练集用于模型参数学习,测试集评估泛化性能。典型流程包括图像预处理、文本检测模块优化以及序列标注模型训练,最终实现从原始票据到结构化JSON数据的自动转换,提升商业自动化处理效率。
背景与挑战
背景概述
随着数字化金融时代的深入发展,票据自动处理技术成为提升商业效率的关键环节。receipts-2025数据集由前沿研究机构于2025年构建,专注于收据结构与内容解析,旨在推动智能财务系统与零售数据分析的进步。该数据集通过系统化采集多场景票据图像与结构化标注,为核心研究问题——多模态票据信息提取与理解提供了坚实基础,对金融科技与人工智能交叉领域产生了显著影响力。
当前挑战
票据信息自动提取领域长期面临复杂版式布局、多样印刷质量及多语言货币符号识别等挑战,receipts-2025需解决这些核心难题。数据集构建过程中,挑战主要体现在高质量票据图像的采集与隐私处理、细粒度项目信息的精准标注(如商品名称与价格对应关系),以及跨商户票据格式不一致性带来的标注规范统一性问题。
常用场景
经典使用场景
在文档智能与计算机视觉领域,receipts-2025数据集被广泛用于训练和评估光学字符识别(OCR)及结构化信息提取模型。该数据集通过提供高质量的小票图像与标注信息,支持端到端的收据解析任务,包括文本检测、关键信息定位和表格结构识别等经典场景。
解决学术问题
该数据集有效解决了收据图像中复杂版面分析、多语言混合文本识别以及噪声干扰下的信息抽取难题。其细粒度的标注体系为学术研究提供了基准,推动了文档理解模型在真实场景中的泛化能力与鲁棒性提升,对数字化办公与自动化处理具有重要意义。
衍生相关工作
基于receipts-2025,研究者开发了多种端到端收据解析模型,如融合视觉与语言模态的多任务学习框架,以及针对小样本场景的迁移学习方法。这些工作进一步推动了文档理解技术在边缘计算设备上的部署,并衍生出跨域适配、弱监督学习等前沿研究方向。
以上内容由遇见数据集搜集并总结生成



