kaydee/wildreceipt
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kaydee/wildreceipt
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: id
dtype: string
- name: words
sequence: string
- name: bboxes
sequence:
sequence: int64
- name: ner_tags
sequence:
class_label:
names:
'0': Ignore
'1': Store_name_value
'2': Store_name_key
'3': Store_addr_value
'4': Store_addr_key
'5': Tel_value
'6': Tel_key
'7': Date_value
'8': Date_key
'9': Time_value
'10': Time_key
'11': Prod_item_value
'12': Prod_item_key
'13': Prod_quantity_value
'14': Prod_quantity_key
'15': Prod_price_value
'16': Prod_price_key
'17': Subtotal_value
'18': Subtotal_key
'19': Tax_value
'20': Tax_key
'21': Tips_value
'22': Tips_key
'23': Total_value
'24': Total_key
'25': Others
splits:
- name: train
num_bytes: 897479122.514
num_examples: 1267
- name: test
num_bytes: 428203797.0
num_examples: 472
download_size: 1367650317
dataset_size: 1325682919.514
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 名称:image,数据类型:图像(image)
- 名称:id,数据类型:字符串(string)
- 名称:words,数据类型:字符串序列
- 名称:bboxes,数据类型:整数序列的序列
- 名称:ner_tags,数据类型为分类标签序列,标签映射关系如下:
0: 忽略(Ignore)
1: 门店名称值(Store_name_value)
2: 门店名称键(Store_name_key)
3: 门店地址值(Store_addr_value)
4: 门店地址键(Store_addr_key)
5: 电话号码值(Tel_value)
6: 电话号码键(Tel_key)
7: 日期值(Date_value)
8: 日期键(Date_key)
9: 时间值(Time_value)
10: 时间键(Time_key)
11: 商品条目值(Prod_item_value)
12: 商品条目键(Prod_item_key)
13: 商品数量值(Prod_quantity_value)
14: 商品数量键(Prod_quantity_key)
15: 商品单价值(Prod_price_value)
16: 商品单价键(Prod_price_key)
17: 小计值(Subtotal_value)
18: 小计键(Subtotal_key)
19: 税额值(Tax_value)
20: 税额键(Tax_key)
21: 小费值(Tips_value)
22: 小费键(Tips_key)
23: 总金额值(Total_value)
24: 总金额键(Total_key)
25: 其他(Others)
数据划分:
- 划分名称:train(训练集),数据字节大小:897479122.514,样本数量:1267
- 划分名称:test(测试集),数据字节大小:428203797.0,样本数量:472
下载总大小:1367650317
数据集总存储大小:1325682919.514
配置项:
- 配置名称:default,数据文件路径:
- 训练集:data/train-*
- 测试集:data/test-*
提供机构:
kaydee
原始信息汇总
数据集概述
特征描述
- image: 图像数据
- id: 字符串类型
- words: 字符串序列
- bboxes: 整数序列的序列
- ner_tags: 类别标签序列,包含以下类别:
- 0: Ignore
- 1: Store_name_value
- 2: Store_name_key
- 3: Store_addr_value
- 4: Store_addr_key
- 5: Tel_value
- 6: Tel_key
- 7: Date_value
- 8: Date_key
- 9: Time_value
- 10: Time_key
- 11: Prod_item_value
- 12: Prod_item_key
- 13: Prod_quantity_value
- 14: Prod_quantity_key
- 15: Prod_price_value
- 16: Prod_price_key
- 17: Subtotal_value
- 18: Subtotal_key
- 19: Tax_value
- 20: Tax_key
- 21: Tips_value
- 22: Tips_key
- 23: Total_value
- 24: Total_key
- 25: Others
数据分割
- train: 包含1267个样本,大小为897479122.514字节
- test: 包含472个样本,大小为428203797.0字节
数据集大小
- 下载大小: 1367650317字节
- 数据集大小: 1325682919.514字节
配置
- default:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*
搜集汇总
数据集介绍

构建方式
在文档智能领域,WildReceipt数据集通过系统性地收集真实世界中的收据图像构建而成。其构建过程涵盖了多样化的收据类型与布局,确保了数据来源的真实性与广泛性。每张收据图像均经过精细的标注,不仅识别出文本内容与位置边界框,还依据预定义的实体类别体系对文本片段进行了命名实体识别标注,从而形成了一个结构化的多模态文档理解基准。
使用方法
使用WildReceipt数据集时,研究者可将其应用于端到端的收据信息提取与理解任务。典型流程包括加载图像与对应的结构化标注,利用标注中的边界框与实体标签训练或评估视觉文档理解模型,如用于关键信息抽取的命名实体识别模型或文档视觉问答模型。该数据集的标准训练与测试划分,为模型性能提供了可靠的评估基准。
背景与挑战
背景概述
随着文档智能技术的快速发展,针对真实场景下的文档理解需求日益增长,WildReceipt数据集应运而生。该数据集由研究人员Kaydee等人构建,专注于收据文档的实体识别任务,旨在解决自然场景中收据图像的复杂信息提取问题。其核心研究在于通过精细的实体标注,如商店名称、商品条目、价格等关键字段,推动视觉文档理解模型在真实世界应用中的性能提升,对零售、金融等领域的自动化处理具有显著影响力。
当前挑战
WildReceipt数据集面临的挑战主要集中于两个方面:在领域问题层面,收据图像常存在光照不均、折叠污损、字体多样及布局非结构化等复杂视觉变异,这为实体识别模型的鲁棒性与泛化能力提出了严峻考验;在构建过程中,数据采集需涵盖广泛的实际场景以确保多样性,同时人工标注需处理大量细粒度实体类别,如区分“Prod_item_key”与“Prod_item_value”,这导致了高昂的标注成本与一致性维护的困难。
常用场景
经典使用场景
在文档智能与信息抽取领域,WildReceipt数据集凭借其丰富的收据图像与结构化标注,为视觉文档理解任务提供了经典应用场景。该数据集常用于训练和评估端到端的收据信息提取模型,例如通过光学字符识别与命名实体识别相结合的技术,自动识别收据中的关键实体,如商店名称、地址、商品条目、价格及总计等。这种应用不仅推动了文档布局分析与文本识别算法的进步,还为处理真实世界中的非结构化文档数据提供了标准化基准。
解决学术问题
WildReceipt数据集有效解决了文档智能研究中多个常见学术问题,包括复杂布局下的文本检测与识别、多类别实体抽取以及视觉与语言模态的融合建模。通过提供精细的边界框与实体标签,该数据集支持研究者探索如何从噪声背景、扭曲文本及多样格式的收据中准确提取结构化信息,从而缓解了真实场景数据稀缺的挑战。其意义在于促进了视觉文档理解模型的泛化能力与鲁棒性,为学术社区提供了可复现的实验基础。
实际应用
在实际应用层面,WildReceipt数据集直接赋能了自动化办公与商业流程的智能化转型。例如,在财务报销系统中,基于该数据集训练的模型能够自动解析扫描收据,提取关键财务信息并录入数据库,大幅减少人工录入错误与时间成本。此外,在零售分析与个人消费管理领域,此类技术有助于实现收据数据的快速数字化与分类,提升数据处理效率,为企业与个人用户提供便捷的智能文档处理解决方案。
数据集最近研究
最新研究方向
在文档智能与视觉语言理解领域,kaydee/wildreceipt数据集作为真实场景下的收据图像与结构化标注资源,正推动着端到端信息提取技术的演进。当前研究聚焦于多模态Transformer架构的优化,通过联合建模图像视觉特征与文本序列,提升对收据中关键实体(如商品名称、价格、日期)的定位与识别精度。热点探索方向包括弱监督与少样本学习策略,以应对实际应用中标注数据稀缺的挑战,同时结合领域自适应方法增强模型对多样化布局与噪声的鲁棒性。这些进展不仅加速了自动化财务处理系统的落地,也为零售、物流等行业的数字化变革提供了核心技术支持。
以上内容由遇见数据集搜集并总结生成



