kaydee/wildreceipt

Name: kaydee/wildreceipt
Creator: kaydee
Published: 2024-02-17 18:04:06
License: 暂无描述

Hugging Face2024-02-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kaydee/wildreceipt

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: id dtype: string - name: words sequence: string - name: bboxes sequence: sequence: int64 - name: ner_tags sequence: class_label: names: '0': Ignore '1': Store_name_value '2': Store_name_key '3': Store_addr_value '4': Store_addr_key '5': Tel_value '6': Tel_key '7': Date_value '8': Date_key '9': Time_value '10': Time_key '11': Prod_item_value '12': Prod_item_key '13': Prod_quantity_value '14': Prod_quantity_key '15': Prod_price_value '16': Prod_price_key '17': Subtotal_value '18': Subtotal_key '19': Tax_value '20': Tax_key '21': Tips_value '22': Tips_key '23': Total_value '24': Total_key '25': Others splits: - name: train num_bytes: 897479122.514 num_examples: 1267 - name: test num_bytes: 428203797.0 num_examples: 472 download_size: 1367650317 dataset_size: 1325682919.514 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息：特征字段： - 名称：image，数据类型：图像（image） - 名称：id，数据类型：字符串（string） - 名称：words，数据类型：字符串序列 - 名称：bboxes，数据类型：整数序列的序列 - 名称：ner_tags，数据类型为分类标签序列，标签映射关系如下： 0: 忽略（Ignore） 1: 门店名称值（Store_name_value） 2: 门店名称键（Store_name_key） 3: 门店地址值（Store_addr_value） 4: 门店地址键（Store_addr_key） 5: 电话号码值（Tel_value） 6: 电话号码键（Tel_key） 7: 日期值（Date_value） 8: 日期键（Date_key） 9: 时间值（Time_value） 10: 时间键（Time_key） 11: 商品条目值（Prod_item_value） 12: 商品条目键（Prod_item_key） 13: 商品数量值（Prod_quantity_value） 14: 商品数量键（Prod_quantity_key） 15: 商品单价值（Prod_price_value） 16: 商品单价键（Prod_price_key） 17: 小计值（Subtotal_value） 18: 小计键（Subtotal_key） 19: 税额值（Tax_value） 20: 税额键（Tax_key） 21: 小费值（Tips_value） 22: 小费键（Tips_key） 23: 总金额值（Total_value） 24: 总金额键（Total_key） 25: 其他（Others）数据划分： - 划分名称：train（训练集），数据字节大小：897479122.514，样本数量：1267 - 划分名称：test（测试集），数据字节大小：428203797.0，样本数量：472 下载总大小：1367650317 数据集总存储大小：1325682919.514 配置项： - 配置名称：default，数据文件路径： - 训练集：data/train-* - 测试集：data/test-*

提供机构：

kaydee

原始信息汇总

数据集概述

特征描述

image: 图像数据
id: 字符串类型
words: 字符串序列
bboxes: 整数序列的序列
ner_tags: 类别标签序列，包含以下类别：
- 0: Ignore
- 1: Store_name_value
- 2: Store_name_key
- 3: Store_addr_value
- 4: Store_addr_key
- 5: Tel_value
- 6: Tel_key
- 7: Date_value
- 8: Date_key
- 9: Time_value
- 10: Time_key
- 11: Prod_item_value
- 12: Prod_item_key
- 13: Prod_quantity_value
- 14: Prod_quantity_key
- 15: Prod_price_value
- 16: Prod_price_key
- 17: Subtotal_value
- 18: Subtotal_key
- 19: Tax_value
- 20: Tax_key
- 21: Tips_value
- 22: Tips_key
- 23: Total_value
- 24: Total_key
- 25: Others

数据分割

train: 包含1267个样本，大小为897479122.514字节
test: 包含472个样本，大小为428203797.0字节

数据集大小

下载大小: 1367650317字节
数据集大小: 1325682919.514字节

配置

default:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在文档智能领域，WildReceipt数据集通过系统性地收集真实世界中的收据图像构建而成。其构建过程涵盖了多样化的收据类型与布局，确保了数据来源的真实性与广泛性。每张收据图像均经过精细的标注，不仅识别出文本内容与位置边界框，还依据预定义的实体类别体系对文本片段进行了命名实体识别标注，从而形成了一个结构化的多模态文档理解基准。

使用方法

使用WildReceipt数据集时，研究者可将其应用于端到端的收据信息提取与理解任务。典型流程包括加载图像与对应的结构化标注，利用标注中的边界框与实体标签训练或评估视觉文档理解模型，如用于关键信息抽取的命名实体识别模型或文档视觉问答模型。该数据集的标准训练与测试划分，为模型性能提供了可靠的评估基准。

背景与挑战

背景概述

随着文档智能技术的快速发展，针对真实场景下的文档理解需求日益增长，WildReceipt数据集应运而生。该数据集由研究人员Kaydee等人构建，专注于收据文档的实体识别任务，旨在解决自然场景中收据图像的复杂信息提取问题。其核心研究在于通过精细的实体标注，如商店名称、商品条目、价格等关键字段，推动视觉文档理解模型在真实世界应用中的性能提升，对零售、金融等领域的自动化处理具有显著影响力。

当前挑战

WildReceipt数据集面临的挑战主要集中于两个方面：在领域问题层面，收据图像常存在光照不均、折叠污损、字体多样及布局非结构化等复杂视觉变异，这为实体识别模型的鲁棒性与泛化能力提出了严峻考验；在构建过程中，数据采集需涵盖广泛的实际场景以确保多样性，同时人工标注需处理大量细粒度实体类别，如区分“Prod_item_key”与“Prod_item_value”，这导致了高昂的标注成本与一致性维护的困难。

常用场景

经典使用场景

在文档智能与信息抽取领域，WildReceipt数据集凭借其丰富的收据图像与结构化标注，为视觉文档理解任务提供了经典应用场景。该数据集常用于训练和评估端到端的收据信息提取模型，例如通过光学字符识别与命名实体识别相结合的技术，自动识别收据中的关键实体，如商店名称、地址、商品条目、价格及总计等。这种应用不仅推动了文档布局分析与文本识别算法的进步，还为处理真实世界中的非结构化文档数据提供了标准化基准。

解决学术问题

WildReceipt数据集有效解决了文档智能研究中多个常见学术问题，包括复杂布局下的文本检测与识别、多类别实体抽取以及视觉与语言模态的融合建模。通过提供精细的边界框与实体标签，该数据集支持研究者探索如何从噪声背景、扭曲文本及多样格式的收据中准确提取结构化信息，从而缓解了真实场景数据稀缺的挑战。其意义在于促进了视觉文档理解模型的泛化能力与鲁棒性，为学术社区提供了可复现的实验基础。

实际应用

在实际应用层面，WildReceipt数据集直接赋能了自动化办公与商业流程的智能化转型。例如，在财务报销系统中，基于该数据集训练的模型能够自动解析扫描收据，提取关键财务信息并录入数据库，大幅减少人工录入错误与时间成本。此外，在零售分析与个人消费管理领域，此类技术有助于实现收据数据的快速数字化与分类，提升数据处理效率，为企业与个人用户提供便捷的智能文档处理解决方案。

数据集最近研究