five

kaydee/wildreceipt

收藏
Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kaydee/wildreceipt
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: image dtype: image - name: id dtype: string - name: words sequence: string - name: bboxes sequence: sequence: int64 - name: ner_tags sequence: class_label: names: '0': Ignore '1': Store_name_value '2': Store_name_key '3': Store_addr_value '4': Store_addr_key '5': Tel_value '6': Tel_key '7': Date_value '8': Date_key '9': Time_value '10': Time_key '11': Prod_item_value '12': Prod_item_key '13': Prod_quantity_value '14': Prod_quantity_key '15': Prod_price_value '16': Prod_price_key '17': Subtotal_value '18': Subtotal_key '19': Tax_value '20': Tax_key '21': Tips_value '22': Tips_key '23': Total_value '24': Total_key '25': Others splits: - name: train num_bytes: 897479122.514 num_examples: 1267 - name: test num_bytes: 428203797.0 num_examples: 472 download_size: 1367650317 dataset_size: 1325682919.514 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息: 特征字段: - 名称:image,数据类型:图像(image) - 名称:id,数据类型:字符串(string) - 名称:words,数据类型:字符串序列 - 名称:bboxes,数据类型:整数序列的序列 - 名称:ner_tags,数据类型为分类标签序列,标签映射关系如下: 0: 忽略(Ignore) 1: 门店名称值(Store_name_value) 2: 门店名称键(Store_name_key) 3: 门店地址值(Store_addr_value) 4: 门店地址键(Store_addr_key) 5: 电话号码值(Tel_value) 6: 电话号码键(Tel_key) 7: 日期值(Date_value) 8: 日期键(Date_key) 9: 时间值(Time_value) 10: 时间键(Time_key) 11: 商品条目值(Prod_item_value) 12: 商品条目键(Prod_item_key) 13: 商品数量值(Prod_quantity_value) 14: 商品数量键(Prod_quantity_key) 15: 商品单价值(Prod_price_value) 16: 商品单价键(Prod_price_key) 17: 小计值(Subtotal_value) 18: 小计键(Subtotal_key) 19: 税额值(Tax_value) 20: 税额键(Tax_key) 21: 小费值(Tips_value) 22: 小费键(Tips_key) 23: 总金额值(Total_value) 24: 总金额键(Total_key) 25: 其他(Others) 数据划分: - 划分名称:train(训练集),数据字节大小:897479122.514,样本数量:1267 - 划分名称:test(测试集),数据字节大小:428203797.0,样本数量:472 下载总大小:1367650317 数据集总存储大小:1325682919.514 配置项: - 配置名称:default,数据文件路径: - 训练集:data/train-* - 测试集:data/test-*
提供机构:
kaydee
原始信息汇总

数据集概述

特征描述

  • image: 图像数据
  • id: 字符串类型
  • words: 字符串序列
  • bboxes: 整数序列的序列
  • ner_tags: 类别标签序列,包含以下类别:
    • 0: Ignore
    • 1: Store_name_value
    • 2: Store_name_key
    • 3: Store_addr_value
    • 4: Store_addr_key
    • 5: Tel_value
    • 6: Tel_key
    • 7: Date_value
    • 8: Date_key
    • 9: Time_value
    • 10: Time_key
    • 11: Prod_item_value
    • 12: Prod_item_key
    • 13: Prod_quantity_value
    • 14: Prod_quantity_key
    • 15: Prod_price_value
    • 16: Prod_price_key
    • 17: Subtotal_value
    • 18: Subtotal_key
    • 19: Tax_value
    • 20: Tax_key
    • 21: Tips_value
    • 22: Tips_key
    • 23: Total_value
    • 24: Total_key
    • 25: Others

数据分割

  • train: 包含1267个样本,大小为897479122.514字节
  • test: 包含472个样本,大小为428203797.0字节

数据集大小

  • 下载大小: 1367650317字节
  • 数据集大小: 1325682919.514字节

配置

  • default:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在文档智能领域,WildReceipt数据集通过系统性地收集真实世界中的收据图像构建而成。其构建过程涵盖了多样化的收据类型与布局,确保了数据来源的真实性与广泛性。每张收据图像均经过精细的标注,不仅识别出文本内容与位置边界框,还依据预定义的实体类别体系对文本片段进行了命名实体识别标注,从而形成了一个结构化的多模态文档理解基准。
使用方法
使用WildReceipt数据集时,研究者可将其应用于端到端的收据信息提取与理解任务。典型流程包括加载图像与对应的结构化标注,利用标注中的边界框与实体标签训练或评估视觉文档理解模型,如用于关键信息抽取的命名实体识别模型或文档视觉问答模型。该数据集的标准训练与测试划分,为模型性能提供了可靠的评估基准。
背景与挑战
背景概述
随着文档智能技术的快速发展,针对真实场景下的文档理解需求日益增长,WildReceipt数据集应运而生。该数据集由研究人员Kaydee等人构建,专注于收据文档的实体识别任务,旨在解决自然场景中收据图像的复杂信息提取问题。其核心研究在于通过精细的实体标注,如商店名称、商品条目、价格等关键字段,推动视觉文档理解模型在真实世界应用中的性能提升,对零售、金融等领域的自动化处理具有显著影响力。
当前挑战
WildReceipt数据集面临的挑战主要集中于两个方面:在领域问题层面,收据图像常存在光照不均、折叠污损、字体多样及布局非结构化等复杂视觉变异,这为实体识别模型的鲁棒性与泛化能力提出了严峻考验;在构建过程中,数据采集需涵盖广泛的实际场景以确保多样性,同时人工标注需处理大量细粒度实体类别,如区分“Prod_item_key”与“Prod_item_value”,这导致了高昂的标注成本与一致性维护的困难。
常用场景
经典使用场景
在文档智能与信息抽取领域,WildReceipt数据集凭借其丰富的收据图像与结构化标注,为视觉文档理解任务提供了经典应用场景。该数据集常用于训练和评估端到端的收据信息提取模型,例如通过光学字符识别与命名实体识别相结合的技术,自动识别收据中的关键实体,如商店名称、地址、商品条目、价格及总计等。这种应用不仅推动了文档布局分析与文本识别算法的进步,还为处理真实世界中的非结构化文档数据提供了标准化基准。
解决学术问题
WildReceipt数据集有效解决了文档智能研究中多个常见学术问题,包括复杂布局下的文本检测与识别、多类别实体抽取以及视觉与语言模态的融合建模。通过提供精细的边界框与实体标签,该数据集支持研究者探索如何从噪声背景、扭曲文本及多样格式的收据中准确提取结构化信息,从而缓解了真实场景数据稀缺的挑战。其意义在于促进了视觉文档理解模型的泛化能力与鲁棒性,为学术社区提供了可复现的实验基础。
实际应用
在实际应用层面,WildReceipt数据集直接赋能了自动化办公与商业流程的智能化转型。例如,在财务报销系统中,基于该数据集训练的模型能够自动解析扫描收据,提取关键财务信息并录入数据库,大幅减少人工录入错误与时间成本。此外,在零售分析与个人消费管理领域,此类技术有助于实现收据数据的快速数字化与分类,提升数据处理效率,为企业与个人用户提供便捷的智能文档处理解决方案。
数据集最近研究
最新研究方向
在文档智能与视觉语言理解领域,kaydee/wildreceipt数据集作为真实场景下的收据图像与结构化标注资源,正推动着端到端信息提取技术的演进。当前研究聚焦于多模态Transformer架构的优化,通过联合建模图像视觉特征与文本序列,提升对收据中关键实体(如商品名称、价格、日期)的定位与识别精度。热点探索方向包括弱监督与少样本学习策略,以应对实际应用中标注数据稀缺的挑战,同时结合领域自适应方法增强模型对多样化布局与噪声的鲁棒性。这些进展不仅加速了自动化财务处理系统的落地,也为零售、物流等行业的数字化变革提供了核心技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作