five

katanaml-org/invoices-donut-data-v1

收藏
Hugging Face2023-05-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/katanaml-org/invoices-donut-data-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含500份发票文档,这些文档已经过注释和处理,准备用于Donut ML模型的微调。注释和数据准备任务由Katana ML团队完成。Sparrow是Katana ML的开源数据提取解决方案。原始数据集信息可在Mendeley Data上找到。

This dataset comprises 500 invoice documents that have been annotated and processed, and is prepared for fine-tuning of the Donut ML model. The annotation and data preparation tasks were completed by the Katana ML team. Sparrow is an open-source data extraction solution developed by Katana ML. Information about the original dataset is available on Mendeley Data.
提供机构:
katanaml-org
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • image: 图像数据
    • ground_truth: 字符串数据
  • 分割:
    • train: 234024421字节, 425个样本
    • test: 14512665字节, 26个样本
    • validation: 27661738字节, 50个样本
  • 下载大小: 197512750字节
  • 数据集大小: 276198824字节
  • 许可证: MIT
  • 任务类别: 特征提取
  • 语言: 英语
  • 名称: Sparrow Invoice Dataset
  • 大小类别: n<1K

数据集描述

  • 包含500份已标注并处理好的发票文档,适用于Donut ML模型的微调。
搜集汇总
数据集介绍
main_image_url
构建方式
在文档智能领域,高质量标注数据是训练高效模型的基础。该数据集由Katana ML团队精心构建,基于Marek Kozłowski与Paweł Weichbroth于2021年发布的电子发票原始样本,经过专业标注与预处理,转化为适用于Donut模型微调的格式。构建过程涵盖图像与文本对的整理,确保数据的一致性与可用性,最终形成包含500份发票文档的标准化集合,为结构化信息提取研究提供了可靠资源。
特点
本数据集聚焦于发票文档的自动化处理,其核心特点在于专为Donut模型设计,具备图像与文本对的结构化特征。数据规模适中,涵盖训练、验证与测试三个标准划分,共计501个样本,确保了模型评估的严谨性。所有文档均以英文呈现,标注质量经过专业团队校验,支持特征提取任务,为文档理解与关键信息抽取提供了精准的基准数据。
使用方法
在文档信息提取任务中,该数据集可直接用于微调基于Transformer的Donut模型。使用者可通过加载图像与对应的ground_truth文本,训练模型学习从发票图像中识别并生成结构化文本。数据集已按标准比例分割,便于进行模型训练、验证与性能测试。借助HuggingFace平台,研究人员可便捷访问数据,加速文档智能领域的实验与开发进程。
背景与挑战
背景概述
在文档智能领域,电子发票的自动化信息提取一直是提升企业运营效率的关键技术。katanaml-org/invoices-donut-data-v1数据集由Katana ML团队于2021年构建,基于Marek Kozłowski和Paweł Weichbroth发布的原始电子发票样本。该数据集旨在为Donut模型提供精细调优的标注数据,核心研究问题聚焦于从复杂发票文档中准确提取结构化信息,从而推动光学字符识别与自然语言处理技术的融合应用,对金融科技与自动化流程管理领域产生了显著影响。
当前挑战
该数据集致力于解决电子发票信息提取中的多模态理解挑战,包括处理多样化的发票布局、模糊的文本质量以及跨语言语义解析等难题。在构建过程中,团队面临标注一致性与数据隐私保护的考验,需在有限样本规模下确保注释的精确度,同时平衡开源数据与商业敏感性之间的冲突,这些因素共同构成了数据集实用化部署的核心障碍。
常用场景
经典使用场景
在文档智能领域,该数据集为发票文档的结构化信息提取提供了标准化训练资源。其经典使用场景在于支持基于深度学习的端到端模型,如Donut(Document Understanding Transformer),进行细粒度微调,以自动识别发票中的关键字段,包括供应商名称、日期、金额和商品条目等。通过结合图像与文本标注,模型能够直接从扫描或数字发票图像中解析语义内容,显著提升了文档处理的自动化水平与准确性。
实际应用
在实际应用中,该数据集支撑了企业财务自动化、供应链管理和审计流程的优化。例如,金融机构和物流公司可基于训练模型批量处理发票,自动录入数据至ERP系统,减少人工干预并降低错误率。此外,它还能赋能税务申报、费用报销等场景,实现实时文档分析与合规检查,提升运营效率并降低成本,体现了人工智能在传统行业数字化转型中的关键价值。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,主要包括基于Donut架构的改进模型,如集成多语言支持或增强布局理解的变体。同时,社区也探索了结合预训练视觉Transformer与序列生成技术的方法,以提升对复杂发票格式的鲁棒性。这些工作不仅扩展了数据集的适用边界,还推动了开源工具如Sparrow的发展,形成了从数据到部署的完整生态系统,持续促进文档智能领域的实践与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作