five

ZUGFeRD invoices

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/ZUGFeRD/corpus
下载链接
链接失效反馈
官方服务:
资源简介:
收集了真实、样本和测试的电子发票,通常是ZUGFeRD格式,部分包含人工错误,用于测试和验证相关软件的兼容性和准确性。

This dataset comprises authentic, sample, and test electronic invoices, predominantly in ZUGFeRD format, some of which contain manual errors. It is utilized for testing and validating the compatibility and accuracy of related software.
创建时间:
2017-05-07
原始信息汇总

数据集概述

数据集名称

  • corpus

数据集内容

  • 包含真实的、样本的和测试的电子发票,主要是ZUGFeRD格式,部分包含人工错误。

数据集目的

  • 为德国法定B2B电子发票提供样本,以帮助企业在2025年1月1日后能够接受、阅读和理解这些发票。

数据集结构

  • PDF: 包含Factur-X格式的PDF文件,位于FX文件夹。
  • CII: 使用Mustang工具提取或手动保存嵌入的factur-x.xml文件。
  • UBL: 使用Mustang工具将CII文件转换为UBL格式。

数据集使用的技术和工具

  • Mustang工具: 用于提取和转换电子发票文件。
  • CII2UBL转换: 由Philip Helger的开源项目支持。

数据集的验证和查看

  • 验证功能支持FX和CII格式,但尚未支持UBL格式。
  • 使用Quba离线查看器可以渲染所有三种格式。

数据集的应用

  • 主要用于测试ZUGFeRD阅读器和验证器,确保它们能正确处理和识别电子发票文件。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于德国法定国内B2B电子发票的需求,特别是根据2025年1月1日生效的法律规定。数据集包括真实的、样本的和带有人工错误的电子发票,主要采用ZUGFeRD格式。构建过程中,使用了AWV的ZUGFeRD信息包,并通过Mustang工具生成临时、非官方的样本。此外,数据集还包含了CII和UBL格式的转换,确保了不同格式之间的兼容性。
特点
该数据集的主要特点在于其多样性和实用性。它不仅包含了真实的电子发票数据,还引入了人工错误,以测试和验证软件的解析和校验能力。此外,数据集支持多种格式,包括PDF、CII和UBL,确保了不同格式之间的互操作性。这种多样性使得该数据集成为开发和测试电子发票处理软件的理想选择。
使用方法
该数据集主要用于测试和验证电子发票处理软件的解析和校验功能。开发者可以使用Mustang工具提取PDF文件中的XML数据,或将CII文件转换为UBL格式。此外,数据集还支持验证功能,开发者可以通过验证工具检查文件的正确性。通过这些操作,开发者可以确保其软件能够正确处理和解析不同格式的电子发票,从而满足德国法律的要求。
背景与挑战
背景概述
ZUGFeRD invoices数据集是由德国企业和研究机构共同创建的,旨在为德国国内B2B电子发票的法定要求提供样本和测试数据。该数据集的创建背景源于德国自2025年1月1日起,企业必须能够接受、读取和理解国内B2B电子发票的法律规定。数据集的核心研究问题是如何根据EN16931标准生成符合规范的电子发票样本,并确保这些样本能够被广泛接受和验证。该数据集的创建不仅为企业和开发者提供了宝贵的测试资源,还推动了电子发票标准化进程,对相关领域的技术发展和法规遵从具有重要影响。
当前挑战
ZUGFeRD invoices数据集在构建过程中面临多项挑战。首先,如何根据EN16931标准生成符合规范的电子发票样本,并确保这些样本能够涵盖各种可能的错误情况,是一个技术难题。其次,数据集需要支持多种格式,包括XML、CII和UBL,这要求开发者在不同格式之间进行转换和验证。此外,数据集还需要处理PDF/A文件中的嵌入式CII格式,这增加了数据处理的复杂性。最后,数据集的验证工具在处理UBL文件时存在技术限制,这需要进一步的技术改进和优化。
常用场景
经典使用场景
ZUGFeRD invoices数据集在电子发票处理领域中具有经典的使用场景,主要用于测试和验证电子发票的解析和验证软件。该数据集包含了真实的、样本的以及带有人工错误的电子发票,特别是符合德国法定要求的B2B电子发票。通过这些数据,开发者可以测试其软件对不同格式(如CII、UBL和PDF/A嵌入的CII)的电子发票的解析能力,确保软件能够正确处理和验证这些发票。
衍生相关工作
ZUGFeRD invoices数据集衍生了一系列相关的工作,特别是在电子发票处理工具的开发和标准化方面。例如,Mustang项目利用该数据集开发了电子发票的转换和验证工具,支持CII和UBL格式的转换。此外,该数据集还促进了电子发票处理领域的研究,推动了错误检测和纠正算法的发展,以及电子发票处理软件的互操作性研究。
数据集最近研究
最新研究方向
在电子发票领域,ZUGFeRD invoices数据集的研究方向主要集中在支持德国法定国内B2B电子发票的解析与验证。随着2025年1月1日德国法律的实施,企业需能够接受、读取和理解国内B2B电子发票,这推动了对ZUGFeRD格式的深入研究。研究者们致力于开发能够解析EN16931标准下CII和UBL语法的软件,并处理嵌入PDF/A文件中的CII格式,即Factur-X~ZUGFeRD。此外,数据集还涉及错误检测和验证,以确保电子发票的准确性和合规性。这些研究不仅提升了电子发票处理的效率和准确性,也为全球电子发票标准的统一和推广提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作