mathieu1256/FATURA2-invoices
收藏Hugging Face2024-02-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mathieu1256/FATURA2-invoices
下载链接
链接失效反馈官方服务:
资源简介:
FATURA 2 invoices数据集包含10000张白色背景的jpg图像和10000张彩色背景的jpg图像,以及3x10000个json注释文件。这些图像是从50个不同的模板生成的。数据集主要用于发票数据提取任务,包含图像、ner_tags、bboxes、tokens和id等特征。数据集分为训练集和测试集,训练集包含8600个样本,测试集包含1400个样本。
FATURA 2 invoices数据集包含10000张白色背景的jpg图像和10000张彩色背景的jpg图像,以及3x10000个json注释文件。这些图像是从50个不同的模板生成的。数据集主要用于发票数据提取任务,包含图像、ner_tags、bboxes、tokens和id等特征。数据集分为训练集和测试集,训练集包含8600个样本,测试集包含1400个样本。
提供机构:
mathieu1256
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: CC-BY-4.0
- 大小类别: 1K<n<10K
- 任务类别: 特征提取
- 名称: FATURA 2 invoices
- 标签: invoices, data extraction, invoice, FATURA2
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
- 数据文件:
数据集信息
- 特征:
- image: 图像
- ner_tags: 序列(int64)
- bboxes: 序列的序列(int64)
- tokens: 序列(string)
- id: 字符串
- 分割:
- 训练集:
- 字节数: 411874484.6
- 样本数: 8600
- 测试集:
- 字节数: 60569760.6
- 样本数: 1400
- 训练集:
- 下载大小: 342750666
- 数据集大小: 472444245.20000005
数据集组成
- 图像: 10000张白色背景的jpg图像,10000张彩色背景的jpg图像(使用论文中的颜色)
- 注释文件: 3x10000个json注释文件
- 模板数量: 50个不同模板
数据集信息(补充)
- 特征:
- image: 图像
- ner_tags: 序列(int64)
- words: 序列(string)
- bboxes: 序列的序列(int64)
- 分割:
- 训练集:
- 字节数: 477503369.0
- 样本数: 10000
- 训练集:
- 下载大小: 342662174
- 数据集大小: 477503369.0
搜集汇总
数据集介绍

构建方式
该数据集名为FATURA2-invoices,专为发票文档分析与理解任务而设计。其构建基于50种不同的模板,通过自动化生成方式创建了包含10000张白色背景和10000张彩色背景的JPG图像,以及相应的JSON标注文件。数据集的划分遵循标准范式,训练集包含8600个样本,测试集包含1400个样本,确保模型训练与评估的独立性。每个样本均涵盖图像、命名实体识别标签、边界框坐标、令牌序列及唯一标识符等关键信息,为多模态学习提供了坚实基础。
特点
FATURA2-invoices数据集的核心特点在于其丰富的多样性与实用性。图像背景涵盖白色与彩色两种类型,模拟真实发票场景中的视觉变化。基于50种模板生成的数据确保了布局的广泛覆盖,而命名实体识别标签与边界框的精细标注则支持细粒度的信息抽取任务。数据集规模适中(约10000张图像),在保证训练效果的同时降低了计算资源需求。此外,其采用CC-BY-4.0许可协议,便于学术与工业界自由使用,促进了文档分析领域的可重复研究。
使用方法
该数据集的使用方法简洁高效,可通过HuggingFace平台直接加载。用户利用`datasets`库中的`load_dataset`函数指定配置名为'default',即可自动获取训练与测试分片。数据以图像、NER标签、边界框和令牌序列的形式提供,适用于训练基于Transformer的文档理解模型或进行特征提取实验。建议研究人员将图像与对应标注对齐,结合预训练视觉-语言模型进行端到端微调,以优化发票信息抽取的准确率。
背景与挑战
背景概述
在文档分析与理解领域,发票图像的自动信息提取一直是研究的热点与难点,其核心在于从非结构化的视觉布局中精准定位并识别关键字段,如金额、日期及发票编号等。FATURA 2发票数据集由Mahmoud Limam、Marwa Dhiaf和Yousri Kessentini等人于2023年创建,旨在为多布局发票图像的命名实体识别任务提供标准化基准。该数据集包含10,000张白底和10,000张彩色背景的合成发票图像,源自50种不同模板,并配有详细的JSON标注文件,涵盖图像、令牌、边界框及实体标签等特征。其发布依托于Zenodo平台,并关联arXiv论文,为光学字符识别后处理及文档结构解析领域注入了新的训练资源,推动了从合成数据到真实场景迁移学习的研究进程。
当前挑战
FATURA 2数据集所解决的领域挑战主要聚焦于发票信息提取中的布局多样性与实体边界模糊问题。真实场景中,发票模板千差万别,文本位置、字体及背景颜色变化剧烈,传统规则或基于固定模板的方法难以泛化。该数据集通过引入多模板合成策略,旨在提升模型对未知布局的鲁棒性。然而,构建过程中面临显著挑战:首先,合成图像需在保持真实感与多样性间取得平衡,背景颜色的选择虽参考论文设定,但可能无法完全模拟自然拍摄中的光照与噪声;其次,JSON标注的生成需精确对齐令牌与边界框,而来自50种模板的几何变换增加了坐标映射的复杂度;最后,数据规模虽达万级,但相对于工业级应用中的无限变体,仍存在覆盖不足的风险,可能导致模型在极端案例上的过拟合或欠拟合。
常用场景
经典使用场景
FATURA2-invoices数据集专为发票文档分析与理解任务而构建,其经典使用场景聚焦于基于视觉与文本的多模态信息抽取。该数据集包含一万张白底与一万张彩色背景的合成发票图像,搭配三万余份JSON格式的标注文件,涵盖了命名实体识别标签、边界框坐标与文本令牌等关键信息。研究者可借助此数据集训练模型,从复杂布局的发票中精准提取诸如发票号码、日期、金额、供应商与客户信息等结构化字段,从而推动文档智能处理领域的发展。
解决学术问题
在学术研究中,FATURA2-invoices数据集有效解决了发票场景下标注数据稀缺与布局多样性不足的难题。传统文档分析数据集往往规模有限或局限于单一模板,而该数据集基于50种不同模板生成,引入了丰富的版面变化与背景色彩差异,为验证模型在多样化发票布局上的泛化能力提供了标准化基准。它推动了命名实体识别与文档理解模型在真实商业文档上的鲁棒性评估,助力研究者探索视觉与文本特征融合的深度学习架构,显著提升了信息抽取的准确性与迁移性能。
衍生相关工作
FATURA2-invoices数据集衍生了一系列经典研究工作,其中最具代表性的是Limam等人提出的FATURA基准,该工作系统性地评估了多种文档分析模型在发票信息抽取任务上的表现。此外,研究者基于该数据集开发了针对多布局发票的注意力机制与图神经网络方法,进一步提升了复杂版面下的实体识别性能。该数据集还催生了跨模态预训练模型的微调策略,如将LayoutLM与视觉变换器结合,推动了文档智能领域从合成数据到真实场景的迁移学习研究。
以上内容由遇见数据集搜集并总结生成



