facturas_argentinas_2

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/mauroibz/facturas_argentinas_2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含200份经过筛选的发票文档，这些文档是从一个更大的数据集中按照特定分布标准抽样得到的。新版本包含了功能性的QR码。数据集内容主要包括：一个包含所有500份文档提取数据的JSON文件（`facturas.json`），一个对应的JPG图像目录（`jpg/`，每个文档一个图像），以及一个列出所有选定`documento_id`值的纯文本文件（`documento_ids.txt`）。数据集统计显示，文档类型、模板和主题均呈均匀分布。该数据集适用于模型评估和基准测试、测试视觉-语言模型在结构化文档理解上的表现，以及验证不同文档类型和风格的提取准确性。每个文档在`jpg/`目录中都有一个对应的JPG图像，文件名为`{documento_id}.jpg`。

创建时间：

2026-02-13

原始信息汇总

数据集概述

基本信息

数据集名称: Benchmark Dataset
数据集地址: https://huggingface.co/datasets/mauroibz/facturas_argentinas_2
数据总量: 200份文档

内容构成

facturas.json: 包含所有500份文档的发票提取数据的JSON文件
jpg/: 包含对应JPG图像的目录（每份文档一个图像）
documento_ids.txt: 列出所有选定documento_id值的纯文本文件（每行一个）

数据集统计

文档类型: 在A、B、C类型中均匀分布
模板类型: 在5种模板类型中均匀分布
主题类型: 在3种主题类型中均匀分布

数据特征

本版本包含功能正常的二维码
每份文档在jpg/目录中都有对应的JPG图像，命名为{documento_id}.jpg

用途

模型评估与基准测试
测试视觉-语言模型在结构化文档理解上的能力
验证跨不同文档类型和样式的提取准确性

生成说明

该数据集的生成代码将在接下来的一周内公开

搜集汇总

数据集介绍

构建方式

在电子发票处理领域，数据集facturas_argentinas_2的构建体现了严谨的抽样策略。该数据集从更广泛的原始数据中精选了200份发票文档，依据特定的分布标准进行采样，确保了文档类型、模板和主题的均匀分布。每个文档均配有功能性的二维码，增强了数据的实用性与真实性。数据以JSON格式存储提取信息，并辅以对应的JPG图像文件，形成了结构化的多模态资源。

特点

该数据集的核心特点在于其均衡的统计分布与多模态结构。文档类型涵盖A、B、C三类，模板与主题分别均匀分布在5种和3种类型中，这种设计有助于全面评估模型在不同样式下的性能。数据集包含200份文档，每份均配有高质量的JPG图像和可用的二维码，为视觉-语言模型提供了丰富的结构化文档理解测试场景。

使用方法

数据集适用于模型评估与基准测试，特别是在结构化文档理解任务中。用户可通过JSON文件访问提取的发票数据，并结合jpg目录中的对应图像进行多模态分析。该资源支持验证不同文档类型和风格下的信息提取准确性，为视觉-语言模型的性能测试提供了标准化平台。

背景与挑战

背景概述

随着数字化转型的深入，文档智能领域对结构化文档理解的需求日益增长，特别是在金融与商业场景中，发票等关键文档的自动处理成为研究焦点。facturas_argentinas_2数据集由相关研究机构于近期创建，旨在提供一个标准化的基准，用于评估视觉语言模型在阿根廷发票文档上的解析能力。该数据集包含200份精心采样的发票文档，均匀覆盖多种类型、模板和主题，其核心研究问题聚焦于提升模型对复杂文档布局和内容的准确提取，以推动文档自动化处理技术的发展，对金融科技和人工智能交叉领域具有显著影响力。

当前挑战

该数据集旨在解决文档智能中结构化信息提取的挑战，具体包括处理发票文档的多样布局、不同模板的视觉变异以及多语言内容的准确识别。在构建过程中，挑战主要源于数据采样的代表性平衡，需确保文档类型、模板和主题的均匀分布，同时维护功能性QR码等真实世界特征，这要求严格的筛选标准和高质量的数据标注，以保障基准评估的可靠性和泛化性。

常用场景

经典使用场景

在文档智能与视觉语言模型研究领域，facturas_argentinas_2数据集以其精心构建的阿根廷发票文档集合，为结构化文档理解任务提供了标准化的评估基准。该数据集包含200份涵盖多种类型、模板和主题的发票图像与对应JSON数据，常用于测试模型在复杂文档布局下的信息提取能力，特别是在跨文档风格和类型的泛化性能验证中，成为研究者评估模型鲁棒性与准确性的经典工具。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在文档理解模型的基准测试与创新方法验证上。许多研究利用其多模板特性开发了针对发票结构化提取的端到端框架，并在跨类型文档的适应性优化方面取得了进展。这些工作不仅拓展了视觉语言模型在财务文档领域的应用边界，还催生了针对拉丁美洲地区特定票据格式的专项研究，推动了区域化文档智能解决方案的发展。

数据集最近研究