arnaudstiegler/synthetic_us_passports_hard

Name: arnaudstiegler/synthetic_us_passports_hard
Creator: arnaudstiegler
Published: 2024-06-12 13:45:48
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/arnaudstiegler/synthetic_us_passports_hard

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic US Passports (Hard)数据集旨在通过使用一种众所周知且简单的文档类型——护照，来评估视觉语言模型（VLMs）的转录能力。具体来说，它要求VLMs能够处理倾斜的文档、高分辨率图像中感兴趣区域较小的情况（因为护照只占图像的一部分），并且在硬版本中，通过Augraphy包注入噪声，使得转录任务更加困难。数据集包含训练集和测试集，分别有9750和160个样本。每个样本包含多个字段，如护照号、姓名、国籍等。数据集的生成流程包括使用模板填充数据、随机倾斜粘贴到背景上，并在硬版本中应用Augraphy增强。

提供机构：

arnaudstiegler

原始信息汇总

Synthetic US Passports 数据集概述

数据集基本信息

语言: 英语
许可证: Apache-2.0
大小分类: 1K<n<10K
任务分类: 视觉问答
美观名称: Synthetic US Passports

数据集特征

image: 图像类型
Type: 字符串类型
Code: 字符串类型
Passport_Number: 整数类型 (int64)
Surname: 字符串类型
Given_Names: 字符串类型
Nationality: 字符串类型
DOB: 字符串类型
Place_of_Birth: 字符串类型
Sex: 字符串类型
Date_of_Issue: 字符串类型
Authority: 字符串类型
Date_of_Expiration: 字符串类型
Endorsements: 字符串类型

数据集分割

训练集: 9750个样本，总大小45454379035.75字节
测试集: 160个样本，总大小875580983.0字节

下载与数据集大小

下载大小: 46332529915字节
数据集大小: 46329960018.75字节

配置

默认配置:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*