Sharka/DocVQA_LayoutLM_features
收藏Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sharka/DocVQA_LayoutLM_features
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int64
- name: bbox
dtype:
array2_d:
shape:
- 512
- 4
dtype: int64
- name: attention_mask
sequence: int64
- name: image
dtype:
array3_d:
shape:
- 3
- 224
- 224
dtype: int64
- name: start_positions
dtype: int64
- name: end_positions
dtype: int64
splits:
- name: train
num_bytes: 47090682920
num_examples: 38174
- name: validation
num_bytes: 6225878260
num_examples: 5047
download_size: 2454149213
dataset_size: 53316561180
---
# Dataset Card for "DocVQA_LayoutLM_features"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:输入Token ID序列(input_ids),类型:64位整数序列
- 名称:边界框(bbox),数据类型:二维数组(array2_d),形状为512×4,元素类型为64位整数
- 名称:注意力掩码(attention_mask),类型:64位整数序列
- 名称:图像(image),数据类型:三维数组(array3_d),形状为3×224×224,元素类型为64位整数
- 名称:起始位置(start_positions),数据类型:64位整数
- 名称:结束位置(end_positions),数据类型:64位整数
划分集:
- 名称:训练集(train),总字节数:47090682920,样本数量:38174
- 名称:验证集(validation),总字节数:6225878260,样本数量:5047
下载大小:2454149213,数据集总大小:53316561180
---
# "DocVQA_LayoutLM特征"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Sharka
原始信息汇总
数据集概述
特征信息
- input_ids: 序列类型,数据类型为 int64。
- bbox: 二维数组,形状为 [512, 4],数据类型为 int64。
- attention_mask: 序列类型,数据类型为 int64。
- image: 三维数组,形状为 [3, 224, 224],数据类型为 int64。
- start_positions: 数据类型为 int64。
- end_positions: 数据类型为 int64。
数据分割
- train: 包含 38174 个样本,占用 47090682920 字节。
- validation: 包含 5047 个样本,占用 6225878260 字节。
数据集大小
- 下载大小: 2454149213 字节。
- 数据集总大小: 53316561180 字节。



