Near-Start/layoutlm_docvqa_demo
收藏Hugging Face2023-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Near-Start/layoutlm_docvqa_demo
下载链接
链接失效反馈官方服务:
资源简介:
---
license: openrail
---
dataset_info:
features:
- name: questionId
dtype: int64
- name: question
dtype: string
- name: image
sequence:
sequence:
sequence:
sequence: uint8
- name: docId
dtype: int64
- name: ucsf_document_id
dtype: string
- name: ucsf_document_page_no
dtype: string
- name: answers
sequence: string
- name: data_split
dtype: string
- name: words
sequence: string
- name: boxes
sequence:
sequence: int64
splits:
- name: train
num_bytes: 6387690838
num_examples: 39463
- name: val
num_bytes: 869953677
num_examples: 5349
- name: test
num_examples: 5188
download_size: 2583317804
dataset_size: 7257644515
许可证:OpenRail
---
数据集信息:
特征项:
- 问题ID(questionId):数据类型为int64
- 问题(question):数据类型为字符串
- 图像(image):四层嵌套uint8序列
- 文档ID(docId):数据类型为int64
- 加州大学旧金山分校文档ID(ucsf_document_id):数据类型为字符串
- 加州大学旧金山分校文档页码(ucsf_document_page_no):数据类型为字符串
- 答案(answers):字符串序列
- 数据划分(data_split):数据类型为字符串
- 词汇(words):字符串序列
- 边界框(boxes):二维int64序列
数据划分:
- 训练集(train):字节数6387690838,样本量39463
- 验证集(val):字节数869953677,样本量5349
- 测试集(test):样本量5188
下载大小:2583317804
数据集总大小:7257644515
提供机构:
Near-Start
原始信息汇总
数据集概述
数据集特征
- questionId: 整数类型 (int64)
- question: 字符串类型 (string)
- image: 序列类型,内部序列类型为无符号整数 (uint8)
- docId: 整数类型 (int64)
- ucsf_document_id: 字符串类型 (string)
- ucsf_document_page_no: 字符串类型 (string)
- answers: 序列类型,内部序列类型为字符串 (string)
- data_split: 字符串类型 (string)
- words: 序列类型,内部序列类型为字符串 (string)
- boxes: 序列类型,内部序列类型为整数 (int64)
数据集分割
- train: 包含39463个样本,占用6387690838字节
- val: 包含5349个样本,占用869953677字节
- test: 包含5188个样本,未提供字节数
数据集大小
- 下载大小: 2583317804字节
- 数据集大小: 7257644515字节



