lmms-lab/MP-DocVQA
收藏Hugging Face2024-02-11 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/MP-DocVQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: questionId
dtype: string
- name: question
dtype: string
- name: doc_id
dtype: string
- name: page_ids
dtype: string
- name: answers
dtype: string
- name: answer_page_idx
dtype: string
- name: data_split
dtype: string
- name: image_1
dtype: image
- name: image_2
dtype: image
- name: image_3
dtype: image
- name: image_4
dtype: image
- name: image_5
dtype: image
- name: image_6
dtype: image
- name: image_7
dtype: image
- name: image_8
dtype: image
- name: image_9
dtype: image
- name: image_10
dtype: image
- name: image_11
dtype: image
- name: image_12
dtype: image
- name: image_13
dtype: image
- name: image_14
dtype: image
- name: image_15
dtype: image
- name: image_16
dtype: image
- name: image_17
dtype: image
- name: image_18
dtype: image
- name: image_19
dtype: image
- name: image_20
dtype: image
splits:
- name: val
num_bytes: 14398036594.615
num_examples: 5187
- name: test
num_bytes: 11100541695.151
num_examples: 5019
download_size: 8574046936
dataset_size: 25498578289.766
configs:
- config_name: default
data_files:
- split: val
path: data/val-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 字段名:questionId,数据类型:字符串
- 字段名:question,数据类型:字符串
- 字段名:doc_id,数据类型:字符串
- 字段名:page_ids,数据类型:字符串
- 字段名:answers,数据类型:字符串
- 字段名:answer_page_idx,数据类型:字符串
- 字段名:data_split,数据类型:字符串
- 字段名:image_1,数据类型:图像(image)
- 字段名:image_2,数据类型:图像
- 字段名:image_3,数据类型:图像
- 字段名:image_4,数据类型:图像
- 字段名:image_5,数据类型:图像
- 字段名:image_6,数据类型:图像
- 字段名:image_7,数据类型:图像
- 字段名:image_8,数据类型:图像
- 字段名:image_9,数据类型:图像
- 字段名:image_10,数据类型:图像
- 字段名:image_11,数据类型:图像
- 字段名:image_12,数据类型:图像
- 字段名:image_13,数据类型:图像
- 字段名:image_14,数据类型:图像
- 字段名:image_15,数据类型:图像
- 字段名:image_16,数据类型:图像
- 字段名:image_17,数据类型:图像
- 字段名:image_18,数据类型:图像
- 字段名:image_19,数据类型:图像
- 字段名:image_20,数据类型:图像
数据划分:
- 划分名称:验证集(val),占用字节数:14398036594.615,样本总量:5187
- 划分名称:测试集(test),占用字节数:11100541695.151,样本总量:5019
下载总大小:8574046936 字节
数据集总存储大小:25498578289.766 字节
配置项:
- 配置名称:default(默认配置),关联数据文件:
- 数据划分:验证集(val),文件路径:data/val-*
- 数据划分:测试集(test),文件路径:data/test-*
提供机构:
lmms-lab
原始信息汇总
数据集概述
特征信息
- questionId: 字符串类型
- question: 字符串类型
- doc_id: 字符串类型
- page_ids: 字符串类型
- answers: 字符串类型
- answer_page_idx: 字符串类型
- data_split: 字符串类型
- image_1 至 image_20: 图像类型
数据分割
- val:
- 字节数: 14398036594.615
- 样本数: 5187
- test:
- 字节数: 11100541695.151
- 样本数: 5019
数据大小
- 下载大小: 8574046936 字节
- 数据集大小: 25498578289.766 字节
配置信息
- default 配置:
- val 分割路径:
data/val-* - test 分割路径:
data/test-*
- val 分割路径:



