Paulgrim/miniviquae_dataset
收藏Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paulgrim/miniviquae_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是ViQuAE数据集的简化版本,包含了从图像处理到文本处理的多方面信息。数据集分为训练集、验证集和测试集,分别包含1165、1216和1237个样本。数据集的许可证为cc-by-4.0。
该数据集是ViQuAE数据集的简化版本,包含了从图像处理到文本处理的多方面信息。数据集分为训练集、验证集和测试集,分别包含1165、1216和1237个样本。数据集的许可证为cc-by-4.0。
提供机构:
Paulgrim
原始信息汇总
数据集概述
数据集名称
"miniviquae_dataset"
数据集特征
- clip-RN50: 序列类型为
float64 - face: 序列类型为
float64 - face_box: 序列类型为
float64 - face_embedding: 序列类型为
float64 - face_landmarks: 序列类型为
float64 - face_prob: 序列类型为
float64 - id: 数据类型为
string - imagenet-RN50: 序列类型为
float64 - input: 数据类型为
string - kilt_id: 数据类型为
string - meta: 结构类型,包含多个子特征,如
left_context,mention等,数据类型主要为string - original_question: 数据类型为
string - output: 结构类型,包含子特征如
answer(序列类型为string),original_answer(数据类型为string),以及provenance(列表类型,包含多个特征,如bleu_score为float64,end_character为int64等) - url: 数据类型为
string - wikidata_id: 数据类型为
string - search_indices: 序列类型为
int64 - search_provenance_indices: 序列类型为
int64 - search_irrelevant_indices: 序列类型为
int64
数据集划分
- train: 1165个样本,占用313513980字节
- validation: 1216个样本,占用299175833字节
- test: 1237个样本,占用304124128字节
数据集大小
- 下载大小: 139611306字节
- 数据集大小: 916813941字节
许可证
cc-by-4.0



