Paulgrim/miniviquae_wikipedia
收藏Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paulgrim/miniviquae_wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是ViQuAE的精简版本,包含了丰富的特征字段,如锚点、类别、图像、KILT ID、文本、URL、维基数据信息、维基百科ID和标题等。数据集分为三个部分:非人类、带面部的人类和不带面部的人类,每个部分都有具体的字节大小和示例数量。
该数据集是ViQuAE的精简版本,包含了丰富的特征字段,如锚点、类别、图像、KILT ID、文本、URL、维基数据信息、维基百科ID和标题等。数据集分为三个部分:非人类、带面部的人类和不带面部的人类,每个部分都有具体的字节大小和示例数量。
提供机构:
Paulgrim
原始信息汇总
数据集概述
数据集名称
- 名称: miniviquae_wikipedia
数据集特征
- anchors: 包含多个子特征,如
end,href,paragraph_id,start,text,wikipedia_id,wikipedia_title,数据类型为int32和string。 - categories: 数据类型为
string。 - image: 数据类型为
string。 - kilt_id: 数据类型为
string。 - text: 包含子特征
paragraph,数据类型为string。 - url: 数据类型为
string。 - wikidata_info: 结构化数据,包含多个子特征,如
aliases,description,enwikiquote_title,wikidata_id,wikidata_label,wikipedia_title,数据类型为string。 - wikipedia_id: 数据类型为
string。 - wikipedia_title: 数据类型为
string。 - passage_index: 数据类型为
int64。 - clip-RN50: 数据类型为
float32。 - imagenet-RN50: 数据类型为
float32。 - face_box: 数据类型为
float64。 - face_landmarks: 数据类型为
float64。 - face_prob: 数据类型为
float64。 - face_embedding: 数据类型为
float64。
数据集分割
- non_humans: 2962个样本,占用98327419字节。
- humans_with_faces: 1874个样本,占用91308756字节。
- humans_without_faces: 104个样本,占用3388671字节。
数据集大小
- 下载大小: 129733163字节
- 数据集大小: 193024846字节
许可证
- 许可证: cc-by-3.0



