five

Paulgrim/miniviquae_wikipedia

收藏
Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Paulgrim/miniviquae_wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ViQuAE的精简版本,包含了丰富的特征字段,如锚点、类别、图像、KILT ID、文本、URL、维基数据信息、维基百科ID和标题等。数据集分为三个部分:非人类、带面部的人类和不带面部的人类,每个部分都有具体的字节大小和示例数量。

该数据集是ViQuAE的精简版本,包含了丰富的特征字段,如锚点、类别、图像、KILT ID、文本、URL、维基数据信息、维基百科ID和标题等。数据集分为三个部分:非人类、带面部的人类和不带面部的人类,每个部分都有具体的字节大小和示例数量。
提供机构:
Paulgrim
原始信息汇总

数据集概述

数据集名称

  • 名称: miniviquae_wikipedia

数据集特征

  • anchors: 包含多个子特征,如end, href, paragraph_id, start, text, wikipedia_id, wikipedia_title,数据类型为int32string
  • categories: 数据类型为string
  • image: 数据类型为string
  • kilt_id: 数据类型为string
  • text: 包含子特征paragraph,数据类型为string
  • url: 数据类型为string
  • wikidata_info: 结构化数据,包含多个子特征,如aliases, description, enwikiquote_title, wikidata_id, wikidata_label, wikipedia_title,数据类型为string
  • wikipedia_id: 数据类型为string
  • wikipedia_title: 数据类型为string
  • passage_index: 数据类型为int64
  • clip-RN50: 数据类型为float32
  • imagenet-RN50: 数据类型为float32
  • face_box: 数据类型为float64
  • face_landmarks: 数据类型为float64
  • face_prob: 数据类型为float64
  • face_embedding: 数据类型为float64

数据集分割

  • non_humans: 2962个样本,占用98327419字节。
  • humans_with_faces: 1874个样本,占用91308756字节。
  • humans_without_faces: 104个样本,占用3388671字节。

数据集大小

  • 下载大小: 129733163字节
  • 数据集大小: 193024846字节

许可证

  • 许可证: cc-by-3.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作