five

floschne/wismir3

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/floschne/wismir3
下载链接
链接失效反馈
官方服务:
资源简介:
WISMIR3是一个多模态数据集,旨在挑战文本-图像检索方法。该数据集包含图像、文本描述、词性标注、命名实体等信息。数据集的特征包括wikicaps_id、wikimedia_file、caption、tokens、num_tok、sentence_spans、sentence_languages、num_sent、min_sent_len、max_sent_len、num_ne、ne_types、ne_texts、num_nouns、num_propn、num_conj、num_verb、num_sym、num_num、num_adp、num_adj、ratio_ne_tok、ratio_noun_tok、ratio_propn_tok、ratio_all_noun_tok、image_path等。数据集分为训练集和测试集,训练集包含295886个样本,测试集包含5000个样本。数据集的下载大小为183918204字节,数据集大小为405071420字节。数据集的许可证为cc-by-sa-4.0,语言为英语。

The WISMIR3 dataset is a multi-modal dataset designed to challenge text-image retrieval approaches. It includes multiple feature columns such as wikicaps_id, wikimedia_file, caption, and various statistical and linguistic features. The dataset is divided into training and test sets, with methods provided for downloading images and pre-computed embeddings. The dataset is based on the WikiCaps dataset and contains detailed text and image information.
提供机构:
floschne
原始信息汇总

WISMIR3 数据集概述

数据集信息

特征

  • wikicaps_id: 原始 WikiCaps 数据集中行的 ID(行号),数据类型为 int64
  • wikimedia_file: 与描述相关的图像的 Wikimedia 文件 ID,数据类型为 string
  • caption: 图像的描述,数据类型为 string
  • tokens: 描述中的标记序列,数据类型为 string
  • num_tok: 描述中的标记数量,数据类型为 int64
  • sentence_spans: 描述中句子的跨度序列,数据类型为 string
  • sentence_languages: 描述中句子的语言序列,数据类型为 string
  • num_sent: 描述中的句子数量,数据类型为 int64
  • min_sent_len: 描述中句子中最少标记数量,数据类型为 int64
  • max_sent_len: 描述中句子中最多标记数量,数据类型为 int64
  • num_ne: 描述中命名实体的数量,数据类型为 int64
  • ne_types: 检测到的命名实体的类型序列(如 PER, LOC, GPE 等),数据类型为 string
  • ne_texts: 检测到的命名实体的表面形式序列,数据类型为 string
  • num_nouns: 描述中名词标记的数量,数据类型为 int64
  • num_propn: 描述中专有名词标记的数量,数据类型为 int64
  • num_conj: 描述中连词标记的数量,数据类型为 int64
  • num_verb: 描述中动词标记的数量,数据类型为 int64
  • num_sym: 描述中符号标记的数量,数据类型为 int64
  • num_num: 描述中数字标记的数量,数据类型为 int64
  • num_adp: 描述中介词标记的数量,数据类型为 int64
  • num_adj: 描述中形容词标记的数量,数据类型为 int64
  • ratio_ne_tok: 命名实体标记与所有标记的比率,数据类型为 float64
  • ratio_noun_tok: 名词标记与所有标记的比率,数据类型为 float64
  • ratio_propn_tok: 专有名词标记与所有标记的比率,数据类型为 float64
  • ratio_all_noun_tok: 专有名词或名词标记与所有标记的比率,数据类型为 float64
  • image_path: 下载图像的本地路径,数据类型为 string

数据分割

  • train: 训练集,包含 295886 个样本,大小为 398344229 字节。
  • test: 测试集,包含 5000 个样本,大小为 6727191 字节。

数据集大小

  • 下载大小: 183918204 字节。
  • 数据集总大小: 405071420 字节。

配置

  • default:
    • train: 数据路径为 data/train-*
    • test: 数据路径为 data/test-*

许可证

  • cc-by-sa-4.0

语言

  • en

数据集名称

  • WISMIR 3

数据集规模

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作