keshan/wit-dataset

Name: keshan/wit-dataset
Creator: keshan
Published: 2021-08-07 18:15:42
License: 暂无描述

Hugging Face2021-08-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/keshan/wit-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Wikipedia-based Image Text (WIT) 数据集是一个大型多模态多语言数据集。该数据集由37.6百万个实体丰富的图像-文本对组成，包含11.5百万张独特的图像，涵盖108种维基百科语言。

The Wikipedia-based Image Text (WIT) Dataset is a large-scale multimodal multilingual dataset. It comprises 37.6 million entity-rich image-text pairs, includes 11.5 million unique images, and covers 108 Wikipedia languages.

提供机构：

keshan

原始信息汇总

数据集概述

数据集名称

Wikipedia-based Image Text (WIT) Dataset

数据集类型

Multimodal multilingual dataset

数据集内容

图像-文本示例数量：37.6 million
独特图像数量：11.5 million
覆盖语言：108 Wikipedia languages

数据集特点

包含丰富的实体信息
支持多语言和多模态机器学习研究

5,000+

优质数据集

54 个

任务类型

进入经典数据集