five

keshan/wit-dataset

收藏
Hugging Face2021-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/keshan/wit-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Wikipedia-based Image Text (WIT) 数据集是一个大型多模态多语言数据集。该数据集由37.6百万个实体丰富的图像-文本对组成,包含11.5百万张独特的图像,涵盖108种维基百科语言。

The Wikipedia-based Image Text (WIT) Dataset is a large-scale multimodal multilingual dataset. It comprises 37.6 million entity-rich image-text pairs, includes 11.5 million unique images, and covers 108 Wikipedia languages.
提供机构:
keshan
原始信息汇总

数据集概述

数据集名称

Wikipedia-based Image Text (WIT) Dataset

数据集类型

Multimodal multilingual dataset

数据集内容

  • 图像-文本示例数量:37.6 million
  • 独特图像数量:11.5 million
  • 覆盖语言:108 Wikipedia languages

数据集特点

  • 包含丰富的实体信息
  • 支持多语言和多模态机器学习研究
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作