keshan/wit-dataset
收藏Hugging Face2021-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/keshan/wit-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Wikipedia-based Image Text (WIT) 数据集是一个大型多模态多语言数据集。该数据集由37.6百万个实体丰富的图像-文本对组成,包含11.5百万张独特的图像,涵盖108种维基百科语言。
The Wikipedia-based Image Text (WIT) Dataset is a large-scale multimodal multilingual dataset. It comprises 37.6 million entity-rich image-text pairs, includes 11.5 million unique images, and covers 108 Wikipedia languages.
提供机构:
keshan
原始信息汇总
数据集概述
数据集名称
Wikipedia-based Image Text (WIT) Dataset
数据集类型
Multimodal multilingual dataset
数据集内容
- 图像-文本示例数量:37.6 million
- 独特图像数量:11.5 million
- 覆盖语言:108 Wikipedia languages
数据集特点
- 包含丰富的实体信息
- 支持多语言和多模态机器学习研究



