WIT
收藏arXiv2021-03-04 更新2024-06-21 收录
下载链接:
https://github.com/google-research-datasets/wit
下载链接
链接失效反馈官方服务:
资源简介:
WIT数据集是由谷歌创建的一个大规模多模态多语言数据集,包含3760万个实体丰富的图像-文本示例,覆盖1150万张独特图像和108种维基百科语言。该数据集旨在通过图像和文本的互补信息,促进多模态多语言学习。WIT数据集的规模使其成为多模态模型的预训练数据集,特别适用于图像-文本检索等下游任务。数据集通过严格的过滤确保高质量的图像-文本关联,并提供前所未有的多语言覆盖,支持跨语言文本描述,适用于视觉问答、视觉常识推理等多种应用。
The WIT dataset is a large-scale multimodal and multilingual dataset developed by Google, containing 37.6 million entity-rich image-text pairs, covering 11.5 million unique images and 108 Wikipedia languages. It is designed to advance multimodal and multilingual learning by leveraging the complementary information between images and their corresponding text descriptions. Given its considerable scale, the WIT dataset serves as an outstanding pre-training resource for multimodal models, and is particularly well-suited for downstream tasks such as image-text retrieval. The dataset adopts strict filtering mechanisms to ensure high-quality image-text alignments, and provides unprecedented multilingual coverage that supports cross-lingual text descriptions, making it applicable to various applications including visual question answering and visual commonsense reasoning.
提供机构:
谷歌
创建时间:
2021-03-03
搜集汇总
数据集介绍

背景与挑战
背景概述
WIT数据集是一个由谷歌创建的大规模多模态多语言数据集,包含3760万个实体丰富的图像-文本示例,覆盖1150万张独特图像和108种维基百科语言。其特点在于通过严格过滤确保高质量的图像-文本关联,支持多模态多语言学习,适用于预训练和下游任务如图像-文本检索、视觉问答等。该数据集的多语言覆盖为跨语言应用提供了前所未有的支持。
以上内容由遇见数据集搜集并总结生成



