Wukong

Name: Wukong
Creator: 华为诺亚方舟实验室
Published: 2022-09-29 11:37:02
License: 暂无描述

arXiv2022-09-29 更新2024-06-21 收录

下载链接：

https://wukong-dataset.github.io/wukong-dataset/

下载链接

链接失效反馈

官方服务：

资源简介：

Wukong是由华为诺亚方舟实验室创建的大规模中文跨模态预训练数据集，包含1亿对中文图像-文本对，用于推动视觉-语言预训练研究。数据集通过高频中文词汇列表收集，覆盖广泛视觉和文本概念，适用于多种下游任务，如零样本图像分类和图像-文本检索，旨在解决中文环境下跨模态学习的挑战。

Wukong is a large-scale Chinese cross-modal pre-training dataset created by Huawei Noah's Ark Lab. It comprises 100 million Chinese image-text pairs, and is developed to advance vision-language pre-training research. The dataset is collected using a high-frequency Chinese vocabulary list, covering a wide range of visual and textual concepts. It supports a variety of downstream tasks including zero-shot image classification and image-text retrieval, aiming to address the challenges of cross-modal learning in the Chinese context.

提供机构：

华为诺亚方舟实验室

创建时间：

2022-02-14

搜集汇总

数据集介绍

构建方式

Wukong数据集通过从网络中收集100百万对中文图像-文本对构建而成。为确保数据多样性和泛化能力，数据集依据高频中文词汇列表进行采集，并采用图像和文本过滤策略进行进一步优化。这一构建方式使得Wukong成为当前最大的中文视觉-语言数据集，覆盖了广泛的视觉和文本概念。

特点

Wukong数据集的主要特点在于其大规模和多样性。包含100百万对中文图像-文本对，数据集不仅规模庞大，而且内容丰富，涵盖了从社会新闻到体育赛事、产品介绍等多种类型的内容。此外，数据集还包含一个由人工专家验证的测试集Wukong-Test，确保了图像与文本之间的一致性。

使用方法

Wukong数据集适用于多种视觉-语言预训练任务，如零样本图像分类和图像-文本检索。用户可以通过预训练模型在下游任务中进行微调，利用数据集中的图像-文本对进行模型训练和评估。数据集的多样性和大规模特性使其成为开发和测试中文视觉-语言模型的理想资源。

背景与挑战

背景概述

Wukong数据集是由华为诺亚方舟实验室和中山大学联合开发的一个大规模中文跨模态预训练基准数据集，于2022年发布。该数据集包含了从网络收集的1亿对中文图像-文本对，旨在为中文视觉-语言预训练模型提供一个丰富的资源。Wukong数据集的创建填补了中文领域缺乏大规模跨模态数据集的空白，推动了中文视觉-语言预训练模型的发展，并对多语言应用产生了积极影响。

当前挑战

Wukong数据集在构建过程中面临的主要挑战包括：1) 缺乏大规模的中文跨模态数据集，这限制了中文视觉-语言预训练模型的发展；2) 数据收集和筛选过程中的质量控制，确保图像和文本对的一致性和相关性；3) 训练大规模预训练模型的计算资源和成本问题，这使得普通研究者难以进行大规模模型训练。此外，数据集中可能存在的语言和文化偏见，以及对新兴概念和语言表达的覆盖不足，也是需要解决的问题。

常用场景

经典使用场景

悟空数据集最经典的使用场景在于视觉-语言预训练（VLP）模型的开发与评估。通过提供大规模的中文图像-文本对，该数据集支持研究人员训练和验证跨模态学习模型，特别是在零样本图像分类和图像-文本检索任务中表现突出。

衍生相关工作

悟空数据集的发布催生了多项相关研究工作，包括基于该数据集的多种视觉-语言预训练模型（如WukongViT-B、WukongViT-L和WukongSwin-L）的开发与评估。此外，该数据集还激发了对多模态学习方法的深入研究，特别是在中文语境下的跨模态对齐和交互技术。

数据集最近研究