five

Wukong

收藏
arXiv2022-09-29 更新2024-06-21 收录
下载链接:
https://wukong-dataset.github.io/wukong-dataset/
下载链接
链接失效反馈
资源简介:
Wukong是由华为诺亚方舟实验室创建的大规模中文跨模态预训练数据集,包含1亿对中文图像-文本对,用于推动视觉-语言预训练研究。数据集通过高频中文词汇列表收集,覆盖广泛视觉和文本概念,适用于多种下游任务,如零样本图像分类和图像-文本检索,旨在解决中文环境下跨模态学习的挑战。

Wukong is a large-scale Chinese cross-modal pre-training dataset developed by Huawei Noah's Ark Lab. It contains 100 million Chinese image-text pairs, and is designed to advance vision-language pre-training research. The dataset is collected using a high-frequency Chinese vocabulary list, covering a wide range of visual and textual concepts. It supports multiple downstream tasks including zero-shot image classification and image-text retrieval, with the goal of addressing the challenges of cross-modal learning in Chinese contexts.
提供机构:
华为诺亚方舟实验室
创建时间:
2022-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
Wukong数据集通过从网络中收集100百万对中文图像-文本对构建而成。为确保数据多样性和泛化能力,数据集依据高频中文词汇列表进行采集,并采用图像和文本过滤策略进行进一步优化。这一构建方式使得Wukong成为当前最大的中文视觉-语言数据集,覆盖了广泛的视觉和文本概念。
特点
Wukong数据集的主要特点在于其大规模和多样性。包含100百万对中文图像-文本对,数据集不仅规模庞大,而且内容丰富,涵盖了从社会新闻到体育赛事、产品介绍等多种类型的内容。此外,数据集还包含一个由人工专家验证的测试集Wukong-Test,确保了图像与文本之间的一致性。
使用方法
Wukong数据集适用于多种视觉-语言预训练任务,如零样本图像分类和图像-文本检索。用户可以通过预训练模型在下游任务中进行微调,利用数据集中的图像-文本对进行模型训练和评估。数据集的多样性和大规模特性使其成为开发和测试中文视觉-语言模型的理想资源。
背景与挑战
背景概述
Wukong数据集是由华为诺亚方舟实验室和中山大学联合开发的一个大规模中文跨模态预训练基准数据集,于2022年发布。该数据集包含了从网络收集的1亿对中文图像-文本对,旨在为中文视觉-语言预训练模型提供一个丰富的资源。Wukong数据集的创建填补了中文领域缺乏大规模跨模态数据集的空白,推动了中文视觉-语言预训练模型的发展,并对多语言应用产生了积极影响。
当前挑战
Wukong数据集在构建过程中面临的主要挑战包括:1) 缺乏大规模的中文跨模态数据集,这限制了中文视觉-语言预训练模型的发展;2) 数据收集和筛选过程中的质量控制,确保图像和文本对的一致性和相关性;3) 训练大规模预训练模型的计算资源和成本问题,这使得普通研究者难以进行大规模模型训练。此外,数据集中可能存在的语言和文化偏见,以及对新兴概念和语言表达的覆盖不足,也是需要解决的问题。
常用场景
经典使用场景
悟空数据集最经典的使用场景在于视觉-语言预训练(VLP)模型的开发与评估。通过提供大规模的中文图像-文本对,该数据集支持研究人员训练和验证跨模态学习模型,特别是在零样本图像分类和图像-文本检索任务中表现突出。
衍生相关工作
悟空数据集的发布催生了多项相关研究工作,包括基于该数据集的多种视觉-语言预训练模型(如WukongViT-B、WukongViT-L和WukongSwin-L)的开发与评估。此外,该数据集还激发了对多模态学习方法的深入研究,特别是在中文语境下的跨模态对齐和交互技术。
数据集最近研究
最新研究方向
在视觉-语言预训练(VLP)领域,Wukong数据集的最新研究方向主要集中在利用大规模中文图像-文本对进行跨模态预训练,以提升模型在多种下游任务中的表现。研究者们通过引入先进的预训练技术,如锁定图像文本调优、对比学习中的令牌级相似度以及减少令牌交互,进一步优化了模型的泛化能力和零样本识别能力。此外,Wukong数据集的发布填补了中文VLP模型发展的空白,为多语言应用和更广泛的跨模态学习方法提供了新的基准。
相关研究论文
  • 1
    Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark华为诺亚方舟实验室 · 2022年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作