five

Wukong|跨模态学习数据集|预训练数据集数据集

收藏
arXiv2022-09-29 更新2024-06-21 收录
跨模态学习
预训练数据集
下载链接:
https://wukong-dataset.github.io/wukong-dataset/
下载链接
链接失效反馈
资源简介:
Wukong是由华为诺亚方舟实验室创建的大规模中文跨模态预训练数据集,包含1亿对中文图像-文本对,用于推动视觉-语言预训练研究。数据集通过高频中文词汇列表收集,覆盖广泛视觉和文本概念,适用于多种下游任务,如零样本图像分类和图像-文本检索,旨在解决中文环境下跨模态学习的挑战。
提供机构:
华为诺亚方舟实验室
创建时间:
2022-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
Wukong数据集通过从网络中收集100百万对中文图像-文本对构建而成。为确保数据多样性和泛化能力,数据集依据高频中文词汇列表进行采集,并采用图像和文本过滤策略进行进一步优化。这一构建方式使得Wukong成为当前最大的中文视觉-语言数据集,覆盖了广泛的视觉和文本概念。
特点
Wukong数据集的主要特点在于其大规模和多样性。包含100百万对中文图像-文本对,数据集不仅规模庞大,而且内容丰富,涵盖了从社会新闻到体育赛事、产品介绍等多种类型的内容。此外,数据集还包含一个由人工专家验证的测试集Wukong-Test,确保了图像与文本之间的一致性。
使用方法
Wukong数据集适用于多种视觉-语言预训练任务,如零样本图像分类和图像-文本检索。用户可以通过预训练模型在下游任务中进行微调,利用数据集中的图像-文本对进行模型训练和评估。数据集的多样性和大规模特性使其成为开发和测试中文视觉-语言模型的理想资源。
背景与挑战
背景概述
Wukong数据集是由华为诺亚方舟实验室和中山大学联合开发的一个大规模中文跨模态预训练基准数据集,于2022年发布。该数据集包含了从网络收集的1亿对中文图像-文本对,旨在为中文视觉-语言预训练模型提供一个丰富的资源。Wukong数据集的创建填补了中文领域缺乏大规模跨模态数据集的空白,推动了中文视觉-语言预训练模型的发展,并对多语言应用产生了积极影响。
当前挑战
Wukong数据集在构建过程中面临的主要挑战包括:1) 缺乏大规模的中文跨模态数据集,这限制了中文视觉-语言预训练模型的发展;2) 数据收集和筛选过程中的质量控制,确保图像和文本对的一致性和相关性;3) 训练大规模预训练模型的计算资源和成本问题,这使得普通研究者难以进行大规模模型训练。此外,数据集中可能存在的语言和文化偏见,以及对新兴概念和语言表达的覆盖不足,也是需要解决的问题。
常用场景
经典使用场景
悟空数据集最经典的使用场景在于视觉-语言预训练(VLP)模型的开发与评估。通过提供大规模的中文图像-文本对,该数据集支持研究人员训练和验证跨模态学习模型,特别是在零样本图像分类和图像-文本检索任务中表现突出。
衍生相关工作
悟空数据集的发布催生了多项相关研究工作,包括基于该数据集的多种视觉-语言预训练模型(如WukongViT-B、WukongViT-L和WukongSwin-L)的开发与评估。此外,该数据集还激发了对多模态学习方法的深入研究,特别是在中文语境下的跨模态对齐和交互技术。
数据集最近研究
最新研究方向
在视觉-语言预训练(VLP)领域,Wukong数据集的最新研究方向主要集中在利用大规模中文图像-文本对进行跨模态预训练,以提升模型在多种下游任务中的表现。研究者们通过引入先进的预训练技术,如锁定图像文本调优、对比学习中的令牌级相似度以及减少令牌交互,进一步优化了模型的泛化能力和零样本识别能力。此外,Wukong数据集的发布填补了中文VLP模型发展的空白,为多语言应用和更广泛的跨模态学习方法提供了新的基准。
相关研究论文
  • 1
    Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark华为诺亚方舟实验室 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录