Youku-mPLUG

Name: Youku-mPLUG
Creator: 达摩院，阿里巴巴集团
Published: 2023-06-07 19:52:36
License: 暂无描述

arXiv2023-06-07 更新2024-06-21 收录

下载链接：

https://github.com/X-PLUG/Youku-mPLUG

下载链接

链接失效反馈

官方服务：

资源简介：

Youku-mPLUG是由阿里巴巴集团达摩院发布的大规模中文视频-语言预训练数据集，包含1000万个高质量的中文视频-文本对，这些数据从知名的中文视频分享网站优酷收集而来，严格遵循安全性、多样性和质量标准。数据集涵盖45个不同类别，旨在推动中文社区在视觉-语言预训练和多模态大型语言模型方面的发展。此外，Youku-mPLUG还构建了包括跨模态检索、视频字幕生成和视频类别分类在内的三大人工标注中文基准，以全面评估视频-语言模型的性能。该数据集适用于深入的多模态研究，并有望在未来开发出更好的应用。

Youku-mPLUG is a large-scale Chinese video-language pre-training dataset released by Alibaba Group's DAMO Academy. It contains 10 million high-quality Chinese video-text pairs collected from Youku, a leading Chinese video-sharing platform, and strictly adheres to safety, diversity and quality standards. The dataset covers 45 distinct categories, aiming to promote the development of the Chinese community's research in visual-language pre-training and multimodal large language models. Furthermore, Youku-mPLUG has constructed three manually annotated Chinese benchmark datasets including cross-modal retrieval, video captioning and video category classification, to comprehensively evaluate the performance of video-language models. This dataset is applicable to in-depth multimodal research and is expected to enable the development of better applications in the future.

提供机构：

达摩院，阿里巴巴集团

创建时间：

2023-06-07

搜集汇总

数据集介绍

构建方式

在视频语言预训练领域，高质量中文数据集的稀缺长期制约着相关研究的发展。Youku-mPLUG的构建遵循严格的安全、多样性与质量准则，从优酷平台的4亿原始视频中，通过多级风险检测系统过滤高风险内容，并运用视频指纹技术去重。为确保多样性，数据集涵盖20个超级类别与45个常见类别，分布均衡；在质量层面，对视频标题施加了长度与字符限制，筛选广告与无意义文本，并选取时长10至120秒的近期上传视频以保证内容清晰完整。此外，借助中文图文预训练模型CLIP，通过计算视频帧特征与文本特征的相似度，进一步剔除了低质量数据对，最终精炼出1000万高质量视频-文本对。

特点

作为当前规模最大的公开中文视频语言数据集，Youku-mPLUG的核心特征体现在其规模与质量的双重优势。数据集包含1000万视频-文本对，总时长约15万小时，视频平均时长54.2秒，在现有中文开放域数据集中位居前列。其内容覆盖新闻、娱乐、教育等45个多样化类别，具有广泛的领域代表性。尤为重要的是，数据集附带了由人工精心标注的下游评测基准，涵盖视频分类、视频文本检索与视频描述生成三大任务，总计36.5万样本，为模型性能提供了系统、可靠的评估体系。这种“预训练数据+评测基准”的一体化设计，有效填补了中文社区在此领域的空白。

使用方法

Youku-mPLUG数据集主要服务于视频语言预训练模型的研究与开发。研究者可利用其1000万规模的预训练数据，对各类视频-语言联合表征模型进行大规模预训练，以学习跨模态对齐与语义理解能力。随后，可借助其附带的下游评测基准，在视频分类、跨模态检索与视频描述生成三个任务上对模型性能进行综合评估与微调。该数据集已支持包括ALPRO、mPLUG-2及论文提出的模块化解码器模型mPLUG-video在内的多种模型训练，实验表明其能显著提升模型在中文场景下的视频理解能力。数据与代码均已开源，便于社区复现与进一步探索。

背景与挑战

背景概述

随着视觉-语言预训练技术在英文社区的蓬勃发展，中文视频-语言多模态研究领域长期面临大规模高质量公开数据集的匮乏。为填补这一空白，阿里巴巴达摩院于2023年正式发布了Youku-mPLUG数据集，这是迄今为止规模最大的中文视频-语言预训练数据集。该数据集从优酷平台的海量原始视频中经过严格筛选，最终构建了涵盖45个多样化类别的1000万高质量视频-文本对，旨在为中文视频理解、跨模态检索及生成任务提供坚实的数据基础。其创建不仅推动了中文视频-语言预训练模型的发展，也为构建中文多模态大语言模型提供了关键资源，对缩小中英文社区在该领域的研究差距具有里程碑意义。

当前挑战

Youku-mPLUG致力于解决的核心领域挑战在于提升中文视频-语言模型的跨模态理解与生成能力，具体包括视频分类、视频描述生成与视频-文本检索三大任务。这些任务要求模型精准对齐视频内容与语义文本，并克服视频中时序信息复杂、视觉场景多变以及中文语言特有的文化语境等难题。在数据集构建过程中，研究团队面临多重挑战：首先是从4亿原始视频中依据安全性、多样性与质量三大准则进行高效过滤与清洗，需建立多层级风险检测与质量评估体系；其次是确保数据分布的平衡性与广泛性，需应用视频指纹技术与分层多标签分类模型对视频进行精细归类；最后是构建高质量的人工标注评测基准，需设计严谨的多步验证流程以保证标注的准确性与一致性，并防止数据泄露。

常用场景

经典使用场景

在视频语言预训练领域，Youku-mPLUG数据集作为目前规模最大的中文视频-文本对资源，其经典应用场景集中于多模态大语言模型的预训练与微调。该数据集通过从优酷平台精选的千万级高质量视频-文本对，覆盖了45个多样化类别，为模型提供了丰富的视觉与语言对齐信号。研究者可借助该数据集训练视频编码器与语言解码器，实现跨模态表征学习，为下游任务奠定坚实基础。

衍生相关工作

该数据集的发布直接催生了一系列重要的衍生研究工作，其中最突出的包括模块化解码器模型mPLUG-video的提出。该模型采用可训练视频编码器与视觉抽象模块，结合冻结的大语言模型解码器，以极少参数量实现了卓越的视频语言理解性能。此外，基于Youku-mPLUG预训练的ALPRO、mPLUG-2等模型也在跨模态对齐任务上取得了显著进展。这些工作共同构成了中文多模态大模型研究的重要基石，并为后续视频指令微调、零样本泛化等方向提供了宝贵的数据与模型基础。

数据集最近研究