CREATE

Name: CREATE
Creator: 中国科学院自动化研究所
Published: 2022-03-31 10:39:18
License: 暂无描述

arXiv2022-03-31 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2203.16763v1

下载链接

链接失效反馈

官方服务：

资源简介：

CREATE是首个大规模中文短视频检索和标题生成基准，由中科院自动化研究所和腾讯PCG应用研究中心共同创建。该数据集包含216,000个高质量标注的短视频，涵盖51个类别和超过50,000个标签，每个视频配有高质量的标题和描述。CREATE旨在推动中文短视频领域的标题生成和视频检索研究，解决现有数据集在实际应用中的局限性，如缺乏主观性和吸引力表达。数据集的创建过程涉及严格的视频收集和标注流程，确保数据的多样性和质量。CREATE的应用领域广泛，特别适用于提升视频标题的吸引力和检索效率，帮助内容创作者和平台优化用户体验。

CREATE is the first large-scale benchmark for Chinese short video retrieval and caption generation, jointly developed by the Institute of Automation of the Chinese Academy of Sciences and the Tencent PCG Applied Research Center. This dataset contains 216,000 high-quality annotated short videos, covering 51 categories and over 50,000 tags, with each video paired with high-quality captions and descriptions. CREATE aims to advance research on caption generation and video retrieval in the Chinese short video domain, addressing the limitations of existing datasets in real-world applications, such as the lack of subjective and appealing expressions. The dataset construction process involves strict video collection and annotation procedures to ensure the diversity and quality of the data. CREATE has a wide range of application scenarios, and is particularly suitable for enhancing the appeal of video captions and retrieval efficiency, helping content creators and platforms optimize user experience.

提供机构：

中国科学院自动化研究所

创建时间：

2022-03-31

搜集汇总

数据集介绍

构建方式

在中文短视频检索与标题生成研究领域，CREATE数据集的构建体现了系统化与规模化的设计理念。该数据集包含精细标注的CREATE-210K与弱标注的CREATE-3M/10M两部分。精细标注部分通过视频标签系统筛选，覆盖51个类别与超过5万标签，确保内容多样性；视频时长限制在60秒内，经严格培训的标注人员依据明确规则，为每个视频生成客观描述与吸引力标题，历时半年完成超过53万条高质量标注。弱标注部分则基于视频-标题匹配模型自动过滤低质量数据，形成大规模预训练资源。

特点

CREATE数据集在中文短视频多模态研究中展现出显著特色。其内容涵盖生活、宠物、时尚、美食等广泛领域，标注兼具客观描述与主观表达，有效弥合了传统视频描述与实际应用间的差距。数据规模庞大，精细标注视频数量达21.6万，标注语句超过53万，并辅以千万级弱标注视频，为模型训练提供了丰富语料。标注设计注重细粒度语义，鼓励融入音频、人物、地点等实体信息，增强了多模态语义表示的深度与多样性。

使用方法

CREATE数据集支持视频检索与标题生成等多模态任务研究。研究者可利用精细标注部分进行模型微调，弱标注部分则适用于视觉-语言对齐的预训练。数据集已划分训练、验证与测试集，其中测试集每个视频提供10条标注，便于评估模型生成多样性。基于该数据集提出的ALWIG模型融合了标签驱动对齐与GPT生成机制，为后续研究提供了基线参考。使用时可结合标准评估指标，如BLEU-4、CIDEr与召回率，以量化模型在检索与生成任务上的性能。

背景与挑战

背景概述

随着短视频平台的兴起，视频内容理解与生成技术成为多模态人工智能领域的研究热点。传统视频描述任务侧重于客观内容叙述，缺乏主观吸引力表达，难以满足实际应用需求。CREATE数据集由中国科学院自动化研究所与腾讯应用研究中心于2022年联合构建，旨在填补中文短视频检索与标题生成领域的基准空白。该数据集包含21万精细标注样本及千万级弱标注预训练数据，覆盖51个类别与5万余标签，首次系统性地整合了视频客观描述与主观标题生成任务，为中文短视频的多模态理解与创作提供了重要基础设施。

当前挑战

CREATE数据集致力于解决中文短视频标题生成与检索任务的核心挑战。在领域问题层面，视频标题需兼顾可发现性与点击吸引力，既要准确概括视频主题以支持文本检索，又需融入主观表达以提升用户互动意愿，这对模型的语义对齐与创造性生成能力提出了更高要求。在构建过程中，数据采集面临视频质量参差不齐、标题与内容匹配度低等噪声问题；标注环节需严格区分客观描述与主观标题的界限，并确保覆盖多样化的场景与表达风格，同时处理长尾标签分布与语义细粒度标注的复杂性，这些因素共同构成了数据集构建的技术难点。

常用场景

经典使用场景

在短视频内容理解与生成领域，CREATE数据集为视频标题生成与检索任务提供了经典的应用场景。该数据集通过整合21万条精细标注的短视频及千万级弱标注数据，覆盖生活、宠物、时尚、美食等51个类别，支持模型学习视频内容与吸引力标题之间的复杂映射关系。其典型应用包括训练多模态模型，以生成兼具客观描述与主观吸引力的标题，从而提升短视频在平台中的可发现性与点击率。

衍生相关工作

围绕CREATE数据集，衍生了一系列经典的多模态研究工作。例如，论文中提出的ALWIG模型创新性地结合标签驱动的视频-文本对齐模块与GPT生成模块，为视频标题生成与检索任务设立了新基准。此外，该数据集激发了后续研究对中文短视频多模态预训练技术的探索，如基于对比学习的视频-语言对齐方法、以及利用弱标注数据增强模型泛化能力的策略，进一步推动了该领域在算法与应用层面的持续发展。

数据集最近研究