VAST-27M

Name: VAST-27M
Creator: 中国科学院自动化研究所
Published: 2023-10-07 20:58:26
License: 暂无描述

arXiv2023-10-07 更新2024-06-21 收录

下载链接：

https://github.com/TXH-mercury/VAST

下载链接

链接失效反馈

官方服务：

资源简介：

VAST-27M是由中国科学院自动化研究所创建的大规模全模态视频字幕数据集，包含2700万个视频片段。每个视频片段都配有视觉、音频和字幕模态的字幕，这些字幕是通过训练单独的视觉和音频字幕生成器以及使用大型语言模型Vicuna-13b整合生成的。数据集的创建旨在推动多模态视频-文本预训练模型的研究，特别是在视觉-文本、音频-文本和全模态视频-文本任务中。VAST-27M数据集的应用领域广泛，包括视频内容理解、视频检索、视频字幕生成和视频问答等。

VAST-27M is a large-scale full-modal video caption dataset developed by the Institute of Automation, Chinese Academy of Sciences, containing 27 million video clips. Each video clip is paired with captions across visual, audio and text modalities, which are generated by training standalone visual and audio caption generators and integrating their outputs via the large language model Vicuna-13b. This dataset is constructed to advance research on multimodal video-text pre-trained models, especially for visual-text, audio-text and full-modal video-text tasks. VAST-27M has a wide spectrum of applications, including video content understanding, video retrieval, video caption generation and video question answering.

提供机构：

中国科学院自动化研究所

创建时间：

2023-05-29

搜集汇总

数据集介绍

构建方式

VAST-27M数据集的构建采用了两阶段自动生成流程。首先，收集了2700万个开源视频片段，并分别训练视觉和音频描述生成器来生成视觉和音频描述。随后，利用预训练的大型语言模型（LLM）将生成的描述与字幕和指导提示整合，形成多模态描述。这一过程确保了数据集中的每个视频片段都配有多模态描述，涵盖视觉、音频和字幕信息。

特点

VAST-27M数据集的显著特点在于其大规模和多模态性。该数据集包含2700万个视频片段，每个片段都配有11个描述，包括5个视觉描述、5个音频描述和1个多模态描述。这种多模态描述的生成方式不仅提高了数据集的丰富性，还增强了模型对视频内容的全面理解能力。

使用方法

VAST-27M数据集适用于多种多模态任务的训练和评估，包括视觉-文本、音频-文本以及多模态视频-文本任务（如检索、描述生成和问答）。研究人员可以通过访问数据集的GitHub仓库获取代码、模型和数据集，并根据需要进行预处理和模型训练。数据集的多模态特性使其在跨模态理解和生成任务中具有广泛的应用前景。

背景与挑战

背景概述

VAST-27M数据集由中科院自动化研究所和中国科学院大学的人工智能学院的研究团队创建，旨在解决视频内容理解中多模态信息（视觉、音频、字幕）的整合问题。该数据集包含了2700万个开放域视频片段，通过训练视觉和音频描述生成器，并利用大型语言模型（LLM）将生成的描述与字幕和指令提示整合，形成多模态描述。VAST-27M不仅支持视觉-文本任务，还扩展到音频-文本和多模态视频-文本任务，如检索、字幕生成和问答，显著推动了多模态学习领域的发展。

当前挑战

VAST-27M数据集在构建过程中面临的主要挑战包括：1) 缺乏合适的训练语料库，现有的视频-文本语料库要么使用原始字幕作为描述，要么仅包含视觉描述，规模有限；2) 手动标注多模态语料库的成本过高。为解决这些问题，研究团队提出了一种两阶段自动生成管道，通过训练单模态描述生成器和使用LLM整合多模态信息，成功创建了VAST-27M数据集。然而，如何进一步提高多模态描述的准确性和整合效率，以及如何处理模态缺失情况下的下游任务，仍是该数据集面临的重要挑战。

常用场景

经典使用场景

VAST-27M数据集的经典使用场景在于其能够支持多模态视频内容的理解和处理。通过整合视觉、音频和字幕信息，该数据集为训练多模态视频-文本基础模型提供了丰富的资源。具体应用包括视频字幕生成、文本到视频检索以及视频问答等任务，这些任务在视频内容的理解和交互中具有重要意义。

实际应用

在实际应用中，VAST-27M数据集支持的模型可以广泛应用于娱乐、教育、安全监控、交通管理等领域。例如，在教育领域，该模型可以帮助生成教学视频的字幕和摘要，提升学习体验；在安全监控中，模型可以用于视频内容的自动分析和异常检测，提高监控效率。

衍生相关工作

基于VAST-27M数据集，研究者们开发了多种多模态视频-文本基础模型，如VAST模型，该模型能够感知和处理视频中的视觉、音频和字幕信息。此外，该数据集还启发了其他相关研究，如多模态预训练模型的改进和扩展，以及在不同应用场景中的多模态数据融合技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集