V2A Instruction Dataset

github2024-12-27 更新2025-01-05 收录

下载链接：

https://github.com/DragonLiu1995/multimodal-llm-for-audio-gen

下载链接

链接失效反馈

官方服务：

资源简介：

V2A指令数据集包括两个子集：1. 仅包含VGGSound数据的子集；2. 包含VGGSound和AudioSet 2M数据的扩展版本，总计177万样本。此外，还提供了从VGGSound视频中提取的eva-CLIP特征（5 fps）和从VGGSound音频中提取的Encodec-16kHz音频令牌。

The V2A Instruction Dataset includes two subsets: 1. A subset solely containing VGGSound data; 2. An extended version incorporating both VGGSound and AudioSet 2M data, with a total of 1.77 million samples. Additionally, the dataset provides eva-CLIP features extracted from VGGSound videos at 5 fps and Encodec-16kHz audio tokens extracted from VGGSound audio tracks.

创建时间：

2024-12-24

原始信息汇总

数据集概述

数据集名称

V2A Instruction Dataset

数据集来源

VGGSound Only: 仅包含VGGSound数据。
VGGSound + AudioSet 2M: 包含VGGSound和部分AudioSet数据，总计177万样本。

数据集内容

VGGSound Only
- 下载链接: https://drive.google.com/file/d/1uo4Hx6tAnqVkU65AfPHGwFAftysTCXxs/view
VGGSound + AudioSet 2M
- 下载链接: https://drive.google.com/file/d/1ukpU69eysXnhrHOfgSVWf2BHE5E4WuzI/view
Extracted eva-CLIP features (5 fps) from VGGSound videos
- 下载链接: https://drive.google.com/file/d/1Mgb1CWNqL99q4DWh57derAfDdQeOEkBp/view?usp=drive_link
Extracted audio tokens from VGGSound audio using Encodec-16kHz
- 下载链接: https://www.dropbox.com/scl/fi/iolaary8vafx1qtbfshu5/meta_pretrain_vgg_encodec_tokens.zip?rlkey=p68919e41yyp9osy525vkq3ig&st=kam53u71&dl=0

注意事项

使用VGGSound和AudioSet数据时，请检查相应的许可证和使用权限。

样本输出

VATT-LLama-T (VGGSound Test Set)
下载链接: https://drive.google.com/file/d/10DVuVOxn_2eDUdSYLrtB0XSkkCgJMY3a/view?usp=sharing

引用

如果使用VATT或参考NeurIPS论文，请引用： bibtex @article{liu2024tell, title={Tell What You Hear From What You See--Video to Audio Generation Through Text}, author={Liu, Xiulong and Su, Kun and Shlizerman, Eli}, journal={arXiv preprint arXiv:2411.05679}, year={2024} }

搜集汇总

数据集介绍

构建方式

V2A Instruction Dataset的构建基于多模态生成框架VATT，该框架通过视频和可选文本提示生成音频及其描述。数据集主要来源于VGGSound和AudioSet 2M，其中VGGSound Only子集仅包含VGGSound数据，而VGGSound + AudioSet 2M子集则扩展至包含AudioSet数据，总计1.77百万样本。此外，数据集还包括从VGGSound视频中提取的eva-CLIP特征和通过Encodec-16kHz提取的音频令牌。

特点

V2A Instruction Dataset的特点在于其多模态性质，结合了视频、音频和文本信息，为视频到音频的生成提供了丰富的上下文。数据集不仅包含原始视频和音频数据，还提供了从视频中提取的视觉特征和音频令牌，这些特征和令牌通过先进的编码器生成，为研究者提供了高质量的多模态数据支持。此外，数据集的扩展版本VGGSound + AudioSet 2M进一步丰富了数据多样性，涵盖了更广泛的音频场景。

使用方法

使用V2A Instruction Dataset时，研究者可以通过下载提供的链接获取数据集及其相关特征。数据集的使用需遵循VGGSound和AudioSet的许可协议。研究者可以利用这些数据进行视频到音频的生成实验，或进一步训练和优化多模态生成模型。数据集中的视觉特征和音频令牌可直接用于模型的输入，而生成的音频波形可通过预训练的神经编解码器进行转换。此外，研究者还可以参考提供的代码和模型检查点，以复现或扩展VATT框架的实验结果。

背景与挑战

背景概述

V2A Instruction Dataset是由Xiulong Liu、Kun Su和Eli Shlizerman等研究人员在2024年提出的，作为其NeurIPS论文《Tell What You Hear From What You See — Video to Audio Generation Through Text》的核心数据支撑。该数据集旨在支持视频到音频生成的多模态生成框架VATT（Video-to-Audio Generation Through Text），通过结合视频和可选文本提示生成音频及其描述。V2A Instruction Dataset主要基于VGGSound数据集，并扩展了部分AudioSet数据，总计包含约177万样本。该数据集的发布为视频到音频生成领域提供了重要的数据基础，推动了多模态生成模型的研究与应用。

当前挑战

V2A Instruction Dataset在构建和应用过程中面临多重挑战。首先，视频到音频生成任务本身具有高度复杂性，需要模型能够准确捕捉视频中的视觉信息并将其映射到相应的音频输出，这对模型的跨模态理解能力提出了极高要求。其次，数据集的构建依赖于VGGSound和AudioSet等大规模数据集，如何有效整合和处理这些异构数据，并确保数据质量和一致性，是构建过程中的一大难题。此外，生成音频的多样性和自然性也是该领域的关键挑战，模型需要在生成过程中平衡音频的逼真度和多样性，以满足不同场景的需求。

常用场景

经典使用场景

V2A Instruction Dataset 主要用于视频到音频生成任务的研究，特别是在多模态生成框架中，结合视频和文本提示生成音频及其描述。该数据集通过提供丰富的视频和音频特征，支持研究人员在视频理解、音频生成以及多模态融合等领域进行深入探索。经典的使用场景包括视频内容自动生成背景音乐、视频配音以及基于视觉信息的音频描述生成。

实际应用

在实际应用中，V2A Instruction Dataset 可广泛应用于视频编辑、影视制作以及虚拟现实等领域。例如，在影视制作中，该数据集可用于自动生成与视频内容匹配的背景音乐或音效，提升制作效率。在虚拟现实场景中，该数据集能够帮助生成与虚拟环境相匹配的音频，增强用户的沉浸感。此外，该数据集还可用于教育领域，为教学视频自动生成配音或解说音频。

衍生相关工作

基于 V2A Instruction Dataset，研究人员开发了多种多模态生成模型，如 VATT 框架及其变体。这些模型在视频到音频生成任务中表现出色，并衍生出一系列相关研究工作，如基于文本提示的音频生成优化、多模态特征融合技术以及音频生成质量评估方法。这些工作不仅扩展了数据集的应用范围，还为多模态生成领域提供了新的技术路径和理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

V2A Instruction Dataset

数据集概述

数据集名称

数据集来源

数据集内容

注意事项

相关模型

样本输出

引用