V2A Instruction Dataset
收藏数据集概述
数据集名称
V2A Instruction Dataset
数据集来源
- VGGSound Only: 仅包含VGGSound数据。
- VGGSound + AudioSet 2M: 包含VGGSound和部分AudioSet数据,总计177万样本。
数据集内容
-
VGGSound Only
-
VGGSound + AudioSet 2M
-
Extracted eva-CLIP features (5 fps) from VGGSound videos
-
Extracted audio tokens from VGGSound audio using Encodec-16kHz
注意事项
- 使用VGGSound和AudioSet数据时,请检查相应的许可证和使用权限。
相关模型
-
VATT Full Models: 包含LLama和Gemma版本,共4个检查点。
下载链接: https://www.dropbox.com/scl/fi/2hx009fyvwj2xjk9gnjwq/vatt_models.zip?rlkey=ibjlgr2ztk0oe4zueldtgbrxc&st=u0nnpfiw&dl=0 -
Full AudioGen-Encodec model checkpoint: 用于将音频令牌转换回音频波形。
下载链接: https://www.dropbox.com/scl/fi/9edeh5zpn3rvdx85fx85l/audiogen_models.zip?rlkey=ll14cve5iaftlbhqqaz50heey&st=9lyv4706&dl=0
样本输出
- VATT-LLama-T (VGGSound Test Set)
下载链接: https://drive.google.com/file/d/10DVuVOxn_2eDUdSYLrtB0XSkkCgJMY3a/view?usp=sharing
引用
如果使用VATT或参考NeurIPS论文,请引用: bibtex @article{liu2024tell, title={Tell What You Hear From What You See--Video to Audio Generation Through Text}, author={Liu, Xiulong and Su, Kun and Shlizerman, Eli}, journal={arXiv preprint arXiv:2411.05679}, year={2024} }




