AudioSetMix
收藏arXiv2024-05-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2405.11093v1
下载链接
链接失效反馈官方服务:
资源简介:
AudioSetMix是一个高质量的音频-文本数据集,由普林斯顿大学创建。该数据集通过将音频变换应用于AudioSet的剪辑,并结合大型语言模型(LLM)生成的自然语言描述,形成了音频与文本的配对。数据集包含49,971对音频-文本数据,支持多种音频变换,如速度、音高、音量和持续时间,以及混合和串联变换。这些变换使得数据集能够支持文本引导的音频编辑研究,并提供原始和编辑后的音频数据。AudioSetMix数据集的应用领域包括文本到音频的检索和模型对音频事件修饰符的理解,旨在解决现有音频-语言数据集中修饰符(如形容词和副词)缺失的问题。
提供机构:
普林斯顿大学
创建时间:
2024-05-18



