declare-lab/TangoPromptBank

Name: declare-lab/TangoPromptBank
Creator: declare-lab
Published: 2023-05-31 07:18:02
License: 暂无描述

Hugging Face2023-05-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/declare-lab/TangoPromptBank

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预训练Tango-Full-FT-Audiocaps模型。TangoPromptBank是一个多样化的语料库，包含来自WavCaps、AudioCaps、ESC、UrbanSound、MusicCaps、GTZAN和Musical Instruments数据集的文本提示和音频样本。所有超过10秒的音频片段被分割为不超过10秒的片段，并重新采样到16KHz。数据集统计信息显示总共有1.2M个样本。

提供机构：

declare-lab

原始信息汇总

数据集概述

数据集名称

TangoPromptBank

数据集内容

TangoPromptBank 是一个包含文本提示和音频样本的多样化语料库，来源包括：

WavCaps
AudioCaps
ESC
UrbanSound
MusicCaps
GTZAN
Musical Instruments

数据集处理

所有音频片段超过10秒的被分割成连续的10秒或更短的片段，并统一重采样至16KHz。

数据集来源详细说明

WavCaps：包含ChatGPT生成的FreeSound、BBC Sound Effects和AudioSet强标签子集的描述。
UrbanSound 和 ESC50：包含多种环境声音。
Musical Instruments：包含吉他、鼓、小提琴和钢琴等乐器的声音。
GTZAN：包含不同音乐流派（如古典、爵士等）的声音。

数据集统计

数据集	数量
AudioSet Strong	108K
AudioCaps	45K
Freesound	680K
BBC	374K
Urban Sound	17K
Musical Instrument	10K
MusicCaps	10K
Gtzan Music Genre	6K
ESC50	4K
总计	1.2M

数据集用途

用于预训练模型 Tango-Full-FT-Audiocaps。

许可证

MIT

搜集汇总

数据集介绍

构建方式

TangoPromptBank数据集的构建基于多个音频数据集，包括WavCaps、AudioCaps、ESC、UrbanSound、MusicCaps、GTZAN和Musical Instruments。这些数据集涵盖了从环境声音到音乐类型的广泛音频样本。为了确保数据集的多样性和适用性，所有超过10秒的音频片段被分割为连续的10秒或更短的片段，并且所有音频样本都被重新采样至16KHz。此外，对于Urban Sound、ESC50、Musical Instruments和GTZAN这四个音频分类数据集，每个音频样本不仅使用了其分类标签，还生成了更自然的文本提示，从而为每个音频样本创建了两种不同的训练实例。

使用方法

TangoPromptBank数据集主要用于预训练音频生成模型，特别是Tango-Full-FT-Audiocaps模型。使用该数据集时，用户可以利用其丰富的文本提示和音频样本进行模型的预训练，以提高模型在音频生成任务中的表现。数据集的多样性使得模型能够学习到不同类型的音频特征，从而在实际应用中表现出更好的泛化能力。用户可以通过HuggingFace平台访问该数据集，并根据需要进行数据加载和预处理，以便于模型的训练和评估。

背景与挑战

背景概述

TangoPromptBank数据集由Declare Lab团队创建，旨在为音频与文本的联合预训练提供丰富的资源。该数据集汇集了来自多个知名音频数据集的样本，包括WavCaps、AudioCaps、ESC、UrbanSound、MusicCaps、GTZAN和Musical Instruments，总计超过120万条数据。通过整合这些多样化的音频资源，TangoPromptBank不仅为音频分类任务提供了强大的支持，还为文本到音频生成的研究奠定了基础。该数据集的核心研究问题是如何有效利用多源音频数据进行模型预训练，以提升音频与文本的联合理解能力。其创建时间可追溯至2023年，主要研究人员包括Deepanway Ghosal、Navonil Majumder、Ambuj Mehrish和Soujanya Poria，他们的工作对音频与自然语言处理领域的交叉研究产生了深远影响。

当前挑战

TangoPromptBank数据集在构建过程中面临多重挑战。首先，整合来自不同数据集的音频样本需要解决数据格式、采样率和时长不一致的问题，尤其是对超过10秒的音频进行分割处理。其次，如何从这些多样化的音频数据中提取有效的文本提示（prompt），以确保模型能够学习到音频与文本之间的关联，是另一个关键挑战。此外，数据集的多样性虽然增强了模型的泛化能力，但也增加了数据标注和处理的复杂性。最后，如何在有限的计算资源下高效地进行大规模预训练，以实现文本到音频生成的目标，也是该数据集面临的重要挑战。

常用场景

经典使用场景

TangoPromptBank数据集的经典使用场景主要集中在音频与文本的跨模态学习任务中。该数据集通过整合多种音频来源，如环境声音、乐器声音和音乐类型，结合自然语言提示，为模型提供了丰富的训练样本。其核心应用在于预训练模型，如Tango-Full-FT-Audiocaps，以提升模型在音频分类、音频描述生成等任务中的表现。

解决学术问题

TangoPromptBank数据集解决了音频与文本跨模态学习中的关键学术问题，如音频数据的多样性不足和文本描述的自然性欠缺。通过引入多样化的音频数据和自然语言提示，该数据集有效提升了模型在跨模态任务中的泛化能力和准确性，推动了音频与文本联合建模的研究进展。

实际应用

在实际应用中，TangoPromptBank数据集可广泛应用于智能音频识别系统、音频内容生成和音乐推荐系统等领域。例如，在智能家居中，该数据集可用于训练模型识别环境声音并生成相应的文本描述，从而提升用户体验。此外，在音乐创作领域，该数据集也可用于生成音乐片段的描述，辅助音乐创作和推荐。

数据集最近研究