AudioCaps, Clotho, MACS, WavCaps
收藏github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/Labbeti/aac-datasets
下载链接
链接失效反馈官方服务:
资源简介:
AudioCaps、Clotho、MACS和WavCaps是为PyTorch设计的音频字幕非官方数据集源代码。
AudioCaps、Clotho、MACS及WavCaps,均为专为PyTorch框架设计之音频字幕非官方数据集源代码。
创建时间:
2022-05-19
原始信息汇总
数据集概述
数据集列表
| Dataset | Sampling<br>rate (kHz) | Estimated<br>size (GB) | Source | Subsets |
|---|---|---|---|---|
| AudioCaps | 32 | 43 | AudioSet | train, val, test, train_v2 |
| Clotho | 44.1 | 53 | Freesound | dev, val, eval, dcase_aac_test, dcase_aac_analysis, dcase_t2a_audio, dcase_t2a_captions |
| MACS | 48 | 13 | TAU Urban Acoustic Scenes 2019 | full |
| WavCaps | 32 | 941 | AudioSet, BBC Sound Effects, Freesound, SoundBible | audioset, audioset_no_audiocaps, bbc, freesound, freesound_no_clotho, freesound_no_clotho_v2, soundbible |
数据集详细信息
| AudioCaps/train | Clotho/dev | MACS/full | WavCaps/full | |
|---|---|---|---|---|
| Nb audios | 49,838 | 3,840 | 3,930 | 403,050 |
| Total audio duration (h) | 136.6 | 24.0 | 10.9 | 7563.3 |
| Audio duration range (s) | 0.5-10 | 15-30 | 10 | 1-67,109 |
| Nb captions per audio | 1 | 5 | 2-5 | 1 |
| Nb captions | 49,838 | 19,195 | 17,275 | 403,050 |
| Total nb words | 402,482 | 217,362 | 160,006 | 3,161,823 |
| Sentence size | 2-52 | 8-20 | 5-40 | 2-38 |
| Vocabulary | 4724 | 4369 | 2721 | 24,600 |
| Annotated by | Human | Human | Human | Machine |
| Corrected by | Human | Human | None | None |
数据集下载与使用
-
下载数据集: 使用
download参数在数据集构建时下载,例如: python dataset = Clotho(root=".", subset="dev", download=True)或通过命令行: bash aac-datasets-download --root "." clotho --subsets "dev"
-
使用示例:
-
创建Clotho数据集: python from aac_datasets import Clotho dataset = Clotho(root=".", download=True) item = dataset[0] audio, captions = item["audio"], item["captions"]
-
构建PyTorch数据加载器: python from torch.utils.data.dataloader import DataLoader from aac_datasets import Clotho from aac_datasets.utils import BasicCollate dataset = Clotho(root=".", download=True) dataloader = DataLoader(dataset, batch_size=4, collate_fn=BasicCollate())
-
数据集要求
- Python包:
torch >= 1.10.1,torchaudio >= 0.10.1,py7zr >= 0.17.2,pyyaml >= 6.0,tqdm >= 4.64.0,huggingface-hub >= 0.15.1,numpy >= 1.21.2 - 外部要求 (仅限AudioCaps):
ffmpeg,yt-dlp
数据集引用
- AudioCaps: C. D. Kim, B. Kim, H. Lee, and G. Kim, “Audiocaps: Generating captions for audios in the wild,” in NAACL-HLT, 2019.
- Clotho: K. Drossos, S. Lipping, and T. Virtanen, “Clotho: An Audio Captioning Dataset,” arXiv:1910.09387 [cs, eess], Oct. 2019.
- MACS: F. Font, A. Mesaros, D. P. W. Ellis, E. Fonseca, M. Fuentes, and B. Elizalde, Proceedings of the 6th Workshop on Detection and Classication of Acoustic Scenes and Events (DCASE 2021).
- WavCaps: X. Mei et al., “WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research,” arXiv preprint arXiv:2303.17395, 2023.
搜集汇总
数据集介绍

构建方式
该数据集的构建方式主要基于音频与文本的配对,涵盖了多种音频来源和不同的采样率。AudioCaps、Clotho、MACS和WavCaps四个子数据集分别从AudioSet、Freesound、TAU Urban Acoustic Scenes 2019等来源获取音频数据,并通过人工或机器生成相应的文本描述。每个子数据集的音频文件经过预处理,确保其采样率和格式的一致性,以便于后续的模型训练和评估。
特点
该数据集的显著特点在于其多样性和规模。AudioCaps、Clotho、MACS和WavCaps分别包含49,838、3,840、3,930和403,050个音频样本,覆盖了从几秒到数十小时的音频时长。此外,每个音频样本的文本描述数量和长度各异,提供了丰富的语言表达形式。数据集的多样性不仅体现在音频来源上,还体现在文本描述的生成方式上,既有手工标注,也有机器生成的描述。
使用方法
该数据集主要用于音频描述生成任务,支持PyTorch框架下的模型训练和评估。用户可以通过Python脚本直接加载数据集,并使用提供的工具进行数据预处理和批量加载。数据集的下载和使用可以通过命令行工具或Python API实现,支持多种子集的选择和音频格式的自定义。此外,数据集还提供了详细的统计信息和兼容性说明,便于用户进行实验设计和结果分析。
背景与挑战
背景概述
音频描述(Audio Captioning)是近年来在音频处理与自然语言处理交叉领域中备受关注的一个研究方向。AudioCaps、Clotho、MACS 和 WavCaps 是四个专门为音频描述任务设计的数据集,旨在通过将音频内容与自然语言描述相结合,推动音频理解与生成技术的发展。这些数据集由不同的研究团队开发,分别基于 AudioSet、Freesound、TAU Urban Acoustic Scenes 2019 等音频源构建。其中,AudioCaps 由 Kim 等人于 2019 年提出,Clotho 由 Drossos 等人于 2019 年发布,MACS 由 Font 等人在 2021 年提出,而 WavCaps 则是 Mei 等人在 2023 年提出的最新数据集。这些数据集的创建不仅为音频描述任务提供了丰富的训练和测试资源,还为音频与语言多模态研究提供了重要的基准。
当前挑战
音频描述数据集的构建面临多方面的挑战。首先,音频与语言之间的多模态对齐问题是一个核心挑战,尤其是在音频内容复杂且多样化的情况下,如何生成准确且自然的描述仍然是一个难题。其次,数据集的构建过程中,音频的获取、标注以及数据清洗等环节都需要大量的人力和时间投入,尤其是对于大规模数据集如 WavCaps,其音频来源多样且数据量庞大,处理难度显著增加。此外,音频描述任务的评估标准也是一个挑战,如何设计合理的评估指标以衡量生成描述的质量和准确性,仍需进一步研究。最后,由于音频描述任务的复杂性,现有模型在处理长音频或复杂场景时仍存在性能瓶颈,如何提升模型的泛化能力和鲁棒性也是当前研究的重点。
常用场景
经典使用场景
AudioCaps、Clotho、MACS 和 WavCaps 数据集在音频描述生成领域中具有经典应用场景。这些数据集主要用于训练和评估音频描述生成模型,通过将音频信号与相应的文本描述配对,模型能够学习如何从音频中提取特征并生成准确的描述。例如,Clotho 数据集的开发和验证子集常用于训练模型,而评估子集则用于测试模型的性能。
实际应用
在实际应用中,这些数据集广泛应用于智能音频处理系统,如音频搜索、音频标注和音频内容分析。例如,AudioCaps 数据集可以用于开发智能音频搜索引擎,用户可以通过描述音频内容来搜索相关音频文件。Clotho 数据集则可以用于音频标注工具,帮助用户为音频文件生成准确的描述,从而提高音频管理和检索的效率。
衍生相关工作
基于这些数据集,研究者们开发了多种音频描述生成模型和方法。例如,AudioCaps 数据集启发了多种基于深度学习的音频描述生成模型,这些模型在多个音频描述生成任务中表现出色。Clotho 数据集则促进了音频描述生成领域的标准化评估方法的发展。此外,WavCaps 数据集的引入还推动了音频与语言多模态研究的进展,衍生出了一系列新的研究方向和应用场景。
以上内容由遇见数据集搜集并总结生成



