ACAVCaps
收藏ACAVCaps 数据集概述
数据集基本信息
- 数据集名称: ACAVCaps
- 核心目标: 解决大规模、高质量、细粒度音频描述数据的稀缺问题,用于支持细粒度且多样化的音频理解任务。
- 数据来源: 源自 ACAV100M 音频视频集合。
- 生成方法: 利用多专家标注流程和思维链推理,通过大型语言模型合成描述。
数据集规模与特点
- 数据量: 约 470 万条音频-文本对。
- 词汇多样性: 包含 76.7k 个独特词元(基于 Qwen3 分词器统计)。与一个包含 597 万样本的基线合并数据集相比,ACAVCaps 在样本量少 21% 的情况下,独特词元数量增加了 61%。
- 领域覆盖: 扩展的多领域覆盖,包括语音、音乐、声音事件、它们的组合以及静默。
- 描述策略: 从多个角度生成多方面的描述:整体环境、语音属性、音乐特征和特定声音事件。
数据结构与组织
数据集按内容组成进行组织,主要类别样本分布如下:
| 类别代码 | 描述 | 样本数量 |
|---|---|---|
| 00A | 纯声音事件 | 58,268 |
| 0M0 | 纯音乐 | 623,223 |
| 0MA | 音乐 + 声音事件 | 28,229 |
| S00 | 纯语音 | 2,209,982 |
| S0A | 语音 + 声音事件 | 446,834 |
| SM0 | 语音 + 音乐 | 1,209,545 |
| SMA | 语音 + 音乐 + 声音事件 | 87,994 |
数据访问说明: 由于版权限制,数据集中仅提供文本信息(描述和元数据)。原始音频/视频文件未包含。用户可使用 JSONL 文件中的 key 字段下载原始内容。每个 key 对应相应的 YouTube 视频 ID 以及开始/结束时间戳。
数据生成流程
- 多专家标注: 由专业模型分析音频,提取结构化元数据,包括 AudioSet 标签、语音转录、说话人属性、音乐节奏/情绪以及混响、信号强度等声学属性。
- LLM-思维链合成: 大型语言模型采用思维链策略,将这些不同的输出提炼成丰富、风格多样且语义一致的描述。
数据示例格式
每个样本包含来自不同角度的多方面描述。key 字段格式为 {YouTube_ID}_{start_time}_{end_time},其中开始和结束时间以秒为单位。
示例字段包括:
long: 长描述列表short: 短描述列表speech: 语音相关描述列表music: 音乐相关描述列表sound: 声音事件描述列表environment: 环境描述列表
基准测试性能
音频描述性能
在 MECAT-Caption 基准的零样本音频描述任务中,使用 DATE 指标评估,ACAVCaps 在所有细粒度子类别上均实现了全面的最先进性能,总体得分(60.9)显著高于其他对比数据集。
下游任务泛化能力
在语音识别、声音分类、音乐分类和情感识别等下游任务中,使用 ACAVCaps 预训练的模型展现出强大的泛化能力,尤其在语音任务(错误率显著降低)和情感识别任务上取得了最佳或接近最佳的性能。
引用信息
如需在研究中引用本数据集,请使用以下 BibTeX 条目: bibtex @inproceedings{niu2026acavcaps, title={ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding}, author={Niu, Yadong and Wang, Tianzi and Dinkel, Heinrich and Sun, Xingwei and Zhou, Jiahao and Li, Gang and Liu, Jizhong and Zhang, Junbo and Luan, Jian}, journal={arXiv preprint arXiv:2603.24038}, year={2026} }
许可证
本项目数据集采用 知识共享署名-非商业性使用 4.0 国际许可协议。




