AudioSkills

Name: AudioSkills
Creator: NVIDIA
Published: 2025-07-15 07:49:32
License: 暂无描述

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/nvidia/AudioSkills

下载链接

链接失效反馈

官方服务：

资源简介：

AudioSkills-XL是一个大规模的音频问答（AQA）数据集，旨在开发（大型）音频语言模型，以实现专家级别的推理和问题解决能力，适用于短音频片段（≤30秒）。它扩展了原始的AudioSkills集合，新增了约450万个新的QA对，总共约有1000万个多样化的示例。发布的内容包括完整的AudioSkills和AudioSkills-XL数据集。数据集根据每个音频的源数据集进行划分。每个示例都是一个短音频片段（≤30秒）和一个相应的QA项。音频包括环境声音、语音（主要是英语）和音乐。音频来自开源数据集（请参阅论文附录中的表6）。文本QA是通过使用论文中提到的方法生成的。如果原始数据集可用，则使用元数据生成QA。数据集的创建方法是混合的，包括人类、合成和自动化的方法。标签方法是合成的。数据集格式为音频（WAV/MP3/FLAC）+文本（JSON）。数据集所有者是NVIDIA Corporation。数据集创建日期为2025年7月10日。数据集的使用许可证为NVIDIA OneWay Noncommercial License。数据集的预期用途是支持（大型）音频语言模型的训练和微调，以实现专家级别的音频推理。数据集的主要技能包括时间推理、属性识别、计数、上下文声音事件推理、上下文语音事件推理、信息提取、一般推理、讽刺识别、情绪状态推理、主题关系推理、信息提取（IE）、摘要和顺序。数据集格式为音频（WAV/MP3/FLAC）+文本（JSON）。

提供机构：

NVIDIA

创建时间：

2025-07-10

原始信息汇总

数据集概述

基本信息

数据集名称: AudioSkills-XL
所有者: NVIDIA Corporation
创建日期: 2025/07/10
语言: 英语 (en)
许可证: NVIDIA OneWay Noncommercial License
规模: 1M<n<10M
标签: synthetic, audio-llm, audio-question-answering, reasoning
任务类别: audio-text-to-text

数据集描述

AudioSkills-XL 是一个大规模音频问答（AQA）数据集，旨在开发（大型）音频语言模型，用于短音频片段（≤30秒）的专家级推理和问题解决任务。该数据集扩展了原始 AudioSkills 集合，新增约450万个新的问答对，总计约1000万个多样化的示例。

数据集结构

数据集基于音频来源划分为多个子集，包括：

WavText5K
SONNISS
MusicCaps
BBC Sound Effects
AudioSet
MusicBench
MUSDB18
YouTube-8M
MACS
ESC-50
CountingQA
MagnaTagATune
FSD50k
VoxCeleb2
FMA
Music4ALL
UrbanSound8K
SoundDescs
Medley-solos-DB
Medley-Pitch-DB
GTZAN
Clotho-v2
Freesound
CochlScene
WavCaps
Million Song Dataset
VGGSound
TUT_Urban
SoundBible
AudioSet_SL

数据格式

模态: 音频（WAV/MP3/FLAC）+ 文本（JSON）
JSON 示例: json [ { "id": "ID", "sound": "Name of the wav file.", "duration": "The duration in floating point.", "conversations": [ { "from": "human", "value": "<sound> The Question." }, { "from": "gpt", "value": "The Answer." } ] } ]

使用目的

AudioSkills-XL 旨在支持：

训练和微调（大型）音频语言模型，用于音频的专家级推理。

数据集特点

AudioSkills-XL 专注于声音和音乐的七个主要技能：

时间推理
属性识别
计数
上下文声音事件推理
上下文语音事件推理
信息提取
一般推理

以及语音的六个主要技能：

讽刺识别
情感状态推理
主题关系推理
信息提取
摘要
顺序

数据来源

音频来自多个开源数据集，部分音频为合成生成。原始数据集的元数据（如字幕、转录等）被用于生成问答对。

数据生成方法

使用专家设计的推理提示，通过LLM生成问答对。
数据收集方法为混合式（人工、合成和自动化）。
标注方法为合成。

参考文献

Audio Flamingo 3
Audio Flamingo
Audio Flamingo 2

伦理考虑

NVIDIA 强调可信AI是共同责任，开发者应确保模型符合相关行业和使用案例的要求，并解决潜在的产品误用问题。

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，AudioSkills-XL数据集的构建体现了多源融合与智能生成的创新方法。该数据集通过整合30个权威音频数据源的元数据，包括WavText5K、AudioSet等专业数据库，采用混合式数据采集策略。研究人员运用大型语言模型基于专家设计的推理提示生成问答对，并引入人工迭代优化机制确保数据质量。每个样本由不超过30秒的音频片段与对应的QA条目组成，覆盖环境音、语音和音乐三大类别，最终形成约1000万样本的规模。

特点

作为当前规模最大的音频问答数据集，AudioSkills-XL展现出多维度的专业特性。其核心价值在于覆盖七类声音推理技能和六类语音分析能力，包括时间推理、属性识别、情感状态分析等高阶认知任务。数据集特别强调专家级推理能力的培养，通过计数QA、因果QA等细分任务类型构建层次化的评估体系。不同来源数据的组合既保持了领域专业性，又通过统一的JSON格式实现了结构化呈现，其中音频文件需用户按许可条款从原始渠道获取。

使用方法

该数据集的应用需遵循严格的非商业许可协议，主要服务于音频语言模型的训练与微调。使用者需先通过JSON文件中的'sound'字段定位原始音频文件，再结合配套的问答对构建训练样本。典型应用场景包括开发具有长音频理解能力的模型，或测试模型在时序推理、情感分析等专项任务的表现。值得注意的是，由于采用分布式数据存储策略，研究人员应当建立规范的音频文件检索与管理流程，确保符合各原始数据源的授权要求。

背景与挑战

背景概述

AudioSkills-XL是由NVIDIA Corporation于2025年推出的大规模音频问答数据集，旨在推动音频语言模型在短音频片段（≤30秒）上的专家级推理和问题解决能力。该数据集基于原始AudioSkills进行了显著扩展，新增约450万对问答样本，总量达到约1000万对，涵盖了环境声音、语音和音乐等多种音频类型。数据集整合了来自30多个公开音频数据集的资源，如AudioSet、VoxCeleb2和MUSDB18等，通过合成数据生成和自动化标注技术构建。其核心研究问题聚焦于提升模型在时间推理、属性识别、计数、上下文推理等七项关键音频技能上的表现，为音频智能领域的研究提供了重要基准。

当前挑战

AudioSkills-XL面临的主要挑战体现在两个方面：领域问题层面，短音频片段的多模态理解要求模型具备细粒度的时间对齐能力和跨模态语义关联技术，尤其在处理音乐情感识别或环境声音因果推理等复杂任务时，现有方法常受限于音频表征的稀疏性；数据构建层面，由于涉及30余个异构数据源的整合，不同数据集在采样率、标注规范和版权协议上的差异性导致数据清洗与标准化工作异常复杂，且受限于原始音频的许可协议，研究者需自行从分散的源头获取音频文件，这大幅增加了数据使用的技术门槛。

常用场景

经典使用场景

在音频语言模型的研究领域，AudioSkills-XL数据集因其大规模和多样性成为训练和评估模型的核心资源。该数据集广泛应用于音频问答任务，特别是在需要复杂推理和问题解决的场景中，如环境声音分析、音乐理解和语音对话处理。通过整合多个子数据集，研究者能够在统一的框架下探索不同音频模态的交互与理解。

衍生相关工作

AudioSkills-XL的发布直接催生了Audio Flamingo系列模型的创新，包括支持少样本学习的初代架构和具备长音频理解能力的进阶版本。相关研究不仅在ICML等顶级会议发表，还启发了后续工作如音频-文本跨模态检索系统的优化，以及针对特定领域（如医疗音频分析）的迁移学习框架构建。

数据集最近研究