AF-Chat
收藏Hugging Face2025-07-15 更新2025-07-15 收录
下载链接:
https://huggingface.co/datasets/nvidia/AF-Chat
下载链接
链接失效反馈官方服务:
资源简介:
AF-Chat是一个高质量精细调整的数据集,包含约75K个多轮、多音频对话(平均每轮4.6个音频片段和6.2个对话轮次,范围在2-8个片段和2-10个对话轮次之间),涵盖言语、环境声音和音乐。该数据集根据每个音频的来源数据集划分为子集。数据集的音频主要来源于YouTube8m和AudioSet,文本问答注释是合成的。
提供机构:
NVIDIA
创建时间:
2025-07-10
原始信息汇总
AF-Chat数据集概述
数据集基本信息
- 名称: AF-Chat
- 所有者: NVIDIA Corporation
- 创建日期: 2025/07/10
- 语言: 英语 (en)
- 许可证: NVIDIA OneWay Noncommercial License
- 规模: 10K<n<100K
- 标签: synthetic, audio-llm, audio-question-answering, reasoning, chat
- 任务类别: audio-text-to-text
数据集内容
- 数据量: ~75K多轮、多音频对话
- 平均特征: 每个对话平均包含4.6个音频片段和6.2轮对话
- 范围: 2–8个音频片段和2–10轮对话
- 音频类型: 语音、环境声音和音乐
- 数据格式: JSON
数据子集
-
Sound (
sound.json)- 领域: 声音和语音
- 音频来源: YouTube8m和AudioSet
- 下载链接: https://github.com/JishengBai/AudioSetCaps
-
Music4ALL (
Music4ALL.json)- 领域: 音乐
- 原始数据集链接: https://github.com/amaai-lab/Music4All
- 访问要求: 需联系作者获取许可
-
Million Song Dataset (
MSD.json)- 领域: 音乐
- 原始数据集链接: http://millionsongdataset.com/
使用说明
- 仅提供文本QA注释,不包含音频文件
- 音频下载: 需从原始来源下载,文件名对应JSON中的
sound字段 - 对话标记:
<sound-i>表示对话中第i个音频
数据用途
- 训练和微调大型音频-语言模型,用于多轮、多音频聊天/对话
数据特征
- 每个示例为一个长音频片段和对应的QA项
- 音频包括环境声音、英语语音和音乐
- 文本QA通过多种方法生成
数据整理方法
- 音频来源: 开源数据集
- 元数据收集: 从各来源获取,必要时生成额外元数据
- 音频检索: 使用NV-Embed-v2嵌入和FAISS聚类获取语义相似和不相似片段
- 对话生成: LLM基于专家示例和聚类约束生成多轮对话
- 人工优化: 迭代调整聚类参数、提示和数据源
数据收集方法
- 混合方式: 人工、合成和自动化
标注方法
- 合成标注
数据集格式
- 模态: 音频 (WAV/MP3/FLAC) + 文本 (JSON)
- JSON示例: json [ { "id": "Arbitary ID", "sound": "List of wav files.", "conversations": [ { "from": "human", "value": "<sound-i> The Question." }, { "from": "gpt", "value": "The Answer." } ] } ]
参考文献
- Goel, A., et al. (2025). Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models. arXiv:2507.08128.
- Kong, Z., et al. (2024). Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities. ICML.
- Ghosh, S., et al. (2025). Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities. arXiv:2503.03983.
伦理考虑
- NVIDIA强调可信AI是共同责任
- 开发者需确保模型符合相关行业要求
- 安全问题报告链接: https://www.nvidia.com/en-us/support/submit-security-vulnerability/
搜集汇总
数据集介绍

构建方式
在音频语言模型研究领域,AF-Chat数据集通过创新性的构建方法为多轮多音频对话任务提供了高质量的训练资源。该数据集整合了来自YouTube8m、AudioSet和Music4All等开放数据源的音频素材,采用NV-Embed-v2嵌入向量和FAISS聚类技术,为每个种子音频检索语义相似与相异的片段。通过大语言模型在专家范例指导下生成多轮对话,并经过人工参与的迭代优化流程,最终形成包含约7.5万条对话的语料库,每条对话平均包含4.6个音频片段和6.2轮交互。
特点
AF-Chat数据集以其多模态特性和复杂的对话结构脱颖而出。数据集涵盖语音、环境音和音乐三大领域,每个对话实例由2-8个音频片段和2-10轮对话组成,呈现出丰富的交互层次。独特的标记系统将音频引用与文本问答有机整合,如<sound-i>标签对应JSON中的音频索引。值得注意的是,数据集仅提供文本标注而非原始音频文件,研究者需根据文件中的sound字段指引从原始数据源获取对应音频,这种设计既遵守了版权规范又保持了数据集的灵活性。
使用方法
使用AF-Chat数据集需要遵循特定的工作流程。研究者首先需解析JSON格式的对话数据,其中包含音频文件列表和以角色区分的对话轮次。获取原始音频需根据sound字段提供的文件名,从对应的开源数据集(如AudioSet或Music4ALL)中下载。在模型训练过程中,<sound-i>标签需要与下载的音频文件建立映射关系。数据集采用NVIDIA单向非商业许可,使用者需同时遵守原始音频数据集的许可条款。为处理可能出现的音频获取问题,建议通过GitHub问题跟踪系统或直接联系作者寻求技术支持。
背景与挑战
背景概述
AF-Chat数据集由NVIDIA Corporation于2025年7月发布,旨在推动音频语言模型在多轮多音频对话领域的发展。该数据集包含约75,000条高质量的多轮对话,涵盖语音、环境声音和音乐等多种音频类型,平均每条对话涉及4.6个音频片段和6.2轮交互。其核心研究问题聚焦于如何通过多模态数据增强模型的对话与推理能力,为音频语言模型的训练与微调提供了重要资源。AF-Chat的发布不仅填补了多音频对话数据集的空白,还为音频智能领域的研究开辟了新的方向,相关成果已发表在《Audio Flamingo》系列论文中,体现了其在学术与工业界的双重价值。
当前挑战
AF-Chat数据集面临的主要挑战包括两方面:领域问题方面,多音频对话任务需解决跨模态对齐、长音频理解以及复杂上下文推理等难题,这对模型的语义捕捉与逻辑连贯性提出了极高要求;数据构建方面,音频片段需从YouTube-8M、AudioSet等多个来源手动获取,存在版权许可与数据一致性风险,且合成标注依赖大语言模型生成,可能引入语义偏差。此外,数据集中音频与文本的松散关联性增加了预处理复杂度,用户需通过文件名手动匹配原始音频,这一过程易出错且耗时,成为实际应用的重要瓶颈。
常用场景
经典使用场景
在音频语言模型的研究领域,AF-Chat数据集以其多轮、多音频对话的独特结构,成为训练和微调大规模音频语言模型的理想选择。该数据集涵盖了语音、环境声音和音乐等多种音频类型,为研究者提供了一个丰富的实验平台。通过模拟真实对话场景,AF-Chat能够有效提升模型在处理复杂音频对话任务时的表现,尤其在多模态交互和上下文理解方面展现出显著优势。
实际应用
在实际应用层面,AF-Chat数据集为智能语音助手、音频内容检索系统以及音乐推荐平台等场景提供了技术支持。基于该数据集训练的模型能够理解用户的多轮音频查询,并给出符合上下文的精准回应。在医疗辅助、教育娱乐等领域,这种多模态对话能力显著提升了人机交互的自然度和效率,为AI应用的落地提供了新的可能性。
衍生相关工作
AF-Chat数据集催生了一系列重要的研究工作,其中最具代表性的是Audio Flamingo系列模型。从最初的Audio Flamingo到最新的Audio Flamingo 3,这些工作不断突破音频语言模型的性能边界。相关研究在ICML等顶级会议上发表,推动了Few-Shot学习、长音频理解等技术的发展,为多模态AI领域树立了新的研究范式。
以上内容由遇见数据集搜集并总结生成



