FusionAudio-1.2M

github2025-06-08 更新2025-06-09 收录

下载链接：

https://github.com/FreedomIntelligence/FusionAudio

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个包含120万高质量音频-文本对的大规模数据集。

We have constructed a large-scale dataset containing 1.2 million high-quality audio-text pairs.

创建时间：

2025-05-11

原始信息汇总

FusionAudio-1.2M 数据集概述

基本信息

数据集名称: FusionAudio-1.2M
作者: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang
机构: 香港中文大学（深圳）
论文: FusionAudio-1.2M, Towards Fine-grained Audio Captioning with Multimodal Contextual Cues
数据集下载: Hugging Face
模型下载: Hugging Face

数据集亮点

规模与质量: 包含120万高质量音频-文本对
多模态上下文融合: 支持细粒度音频理解
性能: 在多个音频理解基准测试中达到最先进水平

数据集格式

json [ { "audio_id": "path_to_audio_file", "instruction": "Question", "input": "", "dataset": "dataset_name", "task": "type_of_task", "output": "correct_answer" } ]

模型下载

模型名称	用途	下载链接
FusionAudio-25k/FusionAudio-25k-high	通用音频理解	HuggingFace
FusionAudio-Retrieval	音频检索	HuggingFace

许可信息

使用许可: 仅限研究用途，遵循LLaMA、Vicuna等相关模型的许可协议
数据集许可: CC BY NC 4.0（仅限非商业用途）

引用

bibtex @misc{chen2025fusionaudio12mfinegrainedaudiocaptioning, title={FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion}, author={Shunian Chen and Xinyuan Xie and Zheshu Chen and Liyan Zhao and Owen Lee and Zhan Su and Qilin Sun and Benyou Wang}, year={2025}, eprint={2506.01111}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2506.01111}, }

搜集汇总

数据集介绍

构建方式

在音频理解领域，FusionAudio-1.2M数据集的构建体现了多模态融合的前沿理念。研究团队通过系统化采集与标注流程，整合了120万条高质量音频-文本对，每条数据均包含音频文件路径、指令问题、任务类型及人工标注的精细描述。数据集采用标准化JSON格式存储，确保了数据结构的一致性与可扩展性，其中音频素材源自权威开源数据库并经过严格的信噪比筛选与时长标准化处理。

特点

作为当前规模领先的细粒度音频描述数据集，FusionAudio-1.2M的突出优势在于其多模态上下文融合特性。数据集不仅涵盖常规环境音与语音样本，更创新性地引入视觉关联文本线索，支持跨模态的语义对齐研究。统计显示其平均标注长度达15.6词，显著优于同类数据集的信息密度，且通过专家验证确保了文本描述的准确性与丰富性，为模型捕捉声音事件的时空动态提供了理想素材。

使用方法

该数据集可通过Hugging Face平台便捷获取，研究者只需调用标准API即可加载预处理后的数据。典型应用场景包括：使用quick_inference.py脚本进行端到端音频描述生成，通过train.sh启动多任务联合训练，或利用eval_cls.sh评估模型分类性能。数据集特别设计了模块化接口，支持与Llama-2等主流语言模型的即插即用式集成，其Python API封装了完整的音频特征提取到文本生成的推理流程。

背景与挑战

背景概述

FusionAudio-1.2M是由香港中文大学（深圳）的研究团队于2025年发布的大规模高质量音频描述数据集，旨在推动细粒度音频理解领域的发展。该数据集由Shunian Chen、Xinyuan Xie等学者主导构建，包含120万条音频-文本对，通过融合多模态上下文线索，为音频描述任务提供了丰富的语义信息。作为音频理解领域的重要资源，FusionAudio-1.2M不仅支持基础的音频分类任务，还能促进复杂场景下的细粒度音频语义解析，其创新性的多模态融合方法为后续研究提供了新的技术范式。

当前挑战

在音频理解领域，传统数据集往往面临标注粒度粗糙、语义信息不足等挑战，难以满足复杂场景下的细粒度解析需求。FusionAudio-1.2M通过引入多模态上下文线索，有效提升了音频描述的精确性，但构建过程中仍需解决多源数据对齐、标注一致性维护等技术难题。此外，大规模音频数据的采集与清洗对计算资源提出了极高要求，如何平衡数据规模与质量成为关键挑战。该数据集的应用还需克服预训练语言模型与音频特征的深度融合问题，以实现更精准的跨模态语义匹配。

常用场景

经典使用场景

在音频理解领域，FusionAudio-1.2M数据集为研究者提供了一个大规模、高质量的音频-文本配对资源，特别适用于细粒度的音频描述任务。通过融合多模态上下文线索，该数据集能够支持复杂的音频理解模型训练，例如在环境声音识别、音乐情感分析和语音内容理解等场景中表现出色。其丰富的标注信息使得模型能够捕捉音频中的细微差别，从而生成更为精准和详细的描述。

衍生相关工作

FusionAudio-1.2M数据集衍生了一系列经典工作，包括基于多模态融合的音频描述模型、音频检索系统以及跨模态生成任务。这些工作不仅在学术上取得了显著成果，还在实际应用中展现了强大的潜力，例如在WavCaps和AudioSet等知名数据集上的性能提升。

数据集最近研究