AudioMCQ

github2025-11-17 更新2025-11-18 收录

下载链接：

https://github.com/inclusionAI/AudioMCQ

下载链接

链接失效反馈

官方服务：

资源简介：

AudioMCQ是一个包含57.1万个样本的音频多选题数据集，专为大型音频语言模型的后训练设计。该数据集具有双重思维链注释和音频贡献过滤功能，在音频理解任务中实现了最先进的结果。数据集涵盖声音、音乐、语音和时间领域，包含54.8%的弱音频贡献样本和45.2%的强音频贡献样本。

AudioMCQ is a multiple-choice audio dataset containing 571,000 samples, specifically designed for post-training of large audio-language models. This dataset features dual chain-of-thought annotations and audio contribution filtering capabilities, achieving state-of-the-art performance on audio understanding tasks. It covers four domains including sound, music, speech, and temporal scenarios, with 54.8% of its samples being weak audio contribution samples and 45.2% being strong audio contribution samples.

创建时间：

2025-11-14

原始信息汇总

AudioMCQ数据集概述

数据集基本信息

数据集名称：AudioMCQ
数据集类型：音频多项选择题数据集
样本数量：571k个高质量样本
设计用途：用于大型音频语言模型的后训练

核心特征

领域覆盖：声音、音乐、语音和时序领域
注释方式：双链思维注释（结构化和非结构化推理路径）
音频贡献过滤：弱音频贡献（54.8%）和强音频贡献（45.2%）划分
预训练模型：提供弱到强和混合到强两种后训练范式的模型检查点

数据集访问

主要访问地址：https://huggingface.co/datasets/inclusionAI/AudioMCQ
包含内容：完整数据集文档、详细统计信息和示例、数据格式规范、音频文件下载链接、使用说明、模型检查点

模型检查点

弱到强训练范式：https://huggingface.co/inclusionAI/AudioMCQ-Weak-To-Strong
混合到强训练范式：https://huggingface.co/inclusionAI/AudioMCQ-Mixed-To-Strong

学术背景

相关论文：https://arxiv.org/abs/2509.21060
研究成果：在DCASE 2025音频问答挑战赛中获得第一名
训练代码：位于/training_scripts目录中

时间线

2025年09月：论文在arXiv发表
2025年09月：发布包含571k样本的AudioMCQ数据集
2025年07月：在DCASE 2025音频问答挑战赛中取得第一名

引用信息

bibtex @article{he2025audiomcq, title={Measuring Audios Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models}, author={He, Haolin and others}, journal={arXiv preprint arXiv:2509.21060}, year={2025} }

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，AudioMCQ数据集的构建采用了严谨的多阶段流程。该数据集通过音频贡献度筛选机制，从原始音频素材中提取具有明确语义关联的样本，并运用双重思维链标注技术对每个问题生成结构化与非结构化的推理路径。构建过程中涵盖了声音、音乐、语音及时序四大领域，最终形成包含57.1万条高质量样本的集合，其中弱音频贡献样本占54.8%，强音频贡献样本占45.2%。

使用方法

该数据集可通过Hugging Face平台直接获取完整资源包，包含标准化数据格式说明与预处理工具。研究人员可依据弱音频贡献到强音频贡献、混合到强音频贡献两种训练范式，加载对应的预训练模型参数进行微调。实际应用时需注意按照音频贡献度划分标准选择训练集，并参考提供的训练脚本实现端到端的模型优化流程。

背景与挑战

背景概述

音频语言模型作为多模态人工智能的重要分支，近年来在音频理解领域展现出巨大潜力。AudioMCQ数据集由香港中文大学研究团队于2025年创建，专门针对大型音频语言模型的后期训练需求而设计。该数据集包含57.1万个高质量样本，涵盖声音、音乐、语音和时序四大领域，通过双链思维注释和音频贡献度过滤机制，显著提升了模型在音频问答任务中的性能表现。该成果在DCASE 2025音频问答挑战赛中荣获冠军，为音频语言模型的可解释性研究提供了重要基准。

当前挑战

在音频问答领域，模型需要准确理解音频内容与文本问题的语义关联，同时克服跨模态表征对齐的复杂性。AudioMCQ构建过程中面临双重挑战：其一是数据质量控制的难题，研究团队通过设计弱强贡献度划分机制，确保54.8%的弱贡献样本与45.2%的强贡献样本形成有效训练组合；其二是标注一致性问题，采用结构化与非结构化双链思维标注方案，维持大规模样本的语义逻辑一致性。这些技术突破为多模态模型的精细化训练奠定了实践基础。

常用场景

经典使用场景

在音频语言模型研究领域，AudioMCQ数据集凭借其57.1万条高质量样本成为大规音频语言模型后训练的核心资源。该数据集通过声音、音乐、语音和时序四大领域的多选问题设计，配合双链思维标注机制，为模型提供了从音频理解到逻辑推理的系统训练场景，显著提升了模型在复杂音频语义解析任务中的表现。

解决学术问题

该数据集有效解决了音频语言模型训练中音频贡献度难以量化的关键问题。通过引入音频贡献过滤机制将样本划分为弱贡献与强贡献两个子集，研究者能够精确评估音频信息对答案正确性的影响程度。这种设计为构建音频感知的后训练范式提供了理论依据，推动了多模态学习中模态交互机制的深入研究。

实际应用

在实际应用层面，基于AudioMCQ训练的模型已在DCASE2025音频问答挑战赛中取得突破性成果。这些模型能够精准理解环境声音的语义内涵，在智能助听设备、音频内容审核、交互式音乐教育等场景中展现出卓越性能。其双链思维标注体系更支撑了医疗诊断辅助系统中基于音频症状的推理决策过程。

数据集最近研究