AudioMCQ-StrongAC-GeminiCoT

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/Harland/AudioMCQ-StrongAC-GeminiCoT

下载链接

链接失效反馈

官方服务：

资源简介：

AudioMCQ-StrongAC-GeminiCoT 是一个精选的音频问答数据集，源自 AudioMCQ 的强音频贡献（StrongAC）子集，包含 Gemini 3.1 Pro 生成的本地思维链（CoT）推理且回答正确的样本。数据集经过严格筛选，去除了低质量的 CoT 样本（如声称无法访问音频或视觉幻觉的样本），目前包含 19,480 个样本，每个样本对应唯一的音频文件。数据来源多样，包括 SpeechCraft、AudioCaps、CompA-R 等。每个样本包含原始数据集来源、唯一标识符、问题类型、音频路径、问题文本、正确答案、选项列表以及 Gemini 的 CoT 推理。该数据集特别适用于音频理解模型训练、思维链蒸馏、音频问答基准测试以及 DCASE 2026 任务 5 的开发。数据集遵循 Apache-2.0 许可证。

创建时间：

2026-03-25

原始信息汇总

AudioMCQ-StrongAC-GeminiCoT 数据集概述

数据集基本信息

数据集名称: AudioMCQ-StrongAC-GeminiCoT
发布日期: 2025-03-29（初始版本），2025-03-31（更新版本）
许可证: Apache-2.0
数据文件: data.jsonl
数据分割: 训练集

数据集来源与背景

基础数据集: AudioMCQ 数据集的 强音频贡献 分割部分。
构建过程:
1. 从 StrongAC 分割中采样数据。
2. 使用 Gemini 3.1 Pro 模型进行音频问答推理。
3. 筛选出模型回答正确且生成了原生思维链推理的样本。
学术背景: 基于 ICLR 2026 论文《Measuring Audios Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models》构建。
官方用途: 作为 DCASE 2026 挑战赛任务5（音频相关问答）的官方训练集。

数据集内容与统计

总样本数: 19,480
唯一音频文件数: 19,480

音频来源分布

来源数据集	样本数量
SpeechCraft	9,603
AudioCaps	4,705
CompA-R	2,901
Tacos	1,128
LP-MusicCaps-MTT	807
Clotho	194
MusicCaps	142

数据格式

每个样本是一个 JSON 对象，包含以下字段：

source_dataset: 原始数据集来源。
id: 唯一样本标识符。
question_type: 问题类别（如声音、语音、音乐、时序）。
audio_path: 音频文件的相对路径。
question: 多项选择题的文本。
answer: 正确答案。
choices: 四个答案选项的列表。
gemini_cot: Gemini 的原生思维链推理文本。该推理已通过 Gemini 的内部算法进行了总结，但仍保留了丰富的音频细节，包括时间戳、声学描述和逐步的时间分析。

目录结构

AudioMCQ-StrongAC-GeminiCoT/ ├── data.jsonl ├── AudioCaps/ ├── Clotho/ ├── CompA-R/ ├── LP-MusicCaps-MTT/ ├── MusicCaps/ ├── SpeechCraft/ └── Tacos/

主要用途

音频理解模型训练。
思维链能力蒸馏。
音频问答基准测试。
DCASE 2026 任务5的开发。

引用信息

如果使用本数据集，请引用原始 AudioMCQ 论文。

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，高质量推理数据的构建至关重要。AudioMCQ-StrongAC-GeminiCoT数据集的构建始于其基础版本AudioMCQ中的强音频贡献（StrongAC）子集。研究团队从该子集中采样数据，并利用Gemini 3.1 Pro模型进行音频问答推理。核心筛选标准在于仅保留模型能够给出正确答案并同时生成原生思维链推理的样本。这些推理过程虽经模型内部算法进行了摘要处理，但仍完整保留了丰富的时间戳、声学描述与逐步时序分析等关键音频细节，最终形成了包含19,480个高质量样本的精选集合。

特点

该数据集的核心特征在于其蕴含的高质量、结构化的推理知识。每个样本不仅包含多选问题、正确答案及音频路径，更关键的是附带了由先进大模型生成的详细思维链推理文本。这些推理文本深入剖析了音频的时序结构、声学特性与事件关联，为模型理解音频内容提供了清晰的逻辑指引。数据集覆盖了语音、音乐、环境声及时序关系等多种问题类型，且音频来源多样，涵盖了SpeechCraft、AudioCaps等多个权威音频数据集，确保了内容的广泛性与代表性。

使用方法

在音频依赖的问答任务研究中，本数据集提供了多方面的应用路径。研究者可直接将其用于训练音频理解模型，利用Gemini生成的思维链作为强监督信号，引导模型学习复杂的音频推理过程。该数据集亦适用于知识蒸馏，旨在将大模型蕴含的推理能力迁移至更高效的轻量级模型中。此外，它作为DCASE 2026挑战赛任务5的官方训练集，为参赛者提供了基准开发数据，可用于构建和评估在深度、分步音频理解任务上具有优异性能的模型。

背景与挑战

背景概述

音频语言模型领域长期致力于提升模型对复杂音频内容的理解与推理能力，AudioMCQ-StrongAC-GeminiCoT数据集应运而生。该数据集由inclusionAI团队于2025年构建，作为ICLR 2026会议论文的衍生成果，并成为DCASE 2026挑战赛任务五的官方训练集。其核心研究聚焦于评估音频对模型正确性的贡献度，通过精选具有强音频依赖性的多选问题，并融合Gemini 3.1 Pro模型生成的高质量思维链推理标注，为音频问答任务提供了富含时序分析与声学细节的监督信号，显著推动了音频理解模型向可解释、深层次推理方向的发展。

当前挑战

在音频依赖型问答这一新兴领域，模型需克服多重挑战：准确解析非结构化音频中的时序事件、区分重叠声源、理解语音语义与音乐情感等跨模态信息，并完成基于复杂声学场景的因果推理。数据集构建过程同样面临严峻考验，包括从多源音频数据中筛选强音频贡献样本以确保问题有效性，利用大语言模型生成可靠思维链时需规避幻觉与噪声，以及通过算法摘要保留丰富音频细节同时维持标注的简洁性与一致性，这些环节共同构成了高质量音频推理数据集创建的核心难点。

常用场景

经典使用场景

在音频语言模型研究领域，AudioMCQ-StrongAC-GeminiCoT数据集为音频依赖问答任务提供了高质量的监督信号。其经典使用场景聚焦于训练能够执行深度音频理解的模型，通过集成Gemini 3.1 Pro生成的链式思维推理，模型得以学习如何逐步解析音频内容，例如识别时序事件、区分声学特征或关联语义信息。该数据集特别适用于开发需要结合听觉感知与逻辑推理能力的先进系统，为音频问答任务设立了新的训练基准。

解决学术问题

该数据集旨在解决音频语言模型中音频贡献度评估与推理能力提升的核心学术问题。通过精选强音频贡献样本并附注详细的链式思维，研究者能够量化音频信息对模型决策的影响，从而推动音频感知模型的优化。其意义在于为多模态学习提供了可解释的推理路径，促进了模型在复杂音频场景下的鲁棒性与准确性，对音频理解领域的理论发展与技术突破产生了深远影响。

衍生相关工作

围绕该数据集衍生的经典工作主要包括链式思维蒸馏技术与音频贡献感知的后训练方法。研究者利用数据集中的高质量推理注释，将大型多模态模型的复杂推理能力迁移至更高效的轻量级模型，促进了边缘计算环境下的音频处理。同时，基于数据集的音频贡献分析框架，催生了多项关于模型可解释性与多模态对齐的研究，为音频语言模型的进一步发展提供了关键方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集