MMAU-Pro

arXiv2025-08-20 更新2025-08-22 收录

下载链接：

https://sonalkum.github.io/mmau-pro

下载链接

链接失效反馈

官方服务：

资源简介：

MMAU-Pro 是一个全面且精心策划的基准测试，用于评估人工智能系统中的音频智能。该数据集包含 5,305 个专家标注的实例，每个实例都与人类专家生成的问答对配对，涵盖了语音、声音和音乐。MMAU-Pro 在 49 个独特的技能和多个复杂维度上评估听觉智能，包括长音频理解和空间音频推理。所有问题都经过精心设计，需要深思熟虑的多跳推理，包括多项选择和开放式回答格式。音频数据直接来源于自然界的记录，而不是来自具有已知分布的现有数据集。

提供机构：

University of Maryland, College Park, USA, Brno University of Technology, Czech Republic, Universidad Autónoma de Madrid, Telefónica, Tsinghua University, KAIST, Daejeon, Phonexia, Middlebury College, USA, Tufts University, Universidad de Buenos Aires, Indian Institute of Technology, Bombay, Microsoft, Carnegie Mellon University, USA, Universiti Sains Malaysia, Johns Hopkins University, USA, Athens University of Economics and Business, University of Texas, Austin, USA, Shanghai Artificial Intelligence Laboratory

创建时间：

2025-08-20

原始信息汇总

MMAU-Pro 数据集概述

数据集简介

MMAU-Pro 是一个用于全面评估音频通用智能的综合基准测试，涵盖语音、非语音声音和音乐及其组合的音频理解能力。

核心特点

技能覆盖：包含49种独特技能，覆盖语音、声音、音乐及其混合领域
复杂维度评估：包括长音频理解、空间音频推理、多音频理解等
数据规模：5,305个实例，每个实例包含一个或多个音频及人工专家生成的问题-答案对
音频来源：直接从"野外"获取音频数据，而非来自已知分布的现有数据集

评估内容

语音：ASR加推理（语义、共指、意图）
声音：非语音事件；因果和物理推理
音乐：乐器、节奏、理论描述符
空间：双耳线索、相对位置、运动
多音频：混合归因、流分离
语音聊天：人物角色、韵律、多轮问答
指令跟随：受限多步任务

数据统计

总问答对：5,305
领域：语音、声音、音乐及其组合
多选题：包含
开放式问题：包含
平均音频长度：未明确秒数
长片段（3-8分钟）：包含
超长片段（8-10分钟）：包含
空间问答：包含
多音频问答：包含
语音STEM：包含
指令跟随：包含

问题分布

语音问题
声音问题
音乐问题
声音-语音问题
音乐-语音问题
声音-音乐问题
声音-音乐-语音问题

模型性能

在评估的22个领先开源和专有多模态AI模型中，最佳性能为：

Gemini-2.5 Flash：59.20%准确率
Gemini-2.0 Flash：55.70%准确率
GPT4o-Audio：52.50%准确率

相关资源

论文PDF：https://sonalkum.github.io/mmau-pro
代码仓库：https://sonalkum.github.io/mmau-pro
数据集页面：https://sonalkum.github.io/mmau-pro
联系方式：sonalkum@umd.edu

搜集汇总

数据集介绍

构建方式

在音频智能评估领域，MMAU-Pro数据集通过多阶段专家标注流程构建而成。研究团队首先定义了涵盖语音、环境声音和音乐三大核心领域的49项技能，并由领域专家根据专业背景分配任务。音频素材均来自真实场景的野生录音，包括电视节目、播客、多文化音乐曲目及空间音频数据集，确保了数据分布的多样性和现实性。专家们手工创作了需要多跳推理的问题-答案对，并精心设计干扰项以减少表面模式匹配。每个实例均经过独立验证和迭代修订，最终形成5,305个高质量样本，涵盖单选、多选和开放式问答多种形式。

使用方法

该数据集的使用需遵循严谨的评估框架。对于多选题，采用嵌入相似度匹配策略：模型生成回答的嵌入向量与选项嵌入进行余弦相似度计算，最高相似度选项作为预测结果，避免字符串匹配的偏差。开放题评估使用Qwen2.5-7B-Instruct作为评判模型，从正确性、相关性、完整性和清晰度四个维度进行5分制评分，再转换为百分比值。多音频任务处理时，对于不支持多音频输入的模型，需将音频间插入2秒静音后拼接输入，并在提示中明确说明。评估过程强调音频真实性验证，通过替换高斯噪声的对照实验确保模型真正依赖音频特征而非语言先验。

背景与挑战

背景概述

MMAU-Pro数据集由马里兰大学、布尔诺理工大学等全球多所知名学术机构于2025年联合创建，旨在全面评估人工智能系统的音频通用智能。该数据集聚焦语音、非语音声音和音乐三大核心领域，涵盖49项细分技能，通过5305个专家标注的音频-问答对构建而成。其核心研究问题在于解决现有基准在长音频理解、空间音频推理、多音频分析等复杂维度上的评估缺失，推动多模态大语言模型在真实听觉场景中的认知能力发展，对音频人工智能领域具有里程碑意义。

当前挑战

MMAU-Pro针对的领域挑战包括：长音频时序事件定位、多源音频混合推理、空间声学场景理解、跨文化音乐语义解析等核心难题。构建过程中面临多重挑战：需从野生环境中采集高保真多通道音频以避免数据偏差；设计需多跳推理的问答对时需平衡开放性与可评估性；针对 multicultural music 标注需融合民族音乐学专业知识；此外，指令跟随任务的约束性设计需确保可验证性与现实应用场景的一致性。

常用场景

经典使用场景

在音频智能评估领域，MMAU-Pro数据集通过精心设计的5305个专家标注实例，系统覆盖语音、环境声音和音乐三大核心领域及其混合形态。该数据集最经典的应用场景在于全面评估多模态大语言模型在长音频理解、空间音频推理、多音频分析等复杂任务中的表现，其问题设计强调多跳推理能力，要求模型进行深层次的听觉感知与逻辑分析。

解决学术问题

MMAU-Pro有效解决了现有基准在音频通用智能评估中的碎片化问题，填补了长时音频理解、多音频联合推理、跨文化音乐解析等关键领域的空白。该数据集通过引入49项细分技能评估，为学术界提供了衡量模型在时空推理、指令跟随、STEM知识融合等核心能力的标准化框架，显著推进了音频智能系统的科学评估体系构建。

实际应用

该数据集在智能语音助手、无障碍技术、多媒体内容分析等实际场景中具有重要价值。其长音频理解能力可应用于会议记录分析，空间音频推理适用于AR/VR环境中的声源定位，多音频处理能力则支持复杂声学场景下的智能决策。在医疗听诊辅助、工业设备故障诊断等领域，MMAU-Pro提供的评估框架为开发鲁棒的音频理解系统奠定了基础。

数据集最近研究