MMAU-Pro

github2025-08-28 更新2025-09-04 收录

下载链接：

https://github.com/sonalkum/MMAUPro

下载链接

链接失效反馈

官方服务：

资源简介：

MMAU-Pro是迄今为止最全面的音频通用智能评估基准，涵盖语音、环境声音、音乐及其组合，包含49种不同的感知和推理技能。数据集包含5,305个专家标注的问答对，音频直接来自真实环境。它引入了先前基准忽略的几个新颖挑战，包括长音频理解（长达10分钟）、多音频推理、空间音频感知、多元文化音乐推理、基于语音的STEM和世界知识问答、具有可验证约束的指令跟随以及除多项选择题之外的开放式问答

MMAU-Pro is the most comprehensive audio universal intelligence evaluation benchmark to date, covering speech, environmental sounds, music and their combinations, and encompassing 49 distinct perceptual and reasoning skills. The dataset contains 5,305 expert-annotated question-answer pairs, with audios directly sourced from real-world environments. It introduces several novel challenges overlooked by previous benchmarks, including long-form audio understanding (up to 10 minutes), multi-audio reasoning, spatial audio perception, cross-cultural music reasoning, speech-based STEM and world knowledge question answering, instruction following with verifiable constraints, and open-ended question answering beyond multiple-choice questions.

创建时间：

2025-08-27

原始信息汇总

MMAU-Pro 数据集概述

数据集简介

MMAU-Pro 是一个用于评估多模态模型中音频智能的综合性基准测试数据集，涵盖语音、环境声音、音乐及其组合，包含49种不同的感知和推理技能。该数据集包含5,305个专家标注的问题-答案对，音频直接来源于真实场景。

核心特点

长音频理解：支持长达10分钟的音频理解
多音频推理：涉及多个音频的联合推理任务
空间音频感知：包含空间音频感知能力测试
多元文化音乐推理：涵盖不同文化背景的音乐理解
语音STEM和世界知识问答：基于语音的STEM和世界知识问答
可验证约束的指令跟随：包含可验证约束条件的指令跟随任务
开放式问答：除多项选择题外，还包含开放式问答

数据内容

问题类型：专家标注的问答对
音频来源：真实场景采集的音频数据
音乐覆盖：包含西方、中国、印度、欧洲、非洲、拉丁美洲、中东和其他亚洲地区的音乐

评估方法

多项选择题评分：通过嵌入相似度（NV-Embed-v2）进行评分
开放式问答评估：使用LLM作为评判者
指令跟随评估：基于正则表达式的字符串匹配

基准测试结果

在22个领先模型上的基准测试结果：

Gemini 2.5 Flash（闭源）：59.2%平均准确率
Audio Flamingo 3（开源）：51.7%
Qwen2.5-Omni-7B：52.2%
人类表现：约78%

获取方式

数据集地址：https://huggingface.co/datasets/gamma-lab-umd/MMAU-Pro
论文地址：https://arxiv.org/abs/2508.13992
官方网站：https://sonalkum.github.io/mmau-pro/

使用方式

python from datasets import load_dataset ds = load_dataset("sonalkum/MMAU-Pro")

评估代码

bash python evaluate_mmau_pro_comprehensive.py test.parquet --model_output_column model_output

引用格式

bibtex @article{kumar2025mmau, title={MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence}, author={Kumar, Sonal and Sedl{a}{v{c}}ek, {v{S}}imon and Lokegaonkar, Vaibhavi and L{o}pez, Fernando and Yu, Wenyi and Anand, Nishit and Ryu, Hyeonggon and Chen, Lichang and Pli{v{c}}ka, Maxim and Hlav{a}{v{c}}ek, Miroslav and others}, journal={arXiv preprint arXiv:2508.13992}, year={2025} }

搜集汇总

数据集介绍

构建方式

在音频智能评估领域，MMAU-Pro数据集通过精心设计的构建流程展现其科学性。该数据集从真实环境中直接采集音频样本，涵盖语音、环境声音、音乐及其混合类型，并由专家团队手工标注了5,305对高质量的问答数据。构建过程特别注重长音频理解、多音频推理等新颖挑战的纳入，确保数据集的全面性与代表性。

特点

作为当前最全面的多模态音频智能基准，MMAU-Pro展现出显著的特点优势。数据集覆盖49种不同的感知与推理技能，包含长达10分钟的长音频理解任务、多音频空间感知推理以及跨文化音乐分析。其独特之处在于融合了指令跟随验证、开放式问答与多项选择题并存的评估体系，并包含西方、中国、印度等8个文化区域的音乐样本，有效揭示模型的文化偏差。

使用方法

研究者可通过Hugging Face平台便捷加载该数据集，使用标准接口实现数据调用。评估体系提供三种严谨的评分方法：基于NV-Embed-v2嵌入相似度的多项选择评分、采用大语言模型作为评判者的开放式问答评估，以及基于正则表达式的指令遵循验证。用户只需将模型预测结果填入指定列，运行提供的评估脚本即可获得全面性能分析。

背景与挑战

背景概述

音频智能作为多模态人工智能研究的重要分支，近年来受到广泛关注。MMAU-Pro数据集由马里兰大学Gamma实验室于2025年创建，旨在构建迄今为止最全面的音频通用智能基准测试。该数据集涵盖语音、环境声音、音乐及其组合等多元音频模态，涉及49种不同的感知与推理技能，包含5,305个专家标注的问答对。其创新性地突破了传统音频数据集的局限，为评估多模态模型的音频理解能力提供了重要基准，对推动音频智能领域的发展具有深远影响。

当前挑战

MMAU-Pro致力于解决多模态音频理解领域的核心挑战，包括长时音频理解（最长10分钟）、多音频推理、空间音频感知等复杂任务。在构建过程中，团队面临来自真实场景的音频数据采集与标注难题，特别是跨文化音乐推理和基于语音的STEM知识问答等专业领域的数据质量控制。此外，为确保评估的全面性，数据集需要平衡开放式问答与多项选择题型的设计，同时克服多语言音频素材的文化偏见问题，这些挑战共同构成了该数据集的技术壁垒。

常用场景

经典使用场景

在音频智能评估领域，MMAU-Pro数据集作为综合性基准测试平台，其经典应用场景集中于多模态模型的系统性能力验证。该数据集通过涵盖语音、环境声和音乐等多元音频类型，支持模型在长音频理解、多音频推理及空间音频感知等复杂任务中的性能评估，为研究者提供了统一的测试框架。

衍生相关工作

基于MMAU-Pro衍生的经典研究包括Audio Flamingo 3等开源模型的性能优化，以及针对多音频推理任务的新型神经网络架构探索。该数据集还催生了多项关于模型文化偏见的实证研究，推动了跨文化音频理解的技术发展，并为后续的音频-语言多模态基准测试提供了设计范式。

数据集最近研究