MMAU-Pro
收藏MMAU-Pro 数据集概述
数据集简介
MMAU-Pro 是一个用于评估多模态模型中音频智能的综合性基准测试数据集,涵盖语音、环境声音、音乐及其组合,包含49种不同的感知和推理技能。该数据集包含5,305个专家标注的问题-答案对,音频直接来源于真实场景。
核心特点
- 长音频理解:支持长达10分钟的音频理解
- 多音频推理:涉及多个音频的联合推理任务
- 空间音频感知:包含空间音频感知能力测试
- 多元文化音乐推理:涵盖不同文化背景的音乐理解
- 语音STEM和世界知识问答:基于语音的STEM和世界知识问答
- 可验证约束的指令跟随:包含可验证约束条件的指令跟随任务
- 开放式问答:除多项选择题外,还包含开放式问答
数据内容
- 问题类型:专家标注的问答对
- 音频来源:真实场景采集的音频数据
- 音乐覆盖:包含西方、中国、印度、欧洲、非洲、拉丁美洲、中东和其他亚洲地区的音乐
评估方法
- 多项选择题评分:通过嵌入相似度(NV-Embed-v2)进行评分
- 开放式问答评估:使用LLM作为评判者
- 指令跟随评估:基于正则表达式的字符串匹配
基准测试结果
在22个领先模型上的基准测试结果:
- Gemini 2.5 Flash(闭源):59.2%平均准确率
- Audio Flamingo 3(开源):51.7%
- Qwen2.5-Omni-7B:52.2%
- 人类表现:约78%
获取方式
- 数据集地址:https://huggingface.co/datasets/gamma-lab-umd/MMAU-Pro
- 论文地址:https://arxiv.org/abs/2508.13992
- 官方网站:https://sonalkum.github.io/mmau-pro/
使用方式
python from datasets import load_dataset ds = load_dataset("sonalkum/MMAU-Pro")
评估代码
bash python evaluate_mmau_pro_comprehensive.py test.parquet --model_output_column model_output
引用格式
bibtex @article{kumar2025mmau, title={MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence}, author={Kumar, Sonal and Sedl{a}{v{c}}ek, {v{S}}imon and Lokegaonkar, Vaibhavi and L{o}pez, Fernando and Yu, Wenyi and Anand, Nishit and Ryu, Hyeonggon and Chen, Lichang and Pli{v{c}}ka, Maxim and Hlav{a}{v{c}}ek, Miroslav and others}, journal={arXiv preprint arXiv:2508.13992}, year={2025} }




