MDAR
收藏arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://github.com/luckyerr/MDAR
下载链接
链接失效反馈官方服务:
资源简介:
MDAR是一个大规模的数据集,旨在评估音频语言模型在复杂和多场景动态音频推理任务中的推理能力。该数据集包含3000个精心策划的问题-答案对,与各种音频剪辑相关联,涵盖了五个复杂推理类别,涉及三种问题类型。MDAR通过三个主要步骤构建,包括信息准备、提示输入和人工筛选,以确保数据质量。该数据集对模型在感知、理解和高级推理能力方面的要求极高,是音频推理研究领域的一个有价值的基准。
MDAR is a large-scale dataset designed to evaluate the reasoning capabilities of audio language models on complex and multi-scenario dynamic audio reasoning tasks. This dataset contains 3,000 carefully curated question-answer pairs associated with various audio clips, covering five complex reasoning categories and involving three types of questions. MDAR is constructed through three main steps, including information preparation, prompt crafting, and manual filtering, to ensure data quality. This dataset imposes extremely high demands on models' perception, comprehension, and advanced reasoning capabilities, making it a valuable benchmark in the field of audio reasoning research.
提供机构:
复旦大学
创建时间:
2025-09-26
原始信息汇总
MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark
基本信息
- 标题: MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark
- arXiv ID: arXiv:2509.22461
- 提交日期: 2025年9月26日
- 学科分类: Sound (cs.SD); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)
- 作者: Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
数据集概述
MDAR是一个用于评估复杂、多场景和动态演化音频推理任务的基准测试。该基准测试包含3,000个精心策划的问题-答案对,这些对与多样化的音频片段相关联,涵盖五类复杂推理任务和三种问题类型。
核心特征
- 音频类型: 包括语音、副语言线索、环境声音和音乐
- 场景特点: 多场景动态音频环境,涉及多个说话者、展开事件和异构音频源的交互
- 问题类型: 三种问题类型(单选、多选和开放式问题)
- 规模: 3,000个问题-答案对
评估结果
在26个最先进的音频语言模型上的基准测试显示:
- 单选问题: Qwen2.5-Omni(开源)达到76.67%准确率,GPT-4o Audio(闭源)达到68.47%
- 多选和开放式问题: GPT-4o Audio显著优于Qwen2.5-Omni
- 整体表现: 在所有三种问题类型中,没有模型达到80%的性能
技术细节
- 论文页数: 25页
- 图表数量: 7个图表
- 资源链接: https://doi.org/10.48550/arXiv.2509.22461
搜集汇总
数据集介绍

构建方式
在音频推理研究领域,构建能够反映真实世界复杂性的数据集面临诸多挑战。MDAR数据集通过精心设计的三阶段构建流程实现高质量数据采集:首先从500部涵盖多元题材的中国电影中随机裁剪20-40秒音频片段,确保场景的开放性和高熵特性;继而采用FunASR进行语音识别,结合Gemini-2.5-pro和Qwen2.5-VL生成多模态描述,为问题构建奠定基础;最后通过专家标注与多轮筛选机制,确保3000个问答对在语义一致性和推理深度上达到研究级标准。
特点
作为多场景动态音频推理基准,MDAR展现出三个显著特征:其任务设计覆盖场景理解、社交关系推理、事件推理、时序推理及异常检测五大认知维度,全面评估模型的复合推理能力;问题形式创新性地融合单选、多选和开放式问答三种类型,其中多音频多选题系首次提出,有效模拟真实环境中的跨模态信息整合;音频片段平均时长达到25.11秒,远超同类基准的片段长度,为动态事件演进和复杂情境建模提供充分时序上下文。
使用方法
该数据集支持三种标准化评估范式:对于单选任务采用精确匹配度指标,通过正则表达式自动提取模型输出中的选项标识;开放性问题引入大型语言模型作为自动评估器,从有用性、相关性、准确性和全面性四个维度进行0-10分制评分;多选任务则综合精确匹配、杰卡德系数、平均精确率和平均召回率四项指标,全面衡量模型在复杂选项组合下的推理性能。评估时需注意保持提示词一致性,并通过多次评估降低随机性影响。
背景与挑战
背景概述
MDAR(多场景动态音频推理基准)由复旦大学与上海交通大学等机构于2025年联合创建,旨在解决现有音频基准在复杂动态场景下的局限性。该数据集聚焦于多说话者交互、异构音频源融合及动态事件演化的核心研究问题,通过3000个高质量音频-问答对覆盖场景理解、社会关系推理等五大认知维度。其创新性地引入多音频多选题与开放式问答形式,显著推动了音频语言模型在真实环境中的推理能力评估,为自动驾驶、智能家居等领域的音频理解技术提供了关键基准支撑。
当前挑战
MDAR针对动态多场景音频推理的领域挑战,要求模型处理重叠语音、时序事件关联及跨场景语义整合等复杂问题。构建过程中面临多重挑战:需从500部电影中提取高熵长时序音频片段,确保叙事因果性与场景多样性;通过半自动生成与人工标注结合实现多轮质量校验,解决语义歧义与逻辑一致性难题;在干扰项设计中平衡欺骗性与合理性,同时需克服多说话人分离与跨模态描述对齐的技术瓶颈。
常用场景
经典使用场景
在音频语言模型评估领域,MDAR数据集作为多场景动态音频推理基准,主要用于系统评估模型在复杂动态环境下的音频理解与推理能力。该数据集通过精心设计的3000个问答对,覆盖场景理解、社会关系推理、事件推理、时间推理及异常检测五大任务类别,为研究人员提供了全面衡量模型在真实世界多源音频交互场景中表现的标准平台。
解决学术问题
MDAR数据集有效解决了传统音频基准在动态多场景推理评估上的局限性。通过引入长时序音频片段与多说话者交互场景,该数据集突破了静态单场景评估的瓶颈,为研究社区提供了探索模型在复杂因果推理、时序建模和跨模态整合等方面能力的实验基础。其创新的多音频多选题设计更开创了音频推理评估的新范式,显著推动了音频语言模型在认知层次上的研究进展。
衍生相关工作
基于MDAR数据集的创新特性,研究社区已衍生出多项重要工作。Audio-Reasoner等项目通过引入结构化思维链技术深化了音频推理能力;DeSTA2.5-Audio等模型借鉴其多场景评估理念,发展了通用的音频语言模型架构;同时,该数据集还催生了针对多音频交互推理的专门化模型优化方法,为后续音频推理研究提供了丰富的技术路线和评估标准。
以上内容由遇见数据集搜集并总结生成



