MMAR

Name: MMAR
Creator: 上海交通大学、南洋理工大学、伦敦玛丽女王大学、字节跳动、上海创新研究院、清华大学、中国科学院大学、2023AI、香港科技大学、德克萨斯大学奥斯汀分校
Published: 2025-05-19 20:18:42
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/ddlBoJack/MMAR

下载链接

链接失效反馈

官方服务：

资源简介：

MMAR是一个新的基准，旨在评估音频语言模型（ALM）在大量多学科任务中的深度推理能力。MMAR由1000个精心策划的音频-问答三元组组成，从现实世界的互联网视频中收集，并通过迭代错误校正和质量检查进行精炼，以确保高质量。与现有仅限于声音、音乐或特定领域语音的基准不同，MMAR将它们扩展到广泛的真实世界音频场景，包括声音、音乐和语音的混合模式组合。MMAR中的每个问题都按四个推理层进行分层分类：信号、感知、语义和文化，每个层中还有额外的子类别，以反映任务的多样性和复杂性。为了进一步促进该领域的研究，我们用思维链（CoT）推理为每个问题进行注释，以促进未来在音频推理方面的进步。基准中的每个项目都要求进行多步深度推理，超越表面理解。此外，部分问题需要研究生水平的感知和特定领域的知识，从而提高了基准的难度和深度。我们使用广泛的模型评估了MMAR，包括大型音频语言模型（LALM）、大型音频推理模型（LARM）、全能语言模型（OLM）、大型语言模型（LLM）和大型推理模型（LRM），并使用音频标题输入。这些模型在MMAR上的性能突显了基准的挑战性，我们的分析进一步揭示了当前模型在理解和推理能力方面的关键局限性。这些发现强调了在音频语言推理方面进行更多研究的紧迫性，包括数据和算法创新。我们希望MMAR将成为未来在这个重要但探索较少的领域取得进展的催化剂。

MMAR is a novel benchmark designed to evaluate the deep reasoning capabilities of Audio Language Models (ALMs) across a wide range of multidisciplinary tasks. MMAR consists of 1,000 carefully curated audio-QA triples collected from real-world internet videos, and refined through iterative error correction and quality assurance to ensure high quality. In contrast to existing benchmarks limited to sound, music, or domain-specific speech, MMAR expands their scopes to a broad array of real-world audio scenarios, including mixed combinations of sound, music, and speech modalities. Each question in MMAR is hierarchically categorized into four reasoning layers: signal, perceptual, semantic, and cultural, with additional subcategories under each layer to reflect the diversity and complexity of the tasks. To further promote research in this field, we annotated every question with Chain-of-Thought (CoT) reasoning to facilitate future advancements in audio-based reasoning. Each item in the benchmark requires multi-step deep reasoning that surpasses surface-level comprehension. Additionally, some questions demand graduate-level perceptual and domain-specific knowledge, thereby elevating the benchmark's difficulty and depth. We evaluated MMAR using a diverse set of models, including Large Audio Language Models (LALMs), Large Audio Reasoning Models (LARMs), Omnipotent Language Models (OLMs), Large Language Models (LLMs), and Large Reasoning Models (LRMs), with audio caption inputs. The performance of these models on MMAR highlights the benchmark's challenging nature, and our analysis further uncovers critical limitations in current models' comprehension and reasoning capabilities. These findings underscore the urgency of further research in audio-language reasoning, including data and algorithmic innovations. We hope that MMAR will serve as a catalyst for future progress in this important yet under-explored field.

提供机构：

上海交通大学、南洋理工大学、伦敦玛丽女王大学、字节跳动、上海创新研究院、清华大学、中国科学院大学、2023AI、香港科技大学、德克萨斯大学奥斯汀分校

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

MMAR数据集的构建采用了严谨的五阶段流程，包括专家头脑风暴、分层分类法构建、启发式人工标注、原始数据准备以及数据质量检查。专家团队通过多轮头脑风暴会议收集广泛的认知片段和推理草图，随后利用LLM与专家协作构建了从抽象到具体的任务层次分类法。标注人员基于分类法搜索相关互联网视频并手动标注每个数据实例，包括视频URL、时间戳、问题、答案、思维链、音频模态、任务类别和子类别等。最终通过专业数据标注平台进行多轮质量检查，确保数据的高质量和可靠性。

特点

MMAR数据集包含1000个精心策划的音频-问题-答案三元组，覆盖声音、音乐、语音及其混合模态的广泛真实场景。每个问题被分层归类到四个推理层级：信号层、感知层、语义层和文化层，并在每个层级内进一步细分以反映任务的多样性和复杂性。此外，每个问题都标注了思维链（CoT）推理过程，以促进音频推理研究的未来发展。数据集特别强调多步深度推理，部分问题甚至需要研究生水平的感知和领域专业知识，显著提升了基准的难度和深度。

使用方法

MMAR数据集的使用方法主要围绕评估音频-语言模型（ALMs）的深度推理能力展开。用户可以将音频、问题和选项输入模型，评估模型选择正确选项的能力。评估采用分类准确率作为指标，通过正则表达式和字符串匹配比较模型预测与真实答案。对于具有显式推理链的模型，仅评估最终预测答案以确保公平性。数据集支持多种模型评估，包括大型音频语言模型（LALMs）、大型音频推理模型（LARMs）、全能语言模型（OLMs）、大型语言模型（LLMs）和大型推理模型（LRMs），适用于广泛的音频推理研究场景。

背景与挑战

背景概述

MMAR（Massive Multi-disciplinary Audio Reasoning）是由上海交通大学、南洋理工大学、伦敦玛丽女王大学等机构的研究团队于2025年提出的音频-语言多模态推理基准。该数据集包含1,000个经过专家严格筛选的音频-问题-答案三元组，覆盖声音、音乐、语音及其混合模态的七种真实场景。其创新性在于构建了信号层、感知层、语义层和文化层的四层推理分类体系，每个问题均标注思维链（Chain-of-Thought）以促进可解释性研究。作为首个专注于音频深度推理的基准，MMAR通过跨学科任务设计（如声学物理计算、音乐理论分析、跨模态语义推理等），推动了音频语言模型在逻辑推理和领域知识融合方面的研究进展。

当前挑战

MMAR面临的核心挑战体现在两个维度：在领域问题层面，需解决混合模态音频的联合推理难题，例如同时处理语音内容识别（语义层）与背景音乐情感分析（文化层）的交互；在构建过程中，需克服多模态数据对齐的复杂性——包括精确标注音频片段的物理属性（如声波频率）、确保跨文化语境的问题普适性，以及消除文本先验偏差。实验表明，当前最优模型在需研究生级别领域知识的问题上准确率不足60%，尤其在音乐理论推理（平均23.3%准确率）和声学信号分析（26.6%）任务中表现薄弱，凸显了音频深度推理在细粒度感知与多步逻辑推演方面的技术瓶颈。

常用场景

经典使用场景

MMAR数据集作为音频-语言模型（ALMs）深度推理能力的评估基准，广泛应用于跨学科任务中。其精心设计的1000个音频-问题-答案三元组覆盖了声音、音乐、语音及其混合模态的真实场景，尤其适合测试模型在信号层、感知层、语义层和文化层的多层级推理能力。例如，模型需通过金属尺振动频率推断最长延伸长度，或结合自由落体时间与回声计算井深，展现了从低阶声学特征分析到高阶文化语境理解的综合挑战。

衍生相关工作

MMAR催生了多个音频推理领域的创新研究，如基于思维链增强的Audio-CoT模型、融合强化学习的Audio-Reasoner架构，以及通用多模态模型Qwen-2.5-Omni的音频适配版本。这些工作通过引入渐进式对齐、推理专用数据集CoTA等技术，显著提升了模型在混合模态任务（如语音-音乐联合分析）中的表现。此外，数据集的设计理念影响了后续基准如AIR-Bench对真实场景复杂度的重视。

数据集最近研究