MUSE Benchmark
收藏arXiv2025-10-22 更新2025-10-24 收录
下载链接:
https://github.com/brandoncarone/MUSE_music_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
MUSE Benchmark是一个开放源代码资源,旨在评估音乐理解和结构评价。它包含了10个任务,分为“入门级”和“高级”两个层次。该数据集的设计基于音乐认知研究,旨在系统地探测音频模型在音乐感知方面的抽象推理能力。数据集包含了200个音乐刺激,每个任务包含20个试验。该数据集的应用领域是评估音乐理解和结构评价,旨在解决音乐模型在音乐理解和推理方面的基本能力问题。
The MUSE Benchmark is an open-source resource developed to evaluate musical understanding and structural assessment. It features 10 tasks divided into two hierarchical levels: "beginner-level" and "advanced-level". Grounded in music cognition research, this benchmark is designed to systematically probe the abstract reasoning abilities of audio models in music perception. The dataset contains 200 musical stimuli, with each task consisting of 20 trials. Its application focuses on evaluating musical understanding and structural assessment, with the core objective of investigating the fundamental capabilities of music models in music understanding and reasoning.
提供机构:
New York University Department of Psychology Music and Audio Research Lab
创建时间:
2025-10-22
原始信息汇总
MUSE音乐理解基准数据集概述
数据集基本信息
- 数据集名称: MUSE Benchmark (Music Understanding and Structural Evaluation)
- 创建目的: 系统评估多模态大语言模型的音乐感知和听觉关系推理能力
- 论文状态: 已提交ICASSP 2025
- 数据集规模: 10个任务,约200个原创音乐刺激
核心评估内容
基础任务(核心感知与不变性)
- 乐器识别: 基于音色识别乐器类型
- 旋律形状识别: 识别旋律的整体形状(上升/下降等)
- 异常音检测: 检测旋律中的离调音符
- 节奏匹配: 判断两个节奏序列是否相同
- 音高偏移检测: 检测旋律是否发生音高偏移
高级任务(音乐理论技能)
- 和弦性质识别: 识别和弦性质(大调/小调)
- 调性转换检测: 检测是否发生调性变化
- 和弦序列匹配: 判断两个和弦序列是否功能匹配
- 切分音比较: 判断哪个节奏更具切分感
- 节拍识别: 识别基础节拍分组
评估结果摘要
- 评估模型: Gemini Pro、Gemini Flash、Qwen2.5-Omni、Audio Flamingo 3
- 人类基线: N=200
- 关键发现:
- 模型性能存在显著差异
- 部分模型在关键任务上表现低于随机水平
- 所有模型在音乐理论任务上均显著落后于人类专家
- 思维链提示效果不稳定
- 上下文学习效果与人类学习模式不同
数据集结构
- 刺激文件: WAV格式音频文件,存储在stimuli/目录
- 评估脚本: 针对不同模型的运行器脚本
- 日志文件: 遵循特定命名规范的评估日志
使用许可
- 代码许可: MIT许可证
- 数据许可: 仅限非商业研究和教育用途
- 禁止商业使用
- 仅可用于模型测试,不可用于训练
- 学术使用需引用相关论文
引用格式
@misc{carone2025musebenchmarkprobingmusic, title={The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS}, author={Brandon James Carone and Iran R. Roman and Pablo Ripollés}, year={2025}, eprint={2510.19055}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2510.19055}, }
搜集汇总
数据集介绍

构建方式
在音乐认知研究基础上,MUSE基准数据集通过专业音乐制作流程构建了200个音乐刺激样本。采用Logic Pro X数字音频工作站配合专业录音设备,包括Apollo Twin X音频接口、Yamaha HS8监听音箱及多种专业乐器音源,确保音频素材的声学品质。所有刺激样本平均时长为14.1秒,涵盖钢琴、吉他、贝斯和鼓组等核心乐器音色,通过精心设计的音乐理论规则生成具有明确音乐结构特征的听觉材料。
特点
该数据集具有层次化任务设计特征,分为初级与高级两个层级,系统评估音乐感知的核心维度。初级任务聚焦基础听觉能力,包括乐器识别、旋律轮廓辨识和节奏匹配等非音乐专业人士普遍具备的感知技能;高级任务则深入音乐理论层面,涵盖和弦性质判别、调性转换检测和节拍识别等需要专业训练的音乐认知能力。每个任务包含20个标准化试次,通过严格控制的声音参数确保评估的可靠性与有效性。
使用方法
数据集采用标准化评估流程,为四个前沿模型设计定制化推理脚本,在独立提示和思维链提示两种条件下进行系统测试。评估过程充分考虑模型特性,对仅支持单音频输入的模型采用语音提示分隔的串联处理方式。通过三次不同随机种子的重复实验获取稳定性能指标,同时收集200名人类参与者的基线数据作为参照。所有实验材料通过PsyToolbox平台实施,确保人类与机器评估条件的一致性。
背景与挑战
背景概述
音乐理解与结构评估基准(MUSE Benchmark)由纽约大学心理学系与伦敦玛丽女王大学的研究团队于2025年联合推出,旨在系统评估多模态大语言模型在音乐感知与听觉关系推理中的核心能力。该基准基于音乐认知科学理论框架,设计了涵盖基础感知与高级乐理技能的十项任务,通过对比人类专家与前沿模型的性能表现,揭示了当前音频模型在抽象音乐表征学习中的局限性。其创新性在于将认知心理学实验范式引入人工智能评估体系,为构建具有深层音乐理解能力的智能系统提供了理论基石与实践工具。
当前挑战
MUSE基准面临双重挑战:在领域问题层面,需解决多模态大语言模型对音乐关系推理的固有缺陷,如旋律轮廓识别、和弦功能感知等抽象认知任务中表现出的系统性薄弱;在构建过程中,需克服音乐刺激材料的生态效度平衡难题,既要保证声学特征的精确控制,又需维持真实音乐作品的复杂性与多样性。同时,模型评估环节存在技术瓶颈,包括跨模型输入规范统一、提示策略稳定性验证,以及人类基线数据与机器性能的跨模态可比性校准等问题。
常用场景
经典使用场景
在音乐认知与人工智能交叉研究领域,MUSE基准测试作为评估音频大语言模型音乐感知能力的标准化工具,其经典应用场景主要集中于系统化测评模型对音乐结构要素的抽象理解能力。该数据集通过10个精心设计的任务,涵盖从基础音色识别到复杂和声分析等多个维度,为研究者提供了量化模型音乐认知水平的统一框架。在音乐信息检索和计算音乐学研究中,该数据集成为验证模型是否真正掌握音乐内在规律而非表面特征的重要试金石。
解决学术问题
该数据集有效解决了当前音乐人工智能研究中的核心难题——如何区分模型的表层特征学习与深层音乐结构理解。通过对比人类专家与模型的性能差异,揭示了现有音频大语言模型在音高不变性旋律识别、和声功能感知等关键音乐认知任务上的本质缺陷。其重要意义在于突破了传统音乐分类任务仅评估表面准确率的局限,推动了音乐人工智能从模式匹配向真正音乐理解的理论转型,为构建具有人类水平音乐感知能力的智能系统确立了新的研究方向。
衍生相关工作
基于MUSE基准测试的启发,学术界已衍生出多个重要研究方向。在模型架构创新方面,研究者开始探索专门针对音乐关系推理的神经网络结构,如引入音乐理论先验的注意力机制。在训练范式上,出现了模拟人类音乐学习过程的渐进式训练方法,强调从基础感知到高级认知的技能递进。此外,该数据集还催生了针对特定音乐认知任务的专项评测基准,如扩展的跨文化音乐理解评估和实时音乐交互能力测试,共同推动着音乐人工智能向更深层次发展。
以上内容由遇见数据集搜集并总结生成



