m-a-p/MusicTheoryBench
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/MusicTheoryBench
下载链接
链接失效反馈官方服务:
资源简介:
MusicTheoryBench是一个基准测试,旨在评估当前大型语言模型在音乐理解方面的高级能力。数据集包含372个多项选择题,分为音乐知识和音乐推理两个子集。音乐知识子集涵盖东西方音乐的30个主题,如音符、节奏、和弦等,难度对应高中和大学音乐专业学生水平。音乐推理子集的问题需要音乐知识和推理能力,涉及和弦、旋律、音阶、节奏等的详细分析和多步逻辑推理。数据集由专业音乐教师根据大学教材和考试试卷制作,经过多轮讨论和审查,并包含中英文版本。
MusicTheoryBench是一个基准测试,旨在评估当前大型语言模型在音乐理解方面的高级能力。数据集包含372个多项选择题,分为音乐知识和音乐推理两个子集。音乐知识子集涵盖东西方音乐的30个主题,如音符、节奏、和弦等,难度对应高中和大学音乐专业学生水平。音乐推理子集的问题需要音乐知识和推理能力,涉及和弦、旋律、音阶、节奏等的详细分析和多步逻辑推理。数据集由专业音乐教师根据大学教材和考试试卷制作,经过多轮讨论和审查,并包含中英文版本。
提供机构:
m-a-p
原始信息汇总
数据集概述
数据集信息
特征
- id: 数据类型为
int64。 - instruction: 数据类型为
string。 - stem: 数据类型为
string。 - options: 结构化数据,包含以下字段:
- A: 数据类型为
string。 - B: 数据类型为
string。 - C: 数据类型为
string。 - D: 数据类型为
string。
- A: 数据类型为
- subject: 数据类型为
string。 - answer: 数据类型为
string。 - split: 数据类型为
string。 - abc_score: 数据类型为
string。 - analysis: 数据类型为
string。
数据分割
- dev: 包含 5 个样本,大小为 2599.489247311828 字节。
- test: 包含 367 个样本,大小为 190802.51075268816 字节。
数据集大小
- 下载大小: 0 字节。
- 数据集大小: 193402.0 字节。
配置
- default: 包含以下数据文件:
- dev: 路径为
data/dev-*。 - test: 路径为
data/test-*。
- dev: 路径为
数据集结构
MusicTheoryBench 包含 372 个问题,格式为多项选择题,每个问题有 4 个选项,其中只有一个正确答案。数据集分为两部分:
- 音乐知识子集: 包含 269 个问题,涵盖东、西方音乐的各个方面。
- 音乐推理子集: 包含 98 个问题,需要音乐知识和推理能力。
语言
MusicTheoryBench 主要包含英语。
搜集汇总
数据集介绍

构建方式
MusicTheoryBench数据集的构建,是在一位专业大学音乐教师的指导下,依据大学级别的教材和试卷精心设计而成的。内容经过音乐家团队的多次讨论和审核,选取了合适的问题,并手工编译成JSON和ABC记谱法格式,然后将其标记为音乐知识和音乐推理两个子集,确保了数据集的质量和准确性。
特点
该数据集的特点在于,它包含372个多项选择题,旨在评估大型语言模型在音乐理解和推理方面的高级能力。题目涵盖了东西方音乐的各个方面,包括音符、节奏、和声、对位法、配器等30个主题,并且按照高中和大学音乐专业学生的水平设计不同难度的问题。此外,数据集有一半的问题是以中文提供的,体现了其跨语言的应用能力。
使用方法
使用MusicTheoryBench数据集时,用户可以通过Hugging Face的datasets库轻松加载。数据集分为开发集和测试集,便于进行模型训练和评估。此外,评估代码将在未来几周内提供,以便研究者和开发者能够进一步测试和改进他们的音乐理解模型。
背景与挑战
背景概述
MusicTheoryBench数据集,由MAP团队创建于2024年,旨在评估大型语言模型在音乐理解方面的高级能力。该数据集的构建,立足于当前音乐信息检索领域的显著进展,但针对高级音乐理解能力定义不清的问题,明确了音乐知识与音乐推理两个关键要素。MusicTheoryBench包含372个多项选择题,覆盖了东西方音乐知识,包括音符、节奏、和声、对位法、配器等30个主题,并针对音乐专业高中生和大学生水平设计了不同难度的问题。此数据集在音乐理解研究领域具有引领作用,为评估LLM模型的音乐理解和推理能力提供了重要基准。
当前挑战
在构建MusicTheoryBench数据集的过程中,研究团队面临着确保问题质量与一致性的挑战,这要求问题必须经过音乐专家的精心设计与多轮评审。此外,数据集在语言上的多样性(中英双语)也带来了翻译和校对的挑战。在应用层面,如何准确评估模型在音乐理解和推理上的表现,以及处理perplexity模式和直接生成模式之间的性能差异,是该数据集面临的另一个挑战。
常用场景
经典使用场景
在当前音乐信息检索领域,MusicTheoryBench作为一项评估指标,旨在衡量大型语言模型在高级音乐理解能力方面的表现。该数据集以多项选择题的形式,涵盖了音乐知识和音乐推理两大领域,为研究者在音乐理解领域提供了一个标准的评估平台。
实际应用
在实际应用中,MusicTheoryBench能够辅助音乐教育,为教师和学生提供一种评估音乐理解和知识水平的工具。同时,它也可用于开发智能音乐辅助系统,提升音乐创作、教学和研究的效率。
衍生相关工作
基于MusicTheoryBench,已经衍生出相关的研究工作,如ChatMusician项目,它利用MusicTheoryBench对语言模型的音乐理解能力进行评估,并进一步探索了大型语言模型在音乐理解和生成方面的潜力。
以上内容由遇见数据集搜集并总结生成



