m-a-p/MusicTheoryBench

Name: m-a-p/MusicTheoryBench
Creator: m-a-p
Published: 2024-03-01 12:48:05
License: 暂无描述

Hugging Face2024-03-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/MusicTheoryBench

下载链接

链接失效反馈

官方服务：

资源简介：

MusicTheoryBench是一个基准测试，旨在评估当前大型语言模型在音乐理解方面的高级能力。数据集包含372个多项选择题，分为音乐知识和音乐推理两个子集。音乐知识子集涵盖东西方音乐的30个主题，如音符、节奏、和弦等，难度对应高中和大学音乐专业学生水平。音乐推理子集的问题需要音乐知识和推理能力，涉及和弦、旋律、音阶、节奏等的详细分析和多步逻辑推理。数据集由专业音乐教师根据大学教材和考试试卷制作，经过多轮讨论和审查，并包含中英文版本。

提供机构：

m-a-p

原始信息汇总

数据集概述

数据集信息

特征

id: 数据类型为 int64。
instruction: 数据类型为 string。
stem: 数据类型为 string。
options: 结构化数据，包含以下字段：
- A: 数据类型为 string。
- B: 数据类型为 string。
- C: 数据类型为 string。
- D: 数据类型为 string。
subject: 数据类型为 string。
answer: 数据类型为 string。
split: 数据类型为 string。
abc_score: 数据类型为 string。
analysis: 数据类型为 string。

数据分割

dev: 包含 5 个样本，大小为 2599.489247311828 字节。
test: 包含 367 个样本，大小为 190802.51075268816 字节。

数据集大小

下载大小: 0 字节。
数据集大小: 193402.0 字节。

配置

default: 包含以下数据文件：
- dev: 路径为 data/dev-*。
- test: 路径为 data/test-*。

数据集结构

MusicTheoryBench 包含 372 个问题，格式为多项选择题，每个问题有 4 个选项，其中只有一个正确答案。数据集分为两部分：

音乐知识子集: 包含 269 个问题，涵盖东、西方音乐的各个方面。
音乐推理子集: 包含 98 个问题，需要音乐知识和推理能力。

语言

MusicTheoryBench 主要包含英语。

搜集汇总

数据集介绍

构建方式

MusicTheoryBench数据集的构建，是在一位专业大学音乐教师的指导下，依据大学级别的教材和试卷精心设计而成的。内容经过音乐家团队的多次讨论和审核，选取了合适的问题，并手工编译成JSON和ABC记谱法格式，然后将其标记为音乐知识和音乐推理两个子集，确保了数据集的质量和准确性。

特点

该数据集的特点在于，它包含372个多项选择题，旨在评估大型语言模型在音乐理解和推理方面的高级能力。题目涵盖了东西方音乐的各个方面，包括音符、节奏、和声、对位法、配器等30个主题，并且按照高中和大学音乐专业学生的水平设计不同难度的问题。此外，数据集有一半的问题是以中文提供的，体现了其跨语言的应用能力。

使用方法

使用MusicTheoryBench数据集时，用户可以通过Hugging Face的datasets库轻松加载。数据集分为开发集和测试集，便于进行模型训练和评估。此外，评估代码将在未来几周内提供，以便研究者和开发者能够进一步测试和改进他们的音乐理解模型。

背景与挑战

背景概述

MusicTheoryBench数据集，由MAP团队创建于2024年，旨在评估大型语言模型在音乐理解方面的高级能力。该数据集的构建，立足于当前音乐信息检索领域的显著进展，但针对高级音乐理解能力定义不清的问题，明确了音乐知识与音乐推理两个关键要素。MusicTheoryBench包含372个多项选择题，覆盖了东西方音乐知识，包括音符、节奏、和声、对位法、配器等30个主题，并针对音乐专业高中生和大学生水平设计了不同难度的问题。此数据集在音乐理解研究领域具有引领作用，为评估LLM模型的音乐理解和推理能力提供了重要基准。

当前挑战

在构建MusicTheoryBench数据集的过程中，研究团队面临着确保问题质量与一致性的挑战，这要求问题必须经过音乐专家的精心设计与多轮评审。此外，数据集在语言上的多样性（中英双语）也带来了翻译和校对的挑战。在应用层面，如何准确评估模型在音乐理解和推理上的表现，以及处理perplexity模式和直接生成模式之间的性能差异，是该数据集面临的另一个挑战。

常用场景

经典使用场景

在当前音乐信息检索领域，MusicTheoryBench作为一项评估指标，旨在衡量大型语言模型在高级音乐理解能力方面的表现。该数据集以多项选择题的形式，涵盖了音乐知识和音乐推理两大领域，为研究者在音乐理解领域提供了一个标准的评估平台。

实际应用

在实际应用中，MusicTheoryBench能够辅助音乐教育，为教师和学生提供一种评估音乐理解和知识水平的工具。同时，它也可用于开发智能音乐辅助系统，提升音乐创作、教学和研究的效率。

衍生相关工作

基于MusicTheoryBench，已经衍生出相关的研究工作，如ChatMusician项目，它利用MusicTheoryBench对语言模型的音乐理解能力进行评估，并进一步探索了大型语言模型在音乐理解和生成方面的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集