five

m-a-p/MusicTheoryBench

收藏
Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/MusicTheoryBench
下载链接
链接失效反馈
官方服务:
资源简介:
MusicTheoryBench是一个基准测试,旨在评估当前大型语言模型在音乐理解方面的高级能力。数据集包含372个多项选择题,分为音乐知识和音乐推理两个子集。音乐知识子集涵盖东西方音乐的30个主题,如音符、节奏、和弦等,难度对应高中和大学音乐专业学生水平。音乐推理子集的问题需要音乐知识和推理能力,涉及和弦、旋律、音阶、节奏等的详细分析和多步逻辑推理。数据集由专业音乐教师根据大学教材和考试试卷制作,经过多轮讨论和审查,并包含中英文版本。

MusicTheoryBench是一个基准测试,旨在评估当前大型语言模型在音乐理解方面的高级能力。数据集包含372个多项选择题,分为音乐知识和音乐推理两个子集。音乐知识子集涵盖东西方音乐的30个主题,如音符、节奏、和弦等,难度对应高中和大学音乐专业学生水平。音乐推理子集的问题需要音乐知识和推理能力,涉及和弦、旋律、音阶、节奏等的详细分析和多步逻辑推理。数据集由专业音乐教师根据大学教材和考试试卷制作,经过多轮讨论和审查,并包含中英文版本。
提供机构:
m-a-p
原始信息汇总

数据集概述

数据集信息

特征

  • id: 数据类型为 int64
  • instruction: 数据类型为 string
  • stem: 数据类型为 string
  • options: 结构化数据,包含以下字段:
    • A: 数据类型为 string
    • B: 数据类型为 string
    • C: 数据类型为 string
    • D: 数据类型为 string
  • subject: 数据类型为 string
  • answer: 数据类型为 string
  • split: 数据类型为 string
  • abc_score: 数据类型为 string
  • analysis: 数据类型为 string

数据分割

  • dev: 包含 5 个样本,大小为 2599.489247311828 字节。
  • test: 包含 367 个样本,大小为 190802.51075268816 字节。

数据集大小

  • 下载大小: 0 字节。
  • 数据集大小: 193402.0 字节。

配置

  • default: 包含以下数据文件:
    • dev: 路径为 data/dev-*
    • test: 路径为 data/test-*

数据集结构

MusicTheoryBench 包含 372 个问题,格式为多项选择题,每个问题有 4 个选项,其中只有一个正确答案。数据集分为两部分:

  • 音乐知识子集: 包含 269 个问题,涵盖东、西方音乐的各个方面。
  • 音乐推理子集: 包含 98 个问题,需要音乐知识和推理能力。

语言

MusicTheoryBench 主要包含英语。

搜集汇总
数据集介绍
main_image_url
构建方式
MusicTheoryBench数据集的构建,是在一位专业大学音乐教师的指导下,依据大学级别的教材和试卷精心设计而成的。内容经过音乐家团队的多次讨论和审核,选取了合适的问题,并手工编译成JSON和ABC记谱法格式,然后将其标记为音乐知识和音乐推理两个子集,确保了数据集的质量和准确性。
特点
该数据集的特点在于,它包含372个多项选择题,旨在评估大型语言模型在音乐理解和推理方面的高级能力。题目涵盖了东西方音乐的各个方面,包括音符、节奏、和声、对位法、配器等30个主题,并且按照高中和大学音乐专业学生的水平设计不同难度的问题。此外,数据集有一半的问题是以中文提供的,体现了其跨语言的应用能力。
使用方法
使用MusicTheoryBench数据集时,用户可以通过Hugging Face的datasets库轻松加载。数据集分为开发集和测试集,便于进行模型训练和评估。此外,评估代码将在未来几周内提供,以便研究者和开发者能够进一步测试和改进他们的音乐理解模型。
背景与挑战
背景概述
MusicTheoryBench数据集,由MAP团队创建于2024年,旨在评估大型语言模型在音乐理解方面的高级能力。该数据集的构建,立足于当前音乐信息检索领域的显著进展,但针对高级音乐理解能力定义不清的问题,明确了音乐知识与音乐推理两个关键要素。MusicTheoryBench包含372个多项选择题,覆盖了东西方音乐知识,包括音符、节奏、和声、对位法、配器等30个主题,并针对音乐专业高中生和大学生水平设计了不同难度的问题。此数据集在音乐理解研究领域具有引领作用,为评估LLM模型的音乐理解和推理能力提供了重要基准。
当前挑战
在构建MusicTheoryBench数据集的过程中,研究团队面临着确保问题质量与一致性的挑战,这要求问题必须经过音乐专家的精心设计与多轮评审。此外,数据集在语言上的多样性(中英双语)也带来了翻译和校对的挑战。在应用层面,如何准确评估模型在音乐理解和推理上的表现,以及处理perplexity模式和直接生成模式之间的性能差异,是该数据集面临的另一个挑战。
常用场景
经典使用场景
在当前音乐信息检索领域,MusicTheoryBench作为一项评估指标,旨在衡量大型语言模型在高级音乐理解能力方面的表现。该数据集以多项选择题的形式,涵盖了音乐知识和音乐推理两大领域,为研究者在音乐理解领域提供了一个标准的评估平台。
实际应用
在实际应用中,MusicTheoryBench能够辅助音乐教育,为教师和学生提供一种评估音乐理解和知识水平的工具。同时,它也可用于开发智能音乐辅助系统,提升音乐创作、教学和研究的效率。
衍生相关工作
基于MusicTheoryBench,已经衍生出相关的研究工作,如ChatMusician项目,它利用MusicTheoryBench对语言模型的音乐理解能力进行评估,并进一步探索了大型语言模型在音乐理解和生成方面的潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作