ABC-Eval

Name: ABC-Eval
Creator: 复旦大学计算机科学与人工智能学院, 日本京都大学信息学院, 日本京都大学工程学院
Published: 2025-09-27 22:56:20
License: 暂无描述

arXiv2025-09-27 更新2025-10-01 收录

下载链接：

https://anonymous.4open.science/r/ABC-Eval-B622

下载链接

链接失效反馈

官方服务：

资源简介：

ABC-Eval是一个用于评估文本型大型语言模型在符号音乐理解和指令跟随能力方面的开源基准。该基准使用ABC符号作为输入格式，包含10个子任务，共1086个测试样本，涵盖从基本音乐语法理解到复杂序列级推理的各类场景。数据集由Nottingham音乐数据集和IrishMAN数据集的ABC乐谱构建而成，旨在促进文本型符号音乐理解领域的研究进展。

提供机构：

复旦大学计算机科学与人工智能学院, 日本京都大学信息学院, 日本京都大学工程学院

创建时间：

2025-09-27

原始信息汇总

ABC-Eval 数据集概述

数据集基本信息

数据集名称: ABC-Eval
最后更新: 2025年9月27日
测试样本数量: 1,086个
子任务数量: 10个

数据集来源

本基准汇总了5个公共数据集：

数据集名称	相关文件	许可证类型	引用文献	URL
EMOPIA	Emotion_Recognition.csv	CC BY-NC-SA 4.0	H. Hung, J. Ching, S. Doh, N. Kim, J. Nam, and Y. Yang, "EMOPIA: A multi-modal pop piano dataset for emotion recognition and emotion-based music generation," ISMIR 2021, pp. 318–325.	https://zenodo.org/records/5090631#.YQEZZ1Mzaw5
ADL Piano Midi	Genre_Recognition.csv	CC BY 4.0	L. N. Ferreira, L. H. Lelis, and J. Whitehead, "Computer-generated music for tabletop role-playing games," AIIDE20, 2020	https://github.com/lucasnfe/adl-piano-midi
IrishMAN	Bar_Count_Estimation.csv; Error_Detection.csv	MIT	S. Wu, X. Li, F. Yu, and M. Sun, "Tunesformer: Forming irish tunes with control codes by bar patching," in Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023).	https://huggingface.co/datasets/sander-wood/irishman
Nottingham Music	Metadata_QA.csv; Metadata_Prediction.csv; Next_Bar_Prediction.csv; Bar_Sequencing.csv; Music_Captioning.csv	GNU GPLv3	/	https://github.com/jukedeck/nottingham-dataset
Pianist 8	Composer_Recognition.csv	Open (not mentioned)	Y. Chou, I. Chen, C. Chang, J. Ching, and Y. Yang, "Midibert-piano: Large-scale pre-training for symbolic music understanding," CoRR, vol. abs/2107.05223, 2021.	https://zenodo.org/records/5089279

数据字段描述

所有CSV文件包含以下字段：

title: 原始音乐标题或原始音乐文件名
score: 输入的ABC记谱法乐谱
choices: 多项选择任务和Bar Sequencing任务中的候选选项
target: 非多项选择任务的正确答案
target_index: 正确答案的0索引位置
task_description: 对应子任务的文本描述

特殊字段：

Error Detection子任务的CSV文件额外包含 "error" 字段，描述插入的错误

使用限制

仅限研究使用
禁止商业用途
使用和共享时请严格遵守相应的许可证

提示模板

多项选择任务提示模板：

Input：{input_content} Task：{task_instruction} Options： 0. {options[0]}

{options[1]}
{options[2]}
{options[3]} Please only output the index of the correct option (0, 1, 2, or 3), do not output any additional content.

非多项选择任务提示模板：

Input：{input_content} Task：{task_instruction} Template: {structured_output_template} Please directly output the answer of the given task, without any explanation or additional content.

搜集汇总

数据集介绍

构建方式

在符号音乐理解评估领域，ABC-Eval数据集通过多源异构数据的系统整合构建而成。该数据集以Nottingham音乐数据库和IrishMAN数据集为基础素材，采用规则化方法生成基础语法理解任务样本，并辅以专家人工筛选的高质量乐谱作为错误检测任务的基准。对于情感识别、流派分类等高层语义任务，则从EMOPIA、ADLpiano MIDI等专业数据源获取标注信息，通过先进的MIDI-to-score转换技术将原始MIDI文件转录为ABC记谱格式，最终形成涵盖10个子任务的1086个测试样本。

特点

该数据集最显著的特征在于其层次化的任务设计架构，从基础的ABC记谱法语法解析到复杂的序列级音乐推理，构建了完整的评估维度。其任务设置既包含传统的多项选择题型，也创新性地引入了结构化输出任务，要求模型直接输出乐谱小节序号或情感标签。特别值得注意的是错误检测任务的设计，通过植入五类精心设计的音乐理论违规样本，包括无效元数据、不合理旋律跳跃等专业错误类型，有效检验模型对音乐理论的深层理解能力。

使用方法

使用本数据集时需遵循标准化的评估流程，首先将ABC记谱文本与任务指令按照预设模板组合输入。对于选择题型，模型需直接输出选项索引；对于结构化输出任务，则要求严格遵循给定的输出模板格式。评估过程中应固定温度参数为0以消除随机性影响，并避免使用思维链提示等增强技术以确保公平性。数据集支持准确率、肯德尔τ系数和宏平均F1分数等多维度评估指标，研究者可通过分析模型在不同层级任务上的表现差异，系统评估其符号音乐理解能力。

背景与挑战

背景概述

ABC-Eval数据集由京都大学与复旦大学研究团队于2025年联合推出，聚焦于大语言模型在符号音乐理解与指令跟随能力方面的系统性评估。该数据集采用ABC记谱法作为音乐表征形式，涵盖基础语法解析到复杂序列推理等十个子任务，共包含1086个测试样本。作为首个面向文本大模型的符号音乐理解开源基准，其构建推动了音乐信息检索与人工智能交叉领域的发展，为探索符号音乐的结构化理解提供了重要实验平台。

当前挑战

该数据集致力于解决符号音乐理解领域的核心挑战，包括模型对音乐语法结构的深层解析能力、跨层级音乐语义的连贯性推理，以及复杂指令的精准执行。在构建过程中面临多重技术难点：需通过规则生成与专家标注相结合的方式确保数据质量，处理MIDI到ABC记谱的格式转换一致性，设计涵盖音乐理论与句法错误的多样化任务类型，并建立兼顾精确度与召回率的评估指标体系。

常用场景

经典使用场景

在音乐信息检索领域，ABC-Eval数据集作为首个专注于符号音乐理解的基准测试工具，其经典应用场景体现在系统评估大语言模型对ABC记谱法的解析能力。该数据集通过10个子任务的精心设计，覆盖了从基础语法解析到复杂序列推理的完整评估链条，为研究者提供了标准化的测试平台。在音乐人工智能研究中，这一数据集已成为衡量模型符号音乐处理能力的重要标尺，特别是在跨模态音乐理解任务中发挥着关键作用。

解决学术问题

该数据集有效解决了符号音乐理解研究中长期存在的评估标准缺失问题。通过构建多层次的测试任务体系，它能够系统性地揭示大语言模型在音乐语义推理、情感识别和结构分析等方面的能力边界。在音乐计算理论层面，该数据集填补了文本符号音乐理解评估的空白，为探索音乐语言与自然语言之间的认知关联提供了实证基础。其严谨的任务设计还推动了音乐表示学习领域的方法创新，促进了符号音乐处理技术的标准化发展。

衍生相关工作

该数据集的发布催生了系列重要研究工作。在基准测试方法层面，研究者基于其评估范式开发了更细粒度的音乐理解测评体系；在模型架构设计方面，启发了专门针对符号音乐处理的预训练策略改进。相关衍生工作还拓展到跨模态音乐理解领域，推动了音频-符号联合表示学习技术的发展。同时，该数据集的任务设计理念被多个后续研究借鉴，形成了音乐人工智能领域标准评估方法的演进脉络，持续推动着符号音乐理解技术的创新突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集