ONOTE
收藏arXiv2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/Weisiqing123/ONOTE
下载链接
链接失效反馈官方服务:
资源简介:
ONOTE是由北京邮电大学、中国音乐学院及南洋理工大学联合构建的多模态音乐符号处理基准数据集,旨在解决现有音乐AI模型在跨模态对齐和符号偏见方面的局限性。该数据集包含1120条高质量样本,涵盖标准五线谱、简谱和吉他指法谱三种乐谱体系,数据来源包括MusiXQA和GuitarSet等专业音乐数据库,并经过严格的跨模态清洗与对齐处理。通过规范化音高投影和序列对齐技术,该数据集为评估模型在视觉乐谱理解、跨格式转换、音频转录及符号生成等任务中的表现提供了客观标准,主要应用于音乐信息检索、智能作曲辅助等专业领域。
提供机构:
北京邮电大学; 中国音乐学院; 南洋理工大学
创建时间:
2026-04-23
原始信息汇总
ONOTE 数据集概述
基本信息
- 数据集名称:ONOTE(Omnimodal Notation Objective Topology Examination)
- 许可证:MIT
- 语言:英语、中文
- 数据集规模:1,000 至 10,000 条样本
- 标签:音乐、符号音乐、光学音乐识别、简谱、吉他谱
任务类型
| 任务ID | 任务名称 | 数据来源 |
|---|---|---|
| VSU | 视觉乐谱理解 | *_qa_mcq.json + images |
| CNC | 跨格式转换 | images + metadata.json |
| AST | 音频到符号 | Audio + metadata.json |
| SMG | 符号音乐生成 | all_pitches_summary.json |
数据集结构
1. pitch_Jianpu_dataset(五线谱与简谱)
- 目录:
Audio 0-100/:用于音频到符号转录测试的音频文件images 0-100/:高分辨率五线谱标准记谱图像simple_notation_images 0-100/:简谱图像
- 元数据与问答文件:
jianpu_metadata.json:简谱转录的真实数据staff_metadata.json:五线谱转录的真实数据staff_qa_mcq.json:五线谱视觉推理的多选题jianpu_qa_mcq.json:简谱视觉推理的多选题
2. guitar_dataset(吉他谱)
- 目录:
annotation/:以.jams格式存储的演奏元数据audio/:干净的原声吉他录音images/:ASCII 和标准吉他谱图像simple_notes/:包含吉他谱提取音高序列的 JSON 文件
- 元数据与问答文件:
guitar_qa_mcq.json:吉他谱视觉推理的多选题all_pitches_summary.json:吉他数据集音高分布的全面总结
支持的音乐记谱体系
- 西方五线谱(Western Staff)
- 简谱(Jianpu / Numbered Notation)
- 吉他谱(Guitar Tablature)
应用场景
该基准测试主要用于评估模型在多种音乐记谱体系下的理解能力,涵盖视觉理解、跨格式转换、音频转录以及符号音乐生成等任务。
搜集汇总
数据集介绍

构建方式
ONOTE数据集的构建遵循一个严谨的三阶段流程。首先,从MusiXQA和GuitarSet等数据源中提取初始数据,涵盖五线谱、简谱和吉他指法谱三种记谱法的PNG图像、结构化JSON注释及MIDI对齐文件。随后,对原始数据进行严格的清洗和跨模态对齐,并将其转换为对应的标准格式,如简谱PNG图片和MP3音频。最后,针对每个图像样本,依据其独特的记谱逻辑设计针对性的单选题,最终构建了包含1120个高质量测试样本的评估集。
特点
ONOTE数据集的核心特点在于其多格式、确定性与抗偏倚性。它深度覆盖了标准五线谱、简谱和吉他指法谱三种主流的记谱系统,并通过四个正交的任务轨道(视觉乐谱理解、跨格式记谱转换、音频到符号转录、符号音乐生成)全面评估模型能力。最为关键的是,该数据集采用基于标准音高投影和序列对齐的确定性评估管线,彻底摒弃了主观的“以LLM为裁判”的评分方式,从而消除了系统性评分偏差,能够精确诊断模型在复杂规则约束下的推理漏洞。
使用方法
在使用ONOTE数据集时,研究者需将其应用于全模态大语言模型(OLLMs)的评估流程。具体而言,对于视觉乐谱理解任务,模型需回答基于乐谱图像的视觉问答;跨格式记谱转换任务要求模型将一种记谱法的图像转换为另一种记谱法的文本;音频到符号转录任务则需模型从10秒的音频片段中推断出对应的符号序列;符号音乐生成任务则要求模型依据提示自主创作乐曲。所有模型输出均通过标准音高投影和编辑距离等确定性算法进行量化评分,以获得客观、可复现的性能指标。
背景与挑战
背景概述
全模态记谱处理(ONP)是人工智能迈向专家级音乐智能的关键前沿,其核心挑战在于听觉、视觉与符号领域之间严苛的多维度对齐。当前的音乐AI研究多聚焦于孤立的转录任务,如光学乐谱识别或音频转符号生成,但这些碎片化的努力难以弥合浅层模式识别与深层音乐逻辑之间的鸿沟。为建立更严谨的评估标准,北京邮电大学与中国音乐学院及南洋理工大学的研究人员于2026年联合推出了ONOTE基准数据集。该数据集涵盖标准五线谱、简谱和吉他指法谱三种记谱体系,并设计了视觉乐谱理解、跨格式转换、音频转录及符号音乐生成四项任务,旨在系统性地诊断全模态大语言模型在规则约束领域中的推理脆弱性,对推动音乐AI从感知走向认知具有里程碑式的影响力。
当前挑战
ONOTE所应对的核心领域挑战在于,当前全模态模型存在严重的“感知-认知脱节”:视觉识别准确率虽高,但音乐理论推理(如跨格式转换中的调性映射)却表现不佳,暴露出模型仅依赖文本先验而非真正空间-时间对齐的缺陷。此外,模型对全球多样记谱体系存在显著偏差,过度偏重西方五线谱而忽视简谱与指法谱,导致推理灾难。在构建过程中,挑战同样严峻:需从MusiXQA与GuitarSet等异构数据源中提取与清洗数据,并实现音高、节奏与结构的严格跨模态对齐。彻底摒弃主观的“LLM作为评判者”范式,开发基于标准音高投影与序列对齐的确定性评估管线,以消除系统性幻觉与评分偏差,也是一项关键技术难点。
常用场景
经典使用场景
在音乐人工智能领域,ONOTE数据集被广泛用作全模态乐谱处理(ONP)能力的权威基准。研究者常利用其囊括五线谱、简谱与吉他和弦谱的三种记谱体系,围绕视觉乐谱理解(VSU)、跨格式记谱转换(CNC)、音频到符号转录(AST)以及符号音乐生成与美学评估(SMG)四项核心任务,全面诊断大型语言模型在听觉、视觉与符号域之间进行严苛多维度对齐的能力。其经典使用场景在于通过确定性管道将异构输出投影至统一的音高序列,从而在无主观偏差的条件下衡量模型对音乐逻辑的深层把握。
解决学术问题
该数据集有效破解了当前全模态模型研究中碎片化评估与主观“以模型为裁判”范式带来的系统性偏差。传统基准往往聚焦于孤立的转写任务,难以揭示视觉识别与音乐理论推理之间的本质脱节。ONOTE通过引入基于标准音高投影与序列对齐的确定性指标,首次实现了跨记谱体系的客观可复现测评,使研究者得以量化模型在时域对齐、格式迁移与结构生成中遭遇的认知瓶颈。其意义在于为高度结构化、规则密集的符号推理领域树立了坚实的诊断框架。
衍生相关工作
ONOTE的提出催生了一系列旨在提升符号音乐认知深度的经典工作。研究者借鉴其确定性评估范式,进一步开发了将音乐理论约束嵌入解码过程的增强型生成架构,例如在MuseCoco基础上融合跨格式对齐机制的符号音乐创作系统。同时,基于ONOTE暴露的“视觉识别强而音乐推理弱”的结构性短板,学界涌现出面向音乐领域的关系图推理模型与规则引导的微调策略,这些工作共同指向一个目标:构建不仅能够“看见”音符、更能“理解”音乐逻辑的全模态智能体。
以上内容由遇见数据集搜集并总结生成



