ONOTE

github2026-04-08 更新2026-04-25 收录

下载链接：

https://github.com/T12knightally/ONOTE

下载链接

链接失效反馈

官方服务：

资源简介：

ONOTE是一个全面的基准测试数据集，用于评估全模态大语言模型在符号音乐处理方面的性能，涵盖标准乐谱、简谱和吉他指法谱等多种符号系统，并通过确定性、零幻觉的指标进行评估。

ONOTE is a comprehensive benchmark dataset for evaluating the performance of multimodal large language models in symbolic music processing. It covers various symbolic notation systems including standard musical notation, numbered musical notation, and guitar tablature, and uses deterministic and zero-hallucination metrics for evaluation.

创建时间：

2026-04-02

原始信息汇总

好的，这是对ONOTE数据集的详细总结。

🎵 ONOTE 数据集概述

基本信息

数据集名称: ONOTE (Omnimodal Notation Objective Topology Examination)
发布机构: 研究论文《ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence》的官方资源库。
许可证: MIT License
数据集大小: 包含 1120 个高质量测试样本。
数据来源: 样本来自 MusiXQA 和 GuitarSet，并经过了精细的清洗和跨模态对齐处理。
下载地址: 可通过 HuggingFace Datasets 获取。

核心特点

异构符号系统: 超越了传统的西方五线谱，纳入了全球广泛使用的简谱和乐器特有的 吉他指法谱。
全面任务分类: 通过四种不同的任务，评估符号音乐认知的完整生命周期。
确定性评估: 使用“规范音高空间投影”和“序列对齐”技术，完全消除了主观的“大语言模型作为评判者”带来的偏差。

四大核心任务

ONOTE 从以下四个正交维度评估模型：

视觉乐谱理解 (VSU): 视觉问答任务，要求模型直接从 PNG 乐谱图像中定位并识别特定的音乐符号，无需文本提示。
跨格式符号转换 (CNC): 将一种符号格式（如五线谱）转换为另一种格式（如 ASCII 吉他指法谱），以测试深层的音乐学映射能力。
音频到符号转录 (AST): 将 10 秒的音频片段（MP3/WAV）转录为符号字符串，评估声学-时间对齐能力。
符号音乐生成 (SMG): 根据文本提示生成符合渲染要求的符号代码（如 MuseScore、ABC），从语法可渲染性和音乐美学两个方面进行评估。

确定性评估流程

ONOTE 使用严格的、程序化的序列匹配流程来对抗模型自我评估中的系统性幻觉。生成的符号和真实标签 JSON 被投影成扁平化的、按时间顺序排列的绝对科学音高序列，并通过 Levenshtein 编辑距离 来计算对齐准确率，该方法会严厉惩罚时间偏移和幻视音符。

模型排行榜（节选）

下表展示了当前最先进的全模态大语言模型在 ONOTE 上的表现，涵盖三种异构符号系统的生成分数和对齐准确率。

五线谱 (Standard Staff)

模型	SMG (Score)	CNC (Acc. %)	VSU (Acc. %)	AST (Acc. %)
Qwen2.5-Omni-7b	4.51	14.27	44.00	3.79
Gemini-3.1-flash-lite-preview	4.47	17.29	99.00	7.61
Gemini-2.5-pro	3.03	17.04	97.00	7.50
Qwen3-Omni-flash	3.84	17.31	88.00	9.32

简谱 (Jianpu)

模型	SMG (Score)	CNC (Acc. %)	VSU (Acc. %)	AST (Acc. %)
Gemini-3.1-flash-lite-preview	4.72	13.06	80.20	24.32
Gemini-2.5-pro	4.33	23.04	90.38	15.67
Qwen2.5-Omni-7b	1.07	8.62	65.30	20.63

吉他指法谱 (Guitar Tablature)

模型	SMG (Score)	CNC (Acc. %)	VSU (Acc. %)	AST (Acc. %)
Gemini-3.1-flash-lite-preview	3.68	22.47	93.83	1.64
Gemini-2.5-pro	-	43.58	82.72	2.57
Gemini-2.5-flash	1.17	46.08	36.00	2.17

(注：当前模型在 VSU 任务上的高准确率与 CNC/AST 任务上的低分形成鲜明对比，揭示了现有架构在光学感知与结构化的音乐理论推理之间存在巨大鸿沟。)

搜集汇总

数据集介绍

构建方式

在人工智能与音乐信息检索交叉领域，符号音乐处理始终是衡量模型认知深度的试金石。ONOTE（全模态符号客观拓扑考试）作为一个综合评估框架，通过程序化、确定性的评分管线，系统性地构建了跨越三种异质记谱体系的测试基准。该数据集精心整理了1120个高质量测试样本，对来自MusiXQA和GuitarSet等来源的数据进行彻底清洗与跨模态对齐，确保了样本的可靠性与一致性。

使用方法

研究者可通过HuggingFace Datasets平台便捷获取ONOTE数据集，用于评估全模态大型语言模型在符号音乐处理任务中的表现。使用过程遵循标准化的评估管线：将模型生成的符号序列与真实标注序列投影至扁平化的绝对音高时间序列，利用莱文斯坦编辑距离计算对齐准确率，从而严格惩罚时间漂移与幻觉音符。该评估框架已在多项前沿模型间构建了排行榜，揭示出当前架构在光学感知与乐理结构推理之间存在的显著差距。

背景与挑战

背景概述

在通用全模态大语言模型取得显著进展的背景下，符号音乐处理领域仍面临严峻挑战，突出表现为西方记谱法的固有偏见以及基于“大语言模型作为评判者”的主观评估幻觉。为破解这一困局，ONOTE（全模态记谱客观拓扑评估）基准数据集应运而生。该数据集由相关研究团队于近期创建，旨在提供一个全面、客观的评估框架。其核心研究问题聚焦于如何跨越五线谱、简谱和吉他指法谱三种异构记谱系统，诊断前沿人工智能模型在跨模态推理中的脆弱性。通过引入程序化、确定性的评分管线，ONOTE摒弃了主观性评估，为专家级音乐智能的评测树立了新的里程碑，对推动符号音乐处理领域的研究具有深远意义。

当前挑战

ONOTE数据集主要应对以下挑战：首先，在领域问题层面，它着力解决符号音乐处理中存在的西方记谱法偏向和主观评估缺陷，需要模型在视觉乐谱理解、跨格式记谱转换、音频到符号转录及符号音乐生成四个正交任务上展现出真正的音乐学映射能力。当前模型在各任务上的表现差异巨大，视觉感知能力与深层次音乐理论推理之间存在显著鸿沟。其次，在数据集构建过程中，挑战在于从MusiXQA、GuitarSet等多个来源精心筛选与跨模态对齐1,120个高质量测试样本，确保三种异构记谱系统的全面覆盖。构建全模态、无偏见的评估基准本身就是一个复杂而精细的工程挑战，最终形成的确定性评估管线利用科学音高投影与序列对齐技术，对时间漂移和幻觉音符施加严格惩罚，以实现客观评分。

常用场景

经典使用场景

ONOTE数据集的核心经典使用场景在于评估与诊断全模态大语言模型在符号音乐处理这一极具挑战性领域的综合能力。该数据集通过精心设计的四个正交任务——视觉谱面理解、跨格式符号转换、音频到符号转录以及符号音乐生成，构建了一个覆盖认知全生命周期的测试平台。尤为重要的是，ONOTE突破了西方标准五线谱的单一局限，将简谱与吉他指弹谱纳入评估体系，从而能够全面检验模型在多种异质记谱系统下的跨模态推理鲁棒性与音乐结构理解深度。

解决学术问题

ONOTE的提出直指当前全模态大语言模型评估中的两大核心学术顽疾：即西方中心记谱法偏见与‘大语言模型作为裁判’这一主观评估范式所引发的严重幻觉问题。通过构建一个基于绝对科学音高序列投影与莱文斯坦编辑距离的确定性评估管线，ONOTE首次实现了对模型输出中时间漂移与幻觉音高音符的精确量化惩罚，从而为音乐人工智能领域提供了首个客观、可复现且无偏见的基准评测框架。这项工作的深远意义在于，它从方法论层面推动了音乐智能评估从主观审美判断向严格科学验证的范式转型。

实际应用

在实际应用维度，ONOTE数据集所定义的任务体系直接映射了音乐科技领域中多个亟待突破的生产力场景。例如，跨格式符号转换任务直接服务于音乐教育与创作实践中简谱、五线谱与吉他谱之间的自动互译需求；音频到符号转录技术则是自动扒谱、智能伴奏生成与音乐信息检索系统精准可靠的核心支撑。此外，符号音乐生成能力在自适应乐谱排版、音乐辅助创作以及面向视障人士的乐谱无障碍转换等应用中同样展现出广阔的前景。ONOTE所提供的严格评测标准，为这些实际系统从实验室原型走向商业化落地提供了关键的性能基线。

数据集最近研究