WildScore

github2025-08-31 更新2025-09-01 收录

下载链接：

https://github.com/GaganVM/WildScore

下载链接

链接失效反馈

官方服务：

资源简介：

WildScore是一个用于真实世界乐谱图像和问题的多模态符号音乐推理基准测试。该数据集包含807个多项选择题项，源自2012-2022年间的真实讨论，每个题项将用户生成的音乐理论问题与相应的乐谱图像和多项选择答案配对，涵盖和声与调性、节奏与节拍、织体、表达与演奏、形式等五个主要类别和12个子类别

WildScore is a multimodal symbolic music reasoning benchmark for real-world sheet music images and queries. This dataset comprises 807 multiple-choice items sourced from authentic discussions conducted between 2012 and 2022. Each item pairs a user-generated music theory question with its corresponding sheet music image and multiple-choice answer options, covering five main categories and 12 subcategories, including harmony and tonality, rhythm and meter, texture, expression and performance, and musical form.

创建时间：

2025-08-31

原始信息汇总

WildScore 数据集概述

基本信息

数据集名称：WildScore
发布会议：EMNLP 2025
数据规模：807 个多项选择题项目
数据来源：2012–2022 年用户生成的音乐理论讨论帖
核心内容：真实乐谱图像与对应音乐理论问题的多模态推理评估

数据集构成

数据类型：乐谱图像 + 多选问题 + 候选答案
评估模式：
- 图像+文本（完整多模态）
- 仅文本（消融实验）
标注方式：基于社区评分（赞同票-反对票），平局时由LLM裁决

分类体系

和声与调性：和弦进行、调式混合、转调等
节奏与节拍：节拍结构、节奏模式等
织体：织体类型等
表情与演奏：力度与发音等
曲式：曲式结构等

评估结果

最佳性能模型：GPT-4.1-mini（图像+文本模式68.31%）
关键发现：
- 图像上下文对部分模型有帮助（如GPT-4.1-mini提升2.55分）
- 部分模型在仅文本模式下表现更好（如MiniCPM、InternVL、LLaVA）
- 感知能力不足是主要失败原因（符号识别准确率：GPT-4.1-mini 52%，LLaVA 26%）

技术特性

图像检测：使用精细调校的检测器筛选符号音乐图像
数据质量：经过多标注者验证，移除模糊/错误项目
评估指标：整体准确率、分类别准确率、成本与token使用量

使用要求

Python版本：3.8+
硬件要求：推荐CUDA兼容GPU
API依赖：OpenAI API密钥和/或HuggingFace令牌

许可证与引用

许可证：未明确说明
引用格式：提供标准BibTeX引用格式

联系方式

主要联系人：Gagan Mundada
邮箱：gmundada@ucsd.edu, gaganvishalmundada@gmail.com

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，WildScore数据集通过系统化采集2012至2022年间真实音乐理论讨论社区的图文数据构建而成。研究团队采用经过微调的符号乐谱检测器从近四千个候选图像中筛选合格样本，并依据内容质量与社区互动指标进行严格过滤。每个样本将用户提出的音乐理论问题与对应的乐谱图像配对，通过社区投票机制确定标准答案，最终形成807个高质量的多选题样本。

特点

该数据集涵盖和声与调性、节奏与节拍、织体、表情与演奏、曲式五大核心音乐理论范畴，包含十二个子类别的细粒度标注。其独特价值在于同时提供图像-文本多模态与纯文本两种评估模式，且所有问题均源自真实音乐讨论场景，兼具生态效度与可扩展性。每个样本均附带经过社区投票验证的参考答案，并采用大语言模型辅助处理平票情况，确保标注可靠性。

使用方法

使用者可通过配置文件中指定的路径加载乐谱图像与对应的CSV格式标注文件，利用内置评估脚本对多模态大语言模型进行系统性测试。评估过程支持调用OpenAI API或本地部署的视觉语言模型，输出包括各模型在完整多模态与纯文本模式下的准确率对比、分维度性能分析及API使用成本统计。研究人员可通过修改配置文件灵活调整数据路径与模型参数，实现定制化评估方案。

背景与挑战

背景概述

音乐信息检索领域长期面临符号音乐理解与真实场景脱节的瓶颈，WildScore数据集由加州大学圣地亚哥分校研究团队于2025年创建，旨在构建基于真实乐谱图像与用户讨论的多模态推理基准。该数据集采集2012至2022年间网络社区的用户生成内容，涵盖和声与调性、节奏与节拍、织体、表情与演奏、曲式五大核心音乐理论维度，通过807个高质量多选题项推动多模态大语言模型在音乐理论推理方面的标准化评估。

当前挑战

数据集构建面临真实场景乐谱图像的质量参差与语义歧义挑战，需通过细粒度图像检测器从近四千候选样本中筛选符号化乐谱；领域问题层面，模型需同步处理视觉符号识别与音乐理论推理双重任务，当前主流模型在乐谱感知环节表现参差（最佳模型仅达52%符号读取准确率），且多模态对齐存在显著差距，部分模型在图像上下文介入后性能反而退化。

常用场景

经典使用场景

在音乐信息检索领域，WildScore数据集为多模态大语言模型提供了真实的乐谱图像与音乐理论问题配对评估场景。该数据集通过807个来自真实讨论的多选题项，涵盖和声与调性、节奏与节拍、织体、表情与演奏、曲式五大类别，支持图像+文本和纯文本两种推理模式，成为评估模型符号音乐理解能力的标准测试平台。

解决学术问题

WildScore有效解决了多模态模型在符号音乐推理中的感知与认知分离评估难题。通过社区投票和LLM仲裁的标注机制，该数据集为音乐理论自动问答提供了可靠基准，显著推进了计算音乐学领域对模型乐谱图像理解能力、音乐逻辑推理能力以及多模态对齐效果的量化研究。

衍生相关工作

基于WildScore的评估范式，研究者开发了针对符号音乐感知的专项探测任务（如ABC重建任务），并催生了多模态音乐模型的新训练策略。该数据集启发了后续研究关注社区驱动的数据构建方法，以及在音乐教育、自动谱曲等垂直领域的多模态应用扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集