VisionScores
收藏arXiv2025-06-29 更新2025-07-02 收录
下载链接:
https://github.com/ alroamz/VisionScores
下载链接
链接失效反馈官方服务:
资源简介:
VisionScores是一个系统分割的图像评分数据集,旨在为机器学习和深度学习任务提供结构丰富、高信息密度的图像。该数据集专注于双手钢琴作品,考虑了图形相似性和创作模式,因为这些创造性过程高度依赖于乐器。数据集提供了两种场景:第一种由14k个样本组成,考虑来自不同作者但相同创作类型的作品,即Sonatinas;第二种由10.8K个样本组成,呈现相反的情况,来自同一作者的多种创作类型,所选的作曲家是Franz Liszt。所有24.8k个样本都被格式化为128 × 512像素的灰度jpg图像。VisionScores不仅提供了格式化的样本,还提供了系统的顺序和作品的元数据。此外,还包含了未分割的全页评分和预格式化的图像,供进一步分析。VisionScores可在https://github.com/ alroamz/VisionScores免费获取。
VisionScores is a systematically segmented image scoring dataset developed to provide structurally rich, high-information-density images for machine learning and deep learning tasks. Focused on two-handed piano works, this dataset takes into account graphical similarity and creative patterns, as such creative processes are highly dependent on the specific musical instrument. The dataset offers two distinct scenarios: the first comprises 14k samples, consisting of works from different authors but belonging to the same creation type, i.e., Sonatinas; the second comprises 10.8k samples, presenting the reverse scenario: works from a single author but spanning multiple creation types, with the selected composer being Franz Liszt. All 24.8k samples are formatted as grayscale JPEG images with a resolution of 128 × 512 pixels. Beyond formatted samples, VisionScores also provides systematic sequence information and metadata for each work. Additionally, unsegmented full-page scores and pre-formatted images are included to support further analytical research. VisionScores is freely accessible at https://github.com/alroamz/VisionScores.
提供机构:
墨西哥数学研究中心
创建时间:
2025-06-29
搜集汇总
数据集介绍

构建方式
VisionScores数据集的构建过程体现了系统化的设计理念和严谨的学术态度。研究团队从国际乐谱图书馆项目(IMSLP)中精选了双钢琴演奏的乐谱PDF文件,通过严格的视觉质量筛选标准排除了手写稿和低质量扫描件。采用创新的系统分割技术,结合传统阈值法和深度学习方法(U-Net和Cutnet),将完整乐谱页面精准分割为独立的音乐系统单元。为确保数据质量,研究团队对分割结果进行了人工验证,最终形成包含24,810个标准化样本的数据集。所有样本均经过统一尺寸调整(128×512像素灰度图像),并附有完整的元数据信息。
特点
VisionScores作为首个系统分割的音乐图像数据集,具有显著的学术价值和应用特色。数据集严格限定于双钢琴作品,包含两个互补场景:多位作曲家的奏鸣曲(14,000样本)和李斯特的多样化作品(10,810样本),既保证了结构一致性又兼顾风格多样性。所有样本采用标准化的图像格式,完整保留了乐谱系统的视觉信息和音乐符号特征。独特的系统级分割方式使数据集特别适合研究音乐序列模式和层次结构。此外,数据集还提供完整的元数据链,包括作品标题、作曲家、调性和系统顺序等信息,为深度音乐分析提供了丰富上下文。
使用方法
VisionScores数据集为音乐信息检索和生成式AI研究提供了多功能平台。研究者可直接使用预处理后的系统图像(128×512灰度JPG格式)进行模型训练,适用于符号音乐生成、音乐风格转换等任务。数据集提供的系统顺序信息支持序列建模研究,如音乐Transformer等架构的应用。配套的完整页面乐谱和预处理中间文件允许用户进行自定义分割实验。元数据信息可用于音乐结构分析和作曲家风格研究。为保障研究可复现性,建议在使用时注意系统编号的临时性限制,该问题将在未来版本中完善。数据集通过GitHub平台开源发布,遵循学术共享规范。
背景与挑战
背景概述
VisionScores数据集由Alejandro Romero Amezcua和Mariano José Juan Rivera Meraz于2025年提出,是首个专为深度学习任务设计的系统分割乐谱图像数据集。该数据集聚焦于双手钢琴曲目,不仅考虑了图像间的图形相似性,还融入了作曲模式的分析,旨在为机器学习和深度学习任务提供结构丰富且信息密集的图像资源。数据集包含两个场景:一是来自不同作曲家但相同曲式(小奏鸣曲)的1.4万样本,二是来自同一作曲家(弗朗茨·李斯特)但不同曲式的1.08万样本,总计2.48万张128×512像素的灰度图像。VisionScores的推出填补了符号音乐处理领域高质量数据集的空白,为生成式人工智能在音乐创作中的应用提供了重要支持。
当前挑战
VisionScores数据集在构建过程中面临多重挑战。领域问题方面,现有乐谱图像数据集多专注于光学音乐识别(OMR),难以满足符号音乐生成等更广泛任务的需求。VisionScores通过系统级分割和结构化标注解决了这一局限性,但如何保持音乐符号的完整性与时序关系仍是核心难题。构建过程中,数据采集需克服版权限制和图像质量不均的问题;系统分割阶段因乐谱版式的非标准化(如变数系统、不规则间距等)需开发自适应算法。此外,神经网络分割方法虽提升效率,却面临输出过度平滑导致标记点丢失的技术瓶颈,最终需结合传统阈值法与改进型Cutnet模型实现可靠分割。
常用场景
经典使用场景
VisionScores数据集作为首个系统分割的音乐乐谱图像数据集,在深度学习和计算机视觉领域具有广泛的应用潜力。该数据集特别适用于符号音乐生成、音乐结构分析和序列建模等任务。通过提供24,810个标准化的灰度图像样本,VisionScores为研究者提供了丰富的结构化数据,能够支持从音乐生成到乐谱识别的多种研究需求。其系统级分割的特性使得模型能够更好地理解和生成复杂的音乐结构,为音乐信息检索和生成式人工智能提供了坚实的基础。
实际应用
在实际应用中,VisionScores数据集可广泛用于音乐教育、自动作曲和音乐信息检索等领域。例如,音乐教育平台可以利用该数据集开发智能乐谱分析工具,帮助学生更好地理解音乐结构。自动作曲系统则可以通过学习数据集中的音乐模式,生成具有艺术价值的原创作品。此外,音乐信息检索系统可以利用该数据集提高对复杂音乐结构的识别能力,从而提供更准确的搜索结果。
衍生相关工作
VisionScores数据集的发布为相关研究领域带来了新的机遇。基于该数据集,研究者已经开发了多种先进的音乐生成和分析模型。例如,结合Transformer架构的音乐生成模型能够利用数据集中的序列信息生成具有长期结构的音乐作品。此外,基于U-Net的乐谱分割方法也在该数据集上得到了进一步优化,提高了系统分割的准确性和效率。这些衍生工作不仅推动了符号音乐处理技术的发展,也为跨模态音乐研究提供了新的思路。
以上内容由遇见数据集搜集并总结生成



