five

Handwritten Online Musical Symbols (HOMUS), Universal Music Symbol Collection, CVC-MUSCIMA, MUSCIMA++, Mashcima, DeepScores V1

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/apacha/OMR-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库包含用于各种光学音乐识别任务的多个数据集,如五线谱检测和移除、训练卷积神经网络或通过与已知真实数据比较来验证现有系统。

This repository contains multiple datasets for various optical music recognition tasks, such as staff line detection and removal, training convolutional neural networks, or validating existing systems by comparing them with known ground truth data.
创建时间:
2017-07-13
原始信息汇总

数据集概述

数据集列表

名称 刻写类型 大小 格式 典型用途
Handwritten Online Musical Symbols (HOMUS) Handwritten 15200 symbols Text-File Symbol Classification (online + offline)
Universal Music Symbol Collection Typeset + Handwritten ~ 90000 symbols Images Symbol Classification (offline)
CVC-MUSCIMA Handwritten 1000 score images Images Staff line removal, writer identification
MUSCIMA++ Handwritten > 90000 annotatations Images, Measure Annotations, MuNG Symbol Classification, Object Detection, End-To-End Recognition, Measure Recognition
Mashcima Handwritten unlimited Images Various
DeepScores V1 Typeset 300000 images Images, XML Symbol Classification, Object Detection, Semantic Segmentation
DeepScores V2 Typeset 255385 images Images, XML Object Detection, Semantic Segmentation, Instance Segmentation
DoReMi Typeset 6432 images Images, XML, musicXML, MEI, MIDI Symbol Classification, Object Detection, Semantic Segmentation, Instance Segmentation
PrIMuS Typeset 87678 incipits Images, MEI, Simplified encoding, agnostic encoding End-to-End Recognition
Baro Single Stave Dataset Handwritten 95 images Images, Simplified encoding End-to-End Recognition
Multimodal Sheet Music Dataset Typeset 497 songs Images, MIDI, Lilypond, MuNG (noteheads) End-to-End Recognition, Multimodal Retrieval, Score Following
Sheet Midi Retrieval Dataset Typeset 200 songs Images (Jpg and PDF), MIDI, CSV Multimodal Retrieval, Score Following
AudioLabs v1 Typeset 940 score images; 24,329 bounding boxes Images Box Annotation Detection
AudioLabs v2 Typeset 940 score images; 85,980 bounding boxes Images Box Annotation Detection
OpenScore Lieder Typeset 1356 files MuseScore Various
OpenScore String Quartets Typeset 106 files MuseScore Various
MuseScore Typeset > 340000 files MuseScore, PDF, MusicXML Various
MuseScore Monophonic MusicXML Dataset Typeset 17000 IDs IDs for MuseScore files Various
Capitan collection Handwritten 10230 symbols Images, Text-File Symbol Classification
SEILS Dataset Typeset 30 madrigals, 150 original images, 930 symbolic files Images (PDF), .ly, .mid, .xml, .musx, .krn, .mei, .mns, .agnostic, .semantic Various
Rebelo Dataset Typeset 15000 symbols Images Symbol Classification
Fornes Dataset Handwritten 4100 symbols Images Symbol Classification
Choi Accidentals Dataset Typeset 2955 images Images with special filename Symbol Classification
Audiveris OMR Typeset 800 annotations Images, XML Symbol Classification, Object Detection
Printed Music Symbols Dataset Typeset 200 symbols Images Symbol Classification
Music Score Classification Dataset Typeset 1000 score images Images Sheet Classification
OpenOMR Dataset Typeset 706 symbols Images Symbol Classification
Gamera MusicStaves Toolkit Typeset 32 score images Images Staff line removal
Early Typographic Prints Typeset 240 score images
Silva Online Handwritten Symbols Handwritten 12600 symbols
IMSLP Typeset >420000 score images PDF Various
Byrd Dataset Typeset 34 score images Images Various
MScoreLib Dataset Typeset ~6000 MusicXML scores MusicXML Various
搜集汇总
数据集介绍
main_image_url
构建方式
Handwritten Online Musical Symbols (HOMUS)数据集由约15000个手写音乐符号样本组成,这些样本记录了音乐家在三星平板上使用触控笔书写的笔画。数据集的构建方式是通过捕捉每个符号的书写轨迹,从而在在线和离线场景中均可使用。每个样本的笔画信息被详细记录,为研究手写音乐符号的识别提供了丰富的数据基础。
特点
HOMUS数据集的主要特点在于其对手写音乐符号的细致记录,包括每个符号的书写轨迹。这种详细的笔画信息使得该数据集不仅适用于离线符号分类,还能在在线识别任务中发挥作用。此外,数据集的样本数量丰富,涵盖了多种音乐符号,为研究人员提供了广泛的应用可能性。
使用方法
HOMUS数据集可用于训练和验证手写音乐符号识别模型。研究人员可以通过解析数据集中的笔画信息,构建基于笔画序列的分类模型。此外,该数据集还可用于在线手写音乐符号识别系统的开发和测试,通过模拟实际书写过程,评估系统的实时性能。
背景与挑战
背景概述
光学音乐识别(Optical Music Recognition, OMR)是计算机视觉领域的一个重要分支,旨在将手写或印刷的音乐符号转换为可编辑的数字格式。Handwritten Online Musical Symbols (HOMUS)数据集由J. Calvo-Zaragoza和J. Oncina于2014年创建,包含约15,000个在线手写音乐符号样本。该数据集记录了音乐家在三星平板上使用触控笔书写的每个笔画,适用于在线和离线场景中的符号分类研究。HOMUS数据集的发布极大地推动了OMR领域的研究进展,为研究人员提供了一个标准化的基准数据集,促进了手写音乐符号识别技术的发展。
当前挑战
HOMUS数据集在构建过程中面临的主要挑战包括:1) 在线手写数据的动态特性,要求系统能够实时捕捉和处理笔画信息;2) 不同音乐家书写风格的多样性,增加了符号分类的复杂性;3) 数据集中的噪声和错误,如20个已知的错误分类样本,需要通过后续校正来提高数据质量。此外,HOMUS数据集的应用挑战在于如何有效地结合在线和离线数据,以提升符号识别的准确性和鲁棒性。
常用场景
经典使用场景
在音乐符号识别领域,Handwritten Online Musical Symbols (HOMUS) 数据集以其丰富的手写音乐符号样本成为研究者们的重要工具。该数据集包含了约15,000个手写音乐符号样本,这些样本记录了音乐家在使用三星平板电脑时通过触控笔绘制的每个笔画。HOMUS数据集的经典使用场景主要集中在在线和离线音乐符号分类任务中,通过分析和识别这些手写符号,研究者可以开发出更精确的符号识别算法,从而提升光学音乐识别(OMR)系统的性能。
解决学术问题
HOMUS数据集在学术研究中解决了多个关键问题,特别是在手写音乐符号的识别和分类方面。通过提供高质量的手写符号样本,该数据集帮助研究者克服了传统印刷音乐符号识别方法在处理手写符号时的局限性。此外,HOMUS数据集还促进了在线和离线符号识别技术的融合,为开发更为通用和鲁棒的OMR系统提供了基础。其研究成果不仅提升了音乐符号识别的准确性,还为相关领域的进一步研究奠定了坚实的基础。
衍生相关工作
基于HOMUS数据集,研究者们开展了一系列相关工作,推动了光学音乐识别技术的发展。例如,有研究利用HOMUS数据集开发了新的手写符号识别模型,显著提高了识别精度。此外,还有研究将HOMUS数据集与其他音乐符号数据集结合,构建了更为全面的音乐符号识别系统。这些衍生工作不仅丰富了OMR领域的研究内容,还为实际应用提供了更多可能性,推动了音乐符号识别技术的广泛应用和持续进步。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务