Handwritten Online Musical Symbols (HOMUS), Universal Music Symbol Collection, CVC-MUSCIMA, MUSCIMA++, Mashcima, DeepScores V1

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/apacha/OMR-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含用于各种光学音乐识别任务的多个数据集，如五线谱检测和移除、训练卷积神经网络或通过与已知真实数据比较来验证现有系统。

This repository contains multiple datasets for various optical music recognition tasks, such as staff line detection and removal, training convolutional neural networks, or validating existing systems by comparing them with known ground truth data.

创建时间：

2017-07-13

原始信息汇总

数据集概述

数据集列表

名称	刻写类型	大小	格式	典型用途
Handwritten Online Musical Symbols (HOMUS)	Handwritten	15200 symbols	Text-File	Symbol Classification (online + offline)
Universal Music Symbol Collection	Typeset + Handwritten	~ 90000 symbols	Images	Symbol Classification (offline)
CVC-MUSCIMA	Handwritten	1000 score images	Images	Staff line removal, writer identification
MUSCIMA++	Handwritten	> 90000 annotatations	Images, Measure Annotations, MuNG	Symbol Classification, Object Detection, End-To-End Recognition, Measure Recognition
Mashcima	Handwritten	unlimited	Images	Various
DeepScores V1	Typeset	300000 images	Images, XML	Symbol Classification, Object Detection, Semantic Segmentation
DeepScores V2	Typeset	255385 images	Images, XML	Object Detection, Semantic Segmentation, Instance Segmentation
DoReMi	Typeset	6432 images	Images, XML, musicXML, MEI, MIDI	Symbol Classification, Object Detection, Semantic Segmentation, Instance Segmentation
PrIMuS	Typeset	87678 incipits	Images, MEI, Simplified encoding, agnostic encoding	End-to-End Recognition
Baro Single Stave Dataset	Handwritten	95 images	Images, Simplified encoding	End-to-End Recognition
Multimodal Sheet Music Dataset	Typeset	497 songs	Images, MIDI, Lilypond, MuNG (noteheads)	End-to-End Recognition, Multimodal Retrieval, Score Following
Sheet Midi Retrieval Dataset	Typeset	200 songs	Images (Jpg and PDF), MIDI, CSV	Multimodal Retrieval, Score Following
AudioLabs v1	Typeset	940 score images; 24,329 bounding boxes	Images	Box Annotation Detection
AudioLabs v2	Typeset	940 score images; 85,980 bounding boxes	Images	Box Annotation Detection
OpenScore Lieder	Typeset	1356 files	MuseScore	Various
OpenScore String Quartets	Typeset	106 files	MuseScore	Various
MuseScore	Typeset	> 340000 files	MuseScore, PDF, MusicXML	Various
MuseScore Monophonic MusicXML Dataset	Typeset	17000 IDs	IDs for MuseScore files	Various
Capitan collection	Handwritten	10230 symbols	Images, Text-File	Symbol Classification
SEILS Dataset	Typeset	30 madrigals, 150 original images, 930 symbolic files	Images (PDF), .ly, .mid, .xml, .musx, .krn, .mei, .mns, .agnostic, .semantic	Various
Rebelo Dataset	Typeset	15000 symbols	Images	Symbol Classification
Fornes Dataset	Handwritten	4100 symbols	Images	Symbol Classification
Choi Accidentals Dataset	Typeset	2955 images	Images with special filename	Symbol Classification
Audiveris OMR	Typeset	800 annotations	Images, XML	Symbol Classification, Object Detection
Printed Music Symbols Dataset	Typeset	200 symbols	Images	Symbol Classification
Music Score Classification Dataset	Typeset	1000 score images	Images	Sheet Classification
OpenOMR Dataset	Typeset	706 symbols	Images	Symbol Classification
Gamera MusicStaves Toolkit	Typeset	32 score images	Images	Staff line removal
Early Typographic Prints	Typeset	240 score images
Silva Online Handwritten Symbols	Handwritten	12600 symbols
IMSLP	Typeset	>420000 score images	PDF	Various
Byrd Dataset	Typeset	34 score images	Images	Various
MScoreLib Dataset	Typeset	~6000 MusicXML scores	MusicXML	Various

搜集汇总

数据集介绍

构建方式

Handwritten Online Musical Symbols (HOMUS)数据集由约15000个手写音乐符号样本组成，这些样本记录了音乐家在三星平板上使用触控笔书写的笔画。数据集的构建方式是通过捕捉每个符号的书写轨迹，从而在在线和离线场景中均可使用。每个样本的笔画信息被详细记录，为研究手写音乐符号的识别提供了丰富的数据基础。

特点

HOMUS数据集的主要特点在于其对手写音乐符号的细致记录，包括每个符号的书写轨迹。这种详细的笔画信息使得该数据集不仅适用于离线符号分类，还能在在线识别任务中发挥作用。此外，数据集的样本数量丰富，涵盖了多种音乐符号，为研究人员提供了广泛的应用可能性。

使用方法

HOMUS数据集可用于训练和验证手写音乐符号识别模型。研究人员可以通过解析数据集中的笔画信息，构建基于笔画序列的分类模型。此外，该数据集还可用于在线手写音乐符号识别系统的开发和测试，通过模拟实际书写过程，评估系统的实时性能。

背景与挑战

背景概述

光学音乐识别（Optical Music Recognition, OMR）是计算机视觉领域的一个重要分支，旨在将手写或印刷的音乐符号转换为可编辑的数字格式。Handwritten Online Musical Symbols (HOMUS)数据集由J. Calvo-Zaragoza和J. Oncina于2014年创建，包含约15,000个在线手写音乐符号样本。该数据集记录了音乐家在三星平板上使用触控笔书写的每个笔画，适用于在线和离线场景中的符号分类研究。HOMUS数据集的发布极大地推动了OMR领域的研究进展，为研究人员提供了一个标准化的基准数据集，促进了手写音乐符号识别技术的发展。

当前挑战

HOMUS数据集在构建过程中面临的主要挑战包括：1) 在线手写数据的动态特性，要求系统能够实时捕捉和处理笔画信息；2) 不同音乐家书写风格的多样性，增加了符号分类的复杂性；3) 数据集中的噪声和错误，如20个已知的错误分类样本，需要通过后续校正来提高数据质量。此外，HOMUS数据集的应用挑战在于如何有效地结合在线和离线数据，以提升符号识别的准确性和鲁棒性。

常用场景

经典使用场景

在音乐符号识别领域，Handwritten Online Musical Symbols (HOMUS) 数据集以其丰富的手写音乐符号样本成为研究者们的重要工具。该数据集包含了约15,000个手写音乐符号样本，这些样本记录了音乐家在使用三星平板电脑时通过触控笔绘制的每个笔画。HOMUS数据集的经典使用场景主要集中在在线和离线音乐符号分类任务中，通过分析和识别这些手写符号，研究者可以开发出更精确的符号识别算法，从而提升光学音乐识别（OMR）系统的性能。

解决学术问题

HOMUS数据集在学术研究中解决了多个关键问题，特别是在手写音乐符号的识别和分类方面。通过提供高质量的手写符号样本，该数据集帮助研究者克服了传统印刷音乐符号识别方法在处理手写符号时的局限性。此外，HOMUS数据集还促进了在线和离线符号识别技术的融合，为开发更为通用和鲁棒的OMR系统提供了基础。其研究成果不仅提升了音乐符号识别的准确性，还为相关领域的进一步研究奠定了坚实的基础。

衍生相关工作

基于HOMUS数据集，研究者们开展了一系列相关工作，推动了光学音乐识别技术的发展。例如，有研究利用HOMUS数据集开发了新的手写符号识别模型，显著提高了识别精度。此外，还有研究将HOMUS数据集与其他音乐符号数据集结合，构建了更为全面的音乐符号识别系统。这些衍生工作不仅丰富了OMR领域的研究内容，还为实际应用提供了更多可能性，推动了音乐符号识别技术的广泛应用和持续进步。

以上内容由遇见数据集搜集并总结生成