five

youtube-piano-score

收藏
Hugging Face2026-05-11 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/k-l-lambda/youtube-piano-score
下载链接
链接失效反馈
官方服务:
资源简介:
YouTube Piano Score是一个从YouTube视频中提取的钢琴乐谱数据集。该数据集包含多模态样本,每个样本对应一个YouTube视频,存储在scores/<video_id>/目录下。每个样本包含四个核心文件:meta.yaml文件提供视频分割、乐谱布局和谱表分组的元数据;score.webp文件是生成的乐谱图像网格;audio.*文件是从视频中提取的原始音频;transkun.mid文件是MIDI转录结果。元数据详细记录了视频ID、时长、镜头检测信息、谱表数量(通常为2个谱表,代表纯钢琴乐谱)、乐谱布局参数以及每个采样帧的检测结果,包括旋转角度、谱线间距、系统数量、谱表分布和边界框坐标等。数据集适用于钢琴乐谱分析、音乐信息检索、光学乐谱识别(OMR)和音乐转录等任务。

YouTube Piano Score is a dataset of piano scores extracted from YouTube videos. It consists of multimodal samples, each corresponding to a YouTube video and stored in the scores/<video_id>/ directory. Each sample includes four core files: a meta.yaml file providing metadata for video segmentation, score layout, and staff grouping; a score.webp file representing the generated score image grid; an audio.* file containing the raw audio extracted from the video; and a transkun.mid file for MIDI transcription. The metadata details video ID, duration, shot detection information, number of staves (typically 2 staves, representing pure piano scores), score layout parameters, and detection results for each sampled frame, including rotation angle, staff spacing, number of systems, staff distribution, and bounding box coordinates. The dataset is suitable for tasks such as piano score analysis, music information retrieval, optical music recognition (OMR), and music transcription.
创建时间:
2026-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
YouTube Piano Score数据集从YouTube视频中提取钢琴乐谱样本,每个样本以视频ID为标识存储在`scors/<video_id>/`目录下。数据集构建过程涵盖多模态信息抽取:首先通过`ffmpeg_scene_score`方法检测视频中的场景变化,即乐谱页面的切换边界;随后在每个分段内选择代表性帧,利用布局检测算法识别谱线间距、旋转角度和系统边界;同时从视频中提取原始音频,并利用转谱模型生成对应的MIDI文件。元数据文件`meta.yaml`整合了视频分段时间戳、谱面布局参数(如谱线数、大括号类型、系统坐标)以及谱线检测的精确像素级信息,为下游音乐文档分析提供了结构化的标注基础。
使用方法
研究人员可通过Hugging Face的`datasets`库加载该数据集,或直接从目录结构访问原始文件。对于乐谱版面分析任务,可利用`meta.yaml`中的`layout`和`areas`字段提取谱系统边界框、谱线间距和旋转角度,作为检测模型的输入或评估基准。在光学乐谱识别场景中,`score.webp`图像与`staffMask`、`staff_detection`参数结合,可用于训练端到端的乐谱解析模型。支持音乐信息检索或跨模态对齐的研究者,可以同步使用`audio.*`文件和`transkun.mid`文件,构建音频-乐谱的对应关系。数据集的`frame_size`和`score_grid_rows`参数明确了图像网格的组织方式,便于进行批量处理和可视化。
背景与挑战
背景概述
在音乐信息检索(MIR)领域,钢琴乐谱的自动识别与转录一直是备受关注的课题。YouTube Piano Score数据集由研究团队于2023年左右构建,旨在从YouTube海量钢琴演奏视频中提取高质量的乐谱图像及对应元数据,从而为乐谱图像分析、光学乐谱识别(OMR)以及多模态音乐理解提供标准化数据支撑。该数据集收录了涵盖不同视频片段的乐谱样本,包含元数据、乐谱图像网格、原始音频及MIDI转录结果,为研究乐谱布局检测、谱线分组、场景切换分割等任务提供了丰富的标注信息。通过系统化的乐谱片段划分与布局编码,该数据集显著推动了乐谱自动处理技术的发展,并在计算机音乐学与音乐教育领域产生了积极的学术影响。
当前挑战
YouTube Piano Score数据集所应对的核心领域挑战在于从非结构化演奏视频中自动提取并解析乐谱信息,具体包括:1) 视频中乐谱页面的场景切换检测:复杂拍摄环境与演奏者动作导致画面频繁变化,需精确识别谱面切换时刻;2) 乐谱布局的鲁棒检测:不同视频的乐谱排列方式、谱线间距及旋转角度差异显著,需要高度自适应的图像处理方法;3) 谱线分组与括号识别:多行谱表系统的自动划分及其括号类型推断具有较高的歧义性。在数据集构建过程中,团队面临从海量视频中筛选出适用于训练的片段、保证元数据标注的精度与一致性,以及处理低质量视频帧的难题,这要求构建一套自动化的处理管线并辅以人工校验策略,以确保数据的可靠性与可用性。
常用场景
经典使用场景
YouTube钢琴乐谱数据集(youtube-piano-score)为音乐信息检索领域提供了从海量在线视频中自动提取钢琴乐谱的珍贵资源。该数据集通过从YouTube钢琴演奏视频中提取高质量乐谱图像、对应音频及MIDI转录结果,为研究者搭建了连接视频演奏与乐谱符号的桥梁。经典使用场景包括基于视觉的乐谱识别与光学音乐识别(OMR)模型训练,研究者可利用其标注的乐谱图像网格、谱线间距及系统边界等元数据,开发能够自动将视频帧转化为数字乐谱的算法,推动从表演到乐谱的端到端转换技术发展。
解决学术问题
该数据集系统性地解决了钢琴乐谱数据获取困难与多模态对齐缺失的学术难题。传统乐谱数据集多来源于扫描版乐谱或人工标注,规模有限且缺乏与演奏音频的同步对应。YouTube钢琴乐谱数据集通过引入镜头检测、谱面布局推断及演奏分段等自动化流程,创造了包含视频分割、谱面旋转校正、谱表分组等精细标注的大规模多模态资源。这一创新使研究者能够深入探索音画对应关系建模、基于视频的乐谱结构分析以及跨模态音乐理解等前沿课题,对提升自动音乐转录(AMT)和智能音乐教育系统的准确性具有奠基性意义。
实际应用
在现实应用层面,该数据集为智能音乐教育工具与在线视频内容分析提供了关键支撑。基于其乐谱图像网格与逐帧元数据,可开发针对钢琴学习者的实时演奏对齐与分段导航系统,帮助用户快速定位特定乐谱段落。同时,该资源为视频平台的内容分类与版权管理开辟了新路径,通过自动识别视频中的乐谱内容,实现钢琴教学视频的智能标签化与结构化索引。此外,乐谱与音频的双模态对齐特性使其成为辅助听力障碍人士理解钢琴演奏的视觉化工具,将音乐艺术转化为可感知的符号序列。
数据集最近研究
最新研究方向
youtube-piano-score数据集聚焦于从海量YouTube钢琴演奏视频中自动化提取与标注乐谱信息,为计算机音乐分析、光学乐谱识别(OMR)及音乐信息检索(MIR)领域提供了高质量的训练与评估资源。当前研究热点包括基于深度学习的高精度谱面检测与音符转录算法,尤其是借助大规模互联网视频数据推动端到端的多模态音乐理解模型。该数据集的精细元数据结构,如节拍分割、谱线间距估计及声部布局标注,直接支撑了复杂音乐场景下的鲁棒性研究,对自动伴奏生成、数字音乐教育及古典音乐数字典藏等应用具有重要推动作用。其开放许可协议更促进了学术与工业界的合作创新,成为连接传统乐谱数字化与现代AI音乐技术的关键桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作