PianoVAM_v1.0

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/PianoVAM/PianoVAM_v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

PianoVAM是一个多模态钢琴表演数据集，旨在为音乐信息检索领域的研究提供支持。该数据集包含了同步录制的视频、音频、MIDI和元数据，涵盖了多种钢琴曲目的表演，由多位钢琴家演奏。数据集适用于开发和理解音乐表演中视觉、听觉和符号之间的复杂关系。

创建时间：

2025-09-08

原始信息汇总

PianoVAM_v1.0 数据集概述

基本信息

数据集名称：PianoVAM: A Multimodal Piano Performance Dataset
版本：v1.0
许可证：CC BY-NC-SA 4.0
语言：英语
创建方式：专家生成
数据来源：原始数据

数据集简介

PianoVAM（Video, Audio, Midi and Metadata）是一个多模态钢琴演奏数据集，专为音乐信息检索（MIR）研究设计。该数据集包含各种钢琴曲目的同步录音，提供跨多种模态的丰富数据，旨在为开发和评估能够理解音乐表演中视觉、听觉和符号方面复杂关系的模型提供全面资源。

数据内容

数据划分

训练集（train）
验证集（validation）
测试集（test）

数据模式

音频
视频
结构化数据

数据字段

记录时间（record_time）
数据划分（split）
作曲家（composer）
曲目（piece）
演奏方法（performance_method）
演奏类型（performance_type）
时长（duration）
演奏者信息（P1_name, P1_gender, P1_age, P1_skill, P1_musicmajor, P2_name, P2_gender, P2_age, P2_skill, P2_musicmajor）
坐标点（Point_LT, Point_RT, Point_RB, Point_LB）
标识符（id）
文件路径（audio_path, video_path, midi_path, handskeleton_path, tsv_path）

目录结构

PianoVAM_v1.0/ ├── Audio/（原始音频录音，WAV格式，44100 Hz采样率） ├── Handskeleton/（3D手部地标数据，JSON格式） ├── MIDI/（真实演奏数据，MIDI格式） ├── TSV/（预处理标签数据，TSV格式） ├── Video/（视频录音，MP4格式，1920x1080分辨率，60 fps） ├── metadata.json（元数据映射文件） ├── README.md └── Fingering/（即将推出，指法标注数据）

文件格式说明

TSV文件格式

列名：onset, key_offset, frame_offset, note, velocity
onset：音符开始时间（秒）
key_offset：手指物理释放时间（秒）
frame_offset：声音完全结束时间（秒）
note：MIDI音符编号
velocity：MIDI力度值

使用说明

数据集可通过Hugging Face的datasets库加载，支持直接访问解码后的音频数据和下载原始源文件（音频、视频、MIDI）。

注意事项

所有名为"jiwoo"的钢琴家的视频表演都已对表演者的上半身应用了模糊效果，以保护隐私，键盘和手部保持完全可见且不受影响
数据集采用CC BY-NC-SA 4.0许可证，仅限非商业用途

引用方式

bibtex @inproceedings{kim2025pianovam, title={PianoVAM: A Multimodal Piano Performance Dataset}, author={Kim, Yonghyun and Park, Junhyung and Bae, Joonhyung and Kim, Kirak and Kwon, Taegyun and Lerch, Alexander and Nam, Juhan}, booktitle={Proceedings of the 26th International Society for Music Information Retrieval Conference (ISMIR)}, year={2025} }

联系方式

Yonghyun Kim/yonghyun.kim@gatech.edu

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，PianoVAM_v1.0数据集通过精密的多模态同步采集技术构建而成。研究团队采用数字钢琴与高分辨率摄像设备同步录制多位钢琴演奏者的表演，确保音频、视频和MIDI数据流的时间对齐精度。数据采集过程涵盖不同音乐风格与复杂度的曲目，并通过专家标注生成包括演奏者信息、乐曲元数据和多媒体文件路径在内的结构化元数据。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，利用内置音频解码功能获取波形数据与元信息。通过构建完整的媒体文件URL，用户可灵活下载原始音频、视频及MIDI文件进行本地分析。数据集已预分为训练集、验证集和测试集，支持音乐转录、表演分析等多任务研究，且即将开放指法标注数据以扩展研究维度。

背景与挑战

背景概述

钢琴演奏多模态分析作为音乐信息检索领域的前沿方向，近年来受到学术界广泛关注。PianoVAM_v1.0数据集由韩国科学技术院等机构的研究团队于2025年创建，旨在通过同步采集音频、视频、MIDI信号及手部骨骼数据，构建钢琴演奏的多模态表征体系。该数据集涵盖了不同难度等级的曲目演奏记录，为研究音乐表演的视听关联机制、自动音乐转录等技术提供了重要基础资源，显著推动了计算音乐学与人工智能的交叉研究进展。

当前挑战

在音乐信息检索领域，钢琴演奏的多模态分析面临演奏动作与声音信号时空对齐、跨模态特征融合等核心难题。数据集构建过程中需克服多传感器同步采集的技术挑战，包括高清视频与音频信号的毫秒级同步精度保障，以及手部关键点数据的精确提取。此外，演奏者隐私保护要求对视频数据进行局部模糊处理，这为基于视觉的演奏分析带来了数据可用性方面的特殊挑战。

常用场景

经典使用场景

在音乐信息检索领域，PianoVAM_v1.0数据集为多模态钢琴演奏分析提供了基准测试平台。该数据集通过同步采集音频、视频、MIDI信号及手部骨骼数据，支持研究者开发跨模态对齐算法，实现视觉动作与听觉信号的联合建模。其经典应用包括钢琴演奏自动转录、表演风格分析以及多模态音乐生成模型的训练与验证。

解决学术问题

该数据集有效解决了音乐技术领域多模态数据缺失的核心问题，为演奏动作-音频关联性研究提供实证基础。通过精确同步的视听-符号数据，支持音乐自动转录算法的精度提升，促进表演技巧量化分析模型的发展，并对跨模态表示学习、时序对齐等机器学习基础问题提供新的研究场景。

实际应用

在实践应用中，该数据集支撑智能音乐教育系统的开发，通过手部动作分析与音频反馈实现演奏技巧评估。同时为虚拟钢琴教学提供真实数据支撑，助力表演动作标准化研究。在娱乐产业中，其多模态数据可作为音乐可视化生成与交互式演奏系统的训练素材，推动艺术与科技的深度融合。

数据集最近研究