PianoVAM_v1.0
收藏PianoVAM_v1.0 数据集概述
基本信息
- 数据集名称:PianoVAM: A Multimodal Piano Performance Dataset
- 版本:v1.0
- 许可证:CC BY-NC-SA 4.0
- 语言:英语
- 创建方式:专家生成
- 数据来源:原始数据
数据集简介
PianoVAM(Video, Audio, Midi and Metadata)是一个多模态钢琴演奏数据集,专为音乐信息检索(MIR)研究设计。该数据集包含各种钢琴曲目的同步录音,提供跨多种模态的丰富数据,旨在为开发和评估能够理解音乐表演中视觉、听觉和符号方面复杂关系的模型提供全面资源。
数据内容
数据划分
- 训练集(train)
- 验证集(validation)
- 测试集(test)
数据模式
- 音频
- 视频
- 结构化数据
数据字段
- 记录时间(record_time)
- 数据划分(split)
- 作曲家(composer)
- 曲目(piece)
- 演奏方法(performance_method)
- 演奏类型(performance_type)
- 时长(duration)
- 演奏者信息(P1_name, P1_gender, P1_age, P1_skill, P1_musicmajor, P2_name, P2_gender, P2_age, P2_skill, P2_musicmajor)
- 坐标点(Point_LT, Point_RT, Point_RB, Point_LB)
- 标识符(id)
- 文件路径(audio_path, video_path, midi_path, handskeleton_path, tsv_path)
目录结构
PianoVAM_v1.0/ ├── Audio/(原始音频录音,WAV格式,44100 Hz采样率) ├── Handskeleton/(3D手部地标数据,JSON格式) ├── MIDI/(真实演奏数据,MIDI格式) ├── TSV/(预处理标签数据,TSV格式) ├── Video/(视频录音,MP4格式,1920x1080分辨率,60 fps) ├── metadata.json(元数据映射文件) ├── README.md └── Fingering/(即将推出,指法标注数据)
文件格式说明
TSV文件格式
- 列名:onset, key_offset, frame_offset, note, velocity
- onset:音符开始时间(秒)
- key_offset:手指物理释放时间(秒)
- frame_offset:声音完全结束时间(秒)
- note:MIDI音符编号
- velocity:MIDI力度值
使用说明
数据集可通过Hugging Face的datasets库加载,支持直接访问解码后的音频数据和下载原始源文件(音频、视频、MIDI)。
注意事项
- 所有名为"jiwoo"的钢琴家的视频表演都已对表演者的上半身应用了模糊效果,以保护隐私,键盘和手部保持完全可见且不受影响
- 数据集采用CC BY-NC-SA 4.0许可证,仅限非商业用途
引用方式
bibtex @inproceedings{kim2025pianovam, title={PianoVAM: A Multimodal Piano Performance Dataset}, author={Kim, Yonghyun and Park, Junhyung and Bae, Joonhyung and Kim, Kirak and Kwon, Taegyun and Lerch, Alexander and Nam, Juhan}, booktitle={Proceedings of the 26th International Society for Music Information Retrieval Conference (ISMIR)}, year={2025} }
联系方式
Yonghyun Kim/yonghyun.kim@gatech.edu




