PianoVAM

Name: PianoVAM
Creator: 韩国科学技术院
Published: 2025-09-19 01:59:24
License: 暂无描述

arXiv2025-09-19 更新2025-09-20 收录

下载链接：

https://github.com/yonghyunk1m/PianoVAM-Code

下载链接

链接失效反馈

官方服务：

资源简介：

PianoVAM是由韩国科学技术院和乔治亚理工学院音乐信息学组合作创建的多模态钢琴表演数据集。该数据集通过PiaRec和ASDF两个工具集实现了音频、视频、MIDI和演奏元数据的同步采集以及演奏者指法的有效标注。数据集旨在为音乐艺术和技术研究提供深入洞察，并支持创建大规模多模态钢琴表演数据集，推动实证研究的发展。

PianoVAM is a multimodal piano performance dataset jointly developed by the Music Informatics Group of the Korea Advanced Institute of Science and Technology and the Georgia Institute of Technology. This dataset leverages two toolkits, PiaRec and ASDF, to achieve synchronized collection of audio, video, MIDI and performance metadata, as well as effective annotation of performers' fingerings. The dataset aims to provide in-depth insights for music art and technology research, support the creation of large-scale multimodal piano performance datasets, and promote the advancement of empirical research.

提供机构：

韩国科学技术院

创建时间：

2025-09-19

原始信息汇总

PianoVAM数据集概述

数据集基本信息

名称：PianoVAM
类型：钢琴演奏多模态数据集
规模：106段独奏钢琴录音，来自10位业余演奏者，总时长约21小时
数据格式：同步的视频、音频、MIDI、手部关键点、指法标签及丰富元数据
采集环境：使用Disklavier钢琴在真实练习条件下采集

数据内容

视频数据
音频数据
MIDI数据
手部关键点数据
指法标注标签
演奏元数据

采集与标注工具

PiaRec：数据采集系统

基于Python和Streamlit的Web控制面板
QR码控制系统用于启动录制、停止和用户识别
自动控制Logic Pro和OBS Studio等外部软件
通过音频源互相关实现数据流的精确自动对齐

ASDF：指法标注系统

半自动指法检测与人工验证混合工作流
支持视频中键盘区域校准和MediaPipe Hands手部骨骼数据提取
自动为每个音符生成指法候选建议
交互式界面高亮需要手动审核的音符

许可证

数据集使用CC BY-NC 4.0许可证
代码采用相同许可证

数据获取

数据集地址：https://huggingface.co/PianoVAM/
详细描述页面：https://yonghyunk1m.github.io/PianoVAM/

搜集汇总

数据集介绍

构建方式

在钢琴演奏多模态数据采集领域，PianoVAM数据集通过集成化网页工具包实现高效构建。其采用PiaRec系统自动同步采集音频、视频、MIDI及元数据，利用PyAutoGUI控制Logic Pro和OBS Studio实现多源数据精确对齐，并通过QR码系统触发采集流程。数据后处理阶段采用音频互相关算法计算时间偏移量，实现MIDI与音视频数据的毫秒级同步，最终生成结构化多模态数据单元。

特点

该数据集的核心特征体现在多模态深度融合与精细化标注体系。除基础音视频和MIDI数据外，首次通过ASDF系统实现了指法标注的半自动化生成，结合Mediapipe手部骨架跟踪算法与启发式键盘空间校准技术，构建了包含指法概率评分候选集的标注框架。数据集采用模块化设计，支持扩展至不同数字音频工作站，且所有数据流具备严格时序同步性，为演奏技巧分析提供高精度数据基础。

使用方法

研究者可通过GitHub获取开源工具包，使用PiaRec采集新数据或直接应用预构建数据集。针对指法分析任务，需先通过ASDF系统进行键盘区域空间标定与手部骨架数据提取，随后运行预标注算法生成指法候选集。人工验证环节采用多面板同步交互界面，支持点击钢琴卷帘导航至对应视频帧，实现高效的人工校验与标注修正。该数据集适用于演奏技巧分析、多模态音乐信息检索等研究方向。

背景与挑战

背景概述

钢琴演奏作为一种多模态活动，其研究涉及声学呈现与肢体动作的深度融合。PianoVAM数据集由韩国科学技术院（KAIST）与佐治亚理工学院音乐信息研究组于2025年联合创建，旨在解决多模态钢琴表演数据采集与指法标注的标准化问题。该数据集通过集成音频、视频、MIDI及指法标注，为计算音乐学与音乐信息检索领域提供了关键基础设施，推动了表演技巧分析、情感计算与人工智能辅助音乐教育等研究方向的发展。

当前挑战

多模态钢琴表演研究面临两大核心挑战：其一，指法标注存在高度主观性，需协调演奏家个体风格与技术规范性之间的平衡；其二，数据采集需同步音频、视频、MIDI等多源信号，传统方法依赖人工校准导致效率低下且易引入误差。构建过程中需克服硬件异构性带来的同步难题，并通过半自动化算法降低指法标注对专家经验的依赖，从而实现大规模数据的高效生产与标准化管理。

常用场景

经典使用场景

在钢琴演奏的多模态研究中，PianoVAM数据集通过同步采集音频、视频、MIDI和指法标注，为分析演奏技巧与音乐表达的内在联系提供了坚实基础。其典型应用场景包括音乐信息检索领域中对演奏风格的系统性量化，以及计算音乐学中对触键力度、节奏偏差与指法选择关联性的实证研究。该数据集使得研究者能够从多维度解构演奏行为，揭示艺术表现背后的物理与声学特征。

衍生相关工作

基于PianoVAM数据集衍生的经典研究包括Kim等人开发的端到端指法生成模型，该工作首次实现了从音频信号到指法序列的自动映射。后续研究进一步拓展了多模态融合网络在演奏情感识别中的应用，如通过结合手部运动轨迹与音频特征来量化演奏表现力。这些工作共同推动了计算音乐表演分析向更精细、更人性化的方向发展。

数据集最近研究