CoP Benchmark Dataset

Name: CoP Benchmark Dataset
Creator: Giant Network AI Lab, University of Trento
Published: 2025-05-26 22:24:19
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/acappemin/Video-to-Audio-and-Piano

下载链接

链接失效反馈

官方服务：

资源简介：

CoP Benchmark Dataset是一个专为视频引导钢琴音乐生成设计的多模态基准数据集。该数据集由Giant Network AI Lab和University of Trento的研究人员创建，提供了详细的多模态注释，以促进视频内容和钢琴音频之间的精确语义和时序对齐。数据集包括10小时的视频内容，由两位技艺精湛的钢琴家演奏，涵盖了从粗略到精细的MIDI生成，以及不同演奏风格的钢琴音频。数据集完全开源，并提供了包括注释和评估协议在内的完整数据集，以及持续更新的排行榜，以推动视频到钢琴音乐生成的进一步研究。

The CoP Benchmark Dataset is a multimodal benchmark dataset specifically designed for video-guided piano music generation. It was created by researchers from Giant Network AI Lab and the University of Trento, and provides detailed multimodal annotations to facilitate precise semantic and temporal alignment between video content and piano audio. The dataset contains 10 hours of video content performed by two accomplished pianists, covering coarse-to-fine MIDI generation and piano audio with a wide range of performance styles. The dataset is fully open-source, offering the complete dataset package including annotations and evaluation protocols, as well as a continuously updated leaderboard to advance further research on video-to-piano music generation.

提供机构：

Giant Network AI Lab, University of Trento

创建时间：

2025-05-26

原始信息汇总

Video to Audio and Piano 数据集概述

基本信息

项目名称: Video to Audio and Piano
相关论文: Paper
项目网页: Webpage
预训练模型: Models
演示平台:

研究团队

机构: AI Lab Giant Network, Zhejiang University, University of Washington
作者: Haomin Zhang, Sizhe Shan, Haoyu Wang, Zihao Chen, Xiulong Liu, Chaofan Ding, Xinhan Di

数据集内容

视频到音频合成结果:
- 结果1
- 结果2
视频到钢琴合成结果:
- 结果1
- 结果2
- 结果3
- 结果4
- 结果5
- 结果6
- 结果7
- 结果8

安装与使用

环境配置: bash conda create -n v2ap python=3.10 conda activate v2ap pip install -r requirements.txt
推理:
- 视频到音频推理: python src/inference_v2a.py
- 视频到钢琴推理: python src/inference_v2p.py

致谢

搜集汇总

数据集介绍

构建方式

在视频引导钢琴音乐生成领域，CoP Benchmark Dataset的构建采用了多模态协同设计理念。研究团队邀请两位风格迥异的专业钢琴演奏家，在五视角拍摄环境下录制了长达10小时的演奏视频数据，确保键盘和踏板动作的完整可视性。基于Chain-of-Perform框架，数据集构建过程分为思维和生成两阶段：首先通过微调大语言模型解析用户需求并确定音乐要素（如MIDI音高、力度、延音）与对应视角的映射关系，随后采用渐进式生成策略，从基础音高识别到融合多视角的精细参数生成，最终实现带演奏风格的高保真音频合成。

特点

该数据集的核心价值体现在三个维度：多模态标注体系通过Chain-of-Perform框架提供视频内容与钢琴音频的语义-时序双维度对齐标签，涵盖从基础音符到时值力度的多层次音乐要素；评估框架创新性地整合了传统音频指标（FAD、CLAP分数）与音乐专用指标（MIDI精度、平均意见得分），实现对生成质量与对齐精度的双重测评；全开源特性不仅包含原始视频-音频对，还提供完整的思维阶段推理路径标注，为研究社区建立了可追溯的基准测试环境。

使用方法

使用者可通过四阶渐进流程开展研究：初级应用可仅利用俯视视角视频生成基础MIDI序列，验证音高识别能力；中级研究需整合左右前视角实现力度参数建模；进阶工作则引入踏板视角完成延音控制；最终阶段支持通过参考视频-音频对实现风格迁移。评估时建议采用双轨制：思维阶段检验推理模型的格式准确性与结果一致性，生成阶段综合客观指标（FD、KL散度）与主观听评（MOS）进行立体评估。数据集配套的持续更新的排行榜机制，可动态追踪领域技术进展。

背景与挑战

背景概述

CoP Benchmark Dataset是由Giant Network AI Lab与University of Trento联合团队于2025年提出的多模态基准数据集，专注于视频引导的钢琴音乐生成领域。该数据集源于对现有视频到音频（V2A）合成技术局限性的深刻洞察，特别是针对钢琴音乐生成中语义与时序对齐的精确性需求。研究团队通过引入链式表演（Chain-of-Perform, CoP）框架，构建了包含10小时多视角钢琴演奏视频及精细标注的数据集，涵盖MIDI音高、力度、延音等多维度信息。其创新性体现在将推理与生成过程解耦的阶段性架构设计，以及公开的评估协议与持续更新的排行榜机制，为视频到钢琴音乐的跨模态生成任务建立了首个系统化的评估基准。

当前挑战

该数据集主要面临三方面挑战：在领域问题层面，现有通用音频生成指标（如FAD、CLAP分数）难以准确捕捉钢琴音乐特有的触键力度、踏板控制等细微表现力特征，导致评估维度不完整；在模态对齐层面，视频中手指运动轨迹与音频频谱的跨模态映射存在非线性关系，尤其是快速连奏或踏板延音等复杂演奏技巧的同步精度不足；在数据构建层面，需解决多视角视频采集时光照一致性保持、演奏者个体风格差异消除，以及专家标注中音乐表现力参数（如rubato节奏弹性）的量化标准化问题。此外，数据集的规模扩展受限于专业钢琴演奏者的稀缺性及高质量多视角录制设备的成本约束。

常用场景

经典使用场景

在音乐信息检索与生成领域，CoP Benchmark Dataset为视频引导的钢琴音乐生成任务提供了标准化评估框架。该数据集通过多视角钢琴演奏视频与精细标注的MIDI参数（音高、力度、延音等）的严格对齐，成为验证视觉-听觉跨模态对齐算法的理想测试平台。其分阶段生成范式（从基础MIDI到高保真音频）尤其适合评估生成模型在时序精度和语义一致性方面的表现，例如验证扩散模型能否根据踏板视角视频准确生成延音效果。

解决学术问题

该数据集有效解决了视频到钢琴音乐生成中的两大核心难题：一是突破了传统评估指标（如FAD、CLAP分数）对音乐-视觉细粒度对齐的度量局限，通过引入踏板视角等专有模态数据，实现了演奏技法与音频生成的精准映射；二是构建了首个包含链式表演标注（Chain-of-Perform）的基准，将生成过程解构为思维-执行两阶段，为理解多模态推理中的因果关联提供了可解释性研究基础。这对提升音乐生成的时序控制（如连奏/断奏区分）和风格迁移（如不同钢琴家演奏习惯）具有里程碑意义。

衍生相关工作

基于CoP数据集的开源特性，已衍生出三类代表性工作：一是MMAudio-L-44.1kHz等模型在其上的微调研究，证明了多尺度注意力机制对踏板动作检测的有效性；二是FoleyCrafter团队提出的跨模态对比学习框架，利用该数据集的链式标注实现了演奏风格迁移；三是Qwen-QwQ-32B等大语言模型通过思维阶段的形式化评估，推动了音乐生成可解释性研究。这些工作共同推进了视频到结构化音频生成的理论与方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集