MUSICAVQA
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MUSICAVQA
下载链接
链接失效反馈官方服务:
资源简介:
为了探索对视听方式的场景理解和时空推理,我们构建了一个大型视听数据集MUSIC-AVQA,该数据集专注于问答任务。如上所述,高质量的数据集对于AVQA研究具有相当大的价值。
为什么是音乐表演?考虑到音乐表演是一个典型的多模态场景,由丰富的视听组件及其相互作用组成,因此适合用于探索有效的视听场景理解和推理。
基本信息
我们选择从YouTube手动收集大量的音乐表演视频。具体选择了吉他、大提琴、木琴等22种乐器,并据此设计了9种视听题型,涵盖了视听、视听三种不同的场景。注释是由我们的GSAI标记系统使用小说收集的。
特征
3典型的多式联运场景
22种仪器
4类: 弦、风、打击乐器和键盘。
9,290视频超过150小时
7,423真实视频
1,867合成视频
9个视听题型
45,867问答对
多样性、复杂性和动态性
个人数据/人类受试者
音乐视频-AVQA在YouTube上公开,并通过众包进行注释。我们已经解释了如何将数据用于众筹人员。我们的数据集不包含个人身份信息或令人反感的内容。
提供机构:
OpenDataLab
创建时间:
2023-02-13



