MUSIC Dataset

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/roudimit/MUSIC_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于Sound of Pixels项目的YouTube视频ID，具体包括11种和21种乐器的独奏视频ID，以及二重奏表演的视频ID。数据集在论文发布后移除了一些噪声视频，因此视频数量与论文中略有不同。

This dataset comprises YouTube video IDs utilized for the Sound of Pixels project, specifically including solo performance video IDs for 11 and 21 types of instruments, as well as video IDs for duet performances. The dataset has been refined post-publication of the research paper by removing some noisy videos, resulting in a slight discrepancy in the number of videos compared to those mentioned in the paper.

创建时间：

2018-08-13

原始信息汇总

MUSIC Dataset from Sound of Pixels

数据集内容

MUSIC_solo_videos.json: 包含11种乐器独奏表演的YouTube视频ID。
MUSIC21_solo_videos.json: 包含21种乐器独奏表演的YouTube视频ID。
MUSIC_duet_videos.json: 包含二重奏表演的YouTube视频ID。

数据集说明

数据集中的视频数量与论文中略有不同，因为后续移除了一些噪音视频。

引用信息

使用此数据集或代码时，请引用以下文献： bibtex @InProceedings{zhao2018sound, author = {Zhao, Hang and Gan, Chuang and Rouditchenko, Andrew and Vondrick, Carl and McDermott, Josh and Torralba, Antonio}, title = {The Sound of Pixels}, booktitle = {The European Conference on Computer Vision (ECCV)}, month = {September}, year = {2018} }

bibtex @inproceedings{zhao2019sound, title={The sound of motions}, author={Zhao, Hang and Gan, Chuang and Ma, Wei-Chiu and Torralba, Antonio}, booktitle={Proceedings of the IEEE International Conference on Computer Vision}, pages={1735--1744}, year={2019} }

搜集汇总

数据集介绍

构建方式

MUSIC数据集的构建基于YouTube视频平台，精心挑选了多种乐器独奏和二重奏的表演视频。具体而言，数据集包括了11种和21种乐器的独奏视频，分别存储在'MUSIC_solo_videos.json'和'MUSIC21_solo_videos.json'文件中，以及二重奏表演视频存储在'MUSIC_duet_videos.json'文件中。为了确保数据质量，部分噪音较大的视频在后期被移除，从而优化了数据集的纯净度。

特点

MUSIC数据集的显著特点在于其多样性和精细分类。该数据集不仅涵盖了多种乐器的独奏表演，还包含了二重奏的表演，为研究音乐与视觉的关联提供了丰富的素材。此外，数据集经过精心筛选，去除了噪音视频，确保了数据的纯净性和研究的有效性。

使用方法

使用MUSIC数据集时，研究者可以通过提供的YouTube视频ID直接访问相关视频内容，进行音乐与视觉关联的研究。数据集的文件结构清晰，便于提取和分析。在使用数据集时，请遵循引用要求，确保对原作者的尊重和研究成果的合法使用。

背景与挑战

背景概述

MUSIC数据集由麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究团队创建，旨在支持‘Sound of Pixels’项目，该项目探索了视觉与听觉信息之间的深度关联。该数据集包含了来自YouTube的多种乐器独奏和二重奏表演视频，涵盖11种和21种乐器的独奏视频以及二重奏视频。MUSIC数据集的发布时间为2018年，主要研究人员包括Hang Zhao、Chuang Gan等，其核心研究问题在于通过视觉信息推断声音，进而推动计算机视觉与音频处理领域的交叉研究。该数据集对音乐分析、多媒体内容理解等领域具有重要影响。

当前挑战

MUSIC数据集在构建过程中面临多项挑战。首先，从YouTube获取高质量且无噪音的视频数据是一个复杂的过程，研究人员不得不在后期移除部分噪音视频以确保数据质量。其次，如何准确标注和分类不同乐器的独奏和二重奏表演，尤其是区分相似乐器的发声特性，对数据集的构建提出了技术要求。此外，该数据集的应用场景涉及视觉与听觉信息的跨模态学习，这对现有的深度学习模型提出了新的挑战，尤其是在处理复杂的多模态数据时，模型的鲁棒性和准确性仍需进一步提升。

常用场景

经典使用场景

MUSIC数据集在音频与视觉多模态研究领域中占据重要地位，其经典使用场景主要集中在乐器识别与音频-视觉关联分析。通过该数据集，研究者能够深入探索不同乐器在独奏与合奏中的声音特征，并结合视频信息进行多模态学习。例如，研究者可以利用该数据集训练模型，使其能够从视频中准确识别出特定乐器的声音，或通过音频信号推断出视频中的视觉内容。

衍生相关工作

MUSIC数据集的发布催生了一系列相关经典工作，特别是在音频与视觉多模态学习领域。例如，基于该数据集的研究者们开发了多种多模态学习模型，用于音频与视觉信息的联合分析与识别。此外，该数据集还激发了在音乐情感分析、乐器自动识别等方向的研究，推动了多模态技术在音乐领域的深入应用。这些衍生工作不仅丰富了多模态学习理论，也为实际应用提供了技术支持。

数据集最近研究