google/MusicCaps|音乐分析数据集|音乐理解数据集

Name: google/MusicCaps|音乐分析数据集|音乐理解数据集
Creator: google
Published: 2023-03-08 14:37:09
License: 暂无描述

hugging_face2023-03-08 更新2024-03-04 收录

音乐分析

音乐理解

下载链接：

https://hf-mirror.com/datasets/google/MusicCaps

下载链接

链接失效反馈

资源简介：

MusicCaps数据集包含5,521个音乐示例，每个示例都带有英文的方面列表和由音乐家撰写的自由文本描述。这些描述专注于音乐的声音特征，而不是元数据如艺术家名称。数据集以.csv文件形式发布，包含YouTube视频的ID及其开始/结束时间戳。使用该数据集需要下载相应的YouTube视频并根据时间戳进行剪辑。

提供机构：

google

原始信息汇总

数据集卡片 for MusicCaps

数据集描述

数据集概述

MusicCaps 数据集包含 5,521 个音乐示例，每个示例都标有英语的 aspect list 和由音乐家编写的 free text caption。例如，aspect list 可能是 "pop, tinny wide hi hats, mellow piano melody, high pitched female vocal melody, sustained pulsating synth lead"，而 caption 则由多句话组成，描述音乐的声音，例如：

"A low sounding male voice is rapping over a fast paced drums playing a reggaeton beat along with a bass. Something like a guitar is playing the melody along. This recording is of poor audio-quality. In the background a laughter can be noticed. This song may be playing in a bar."

这些标注示例是从 AudioSet 数据集中提取的 10 秒音乐片段（2,858 来自 eval 分割，2,663 来自 train 分割）。

数据集使用

发布的数据集以 .csv 文件的形式存在，包含 YouTube 视频的 ID 及其开始/结束时间戳。使用此数据集需要下载相应的 YouTube 视频，并根据开始/结束时间进行分割。

支持的任务和排行榜

[更多信息需要]

语言

[更多信息需要]

数据集结构

数据实例

[更多信息需要]

数据字段

ytid: 指向包含标注音乐片段的 YouTube 视频的 YT ID。可以通过打开 https://youtu.be/watch?v={ytid}&start={start_s} 来收听片段。
start_s: 音乐在 YouTube 视频中开始的位置。
end_s: 音乐在 YouTube 视频中结束的位置。所有片段都是 10 秒长。
audioset_positive_labels: 来自 AudioSet (https://research.google.com/audioset/) 数据集的此片段的标签。
aspect_list: 描述音乐的 aspect list。
caption: 描述音乐的多句自由文本 caption。
author_id: 用于按编写者分组样本的整数。
is_balanced_subset: 如果此值为 true，则该行是按流派平衡的 1k 子集的一部分。
is_audioset_eval: 如果此值为 true，则该片段来自 AudioSet eval 分割。否则来自 AudioSet train 分割。

数据分割

[更多信息需要]

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

此数据集由 @googleai 分享。

许可信息

此数据集的许可为 cc-by-sa-4.0。

引用信息

bibtex [更多信息需要]

贡献

[更多信息需要]

AI搜集汇总

数据集介绍

构建方式

MusicCaps数据集的构建基于AudioSet数据集，精选了其中的5,521个10秒音乐片段，并由专业音乐人对其进行标注。每个音乐片段不仅附有详细的英语描述列表（aspect list），还包含一段自由文本的描述（caption），专注于音乐的听觉特征而非元数据。这些标注旨在捕捉音乐的细微听觉差异，为音乐分析和生成模型提供了丰富的训练数据。

特点

MusicCaps数据集的显著特点在于其精细的标注方式和多样化的音乐描述。每个音乐片段都配备了专业的听觉描述，涵盖了音乐的多个维度，如节奏、音色和旋律等。此外，数据集还提供了音频片段在YouTube视频中的起止时间，便于用户直接获取原始音频数据。这种结构化的标注方式使得该数据集在音乐生成、分析和理解任务中具有广泛的应用潜力。

使用方法

使用MusicCaps数据集时，用户需首先下载对应的YouTube视频，并根据提供的起止时间截取10秒的音频片段。数据集以.csv文件形式发布，包含YouTube视频ID、起止时间、AudioSet标签、音乐描述列表及自由文本描述等字段。用户可通过提供的示例脚本和Notebook加载数据，并利用Gradio演示探索样本。该数据集适用于音乐生成、描述生成等任务，为研究者提供了丰富的音乐特征描述数据。

背景与挑战

背景概述

MusicCaps数据集由Google AI团队发布，包含5,521个音乐样本，每个样本都附有英语的方面列表和由音乐家撰写的自由文本描述。该数据集的核心研究问题在于通过详细的文本描述来捕捉音乐的听觉特征，而非依赖于艺术家名称等元数据。这些样本来源于AudioSet数据集，涵盖了从评估集和训练集中提取的10秒音乐片段。MusicCaps的创建旨在为音乐描述和生成模型提供丰富的训练数据，推动文本到语音合成等领域的研究进展。

当前挑战

MusicCaps数据集在构建过程中面临多项挑战。首先，如何从AudioSet中筛选出具有代表性的音乐片段，并确保这些片段能够准确反映音乐的多样性，是一个复杂的问题。其次，音乐的描述需要专业音乐家的参与，确保描述的准确性和丰富性，这增加了数据集构建的难度和成本。此外，数据集的标注过程中可能引入的偏见，如特定音乐风格或文化背景的偏好，也是需要解决的问题。最后，数据集的使用需要下载和处理YouTube视频，这增加了数据获取和处理的复杂性。

常用场景

经典使用场景

MusicCaps数据集的经典使用场景主要集中在音乐描述生成与理解领域。通过该数据集，研究者可以训练模型以生成或理解音乐片段的详细描述，包括音乐的风格、乐器使用、声音特征等。例如，模型可以学习从音乐片段中提取出‘流行音乐，带有清脆的宽广高帽，柔和的钢琴旋律，高音女声旋律，持续的脉动合成器主音’等描述性信息。

解决学术问题

MusicCaps数据集解决了音乐信息处理领域中音乐描述生成与理解的学术问题。传统上，音乐数据的描述依赖于元数据，如艺术家名称或专辑信息，而该数据集通过提供详细的音乐声音描述，使得研究者能够专注于音乐本身的声学特征。这不仅提升了音乐描述的准确性，还为音乐情感分析、风格分类等研究提供了新的视角和方法。

衍生相关工作

基于MusicCaps数据集，研究者已开展了多项相关工作，包括音乐描述生成模型的优化、音乐情感分析的深度学习方法以及音乐风格迁移的研究。这些工作不仅推动了音乐信息处理技术的发展，还为音乐教育和音乐治疗等领域提供了新的应用工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集