RapBank

Hugging Face2024-09-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/zqning/RapBank

下载链接

链接失效反馈

官方服务：

资源简介：

RapBank是首个用于说唱生成的数据集，收集自YouTube，包含92,371首歌曲，总计5,586小时的内容，涵盖84种语言。数据集的元数据存储在CSV文件中，包含视频ID、标题等信息。数据处理流程包括源分离、分段和歌词识别等步骤。数据集的许可证为CC BY-NC-SA 4.0，仅限非商业用途。

创建时间：

2024-09-12

原始信息汇总

RapBank 数据集概述

数据集简介

RapBank 是首个用于说唱生成的数据集。该数据集中的说唱歌曲收集自 YouTube，并提供了一个精心设计的数据处理管道。

数据集详情

数据来源

仓库: https://github.com/NZqian/RapBank
论文: https://arxiv.org/abs/2408.15474
演示: https://nzqian.github.io/Freestyler/

统计信息

RapBank 数据集包含 94,164 首歌曲的链接。由于某些视频不可用，成功下载了 92,371 首歌曲，总计 5,586 小时的内容，平均每首歌曲时长为 218 秒。这些歌曲涵盖了 84 种不同的语言，其中英语时长最高，总计 3,830 小时，约占总体时长的三分之二。

子集	DNSMOS 阈值	PPS 阈值	主唱阈值	总时长 (小时)	平均片段时长 (秒)
Orig Songs	-	-	-	5586.2	227.7
RapBank	-	-	-	4353.6	17.4
RapBank (English)	-	-	-	3830.1	17.3
Basic	2.5	12-35	0.8	1322.0	18.5
Standard	3.5	16-32	0.9	295.3	18.8
Premium	3.8	18-30	1.0	58.3	18.7

数据结构

元数据存储在一个 CSV 文件中，包含以下字段：

video_id, video_title, playlist_id, playlist_title, playlist_index

用户可以通过访问 https://www.youtube.com/watch?v=video_id 获取相应的说唱视频，并使用提供的管道进行数据处理。

数据处理管道

数据处理管道包括源分离、分段、歌词识别等步骤，详细信息可在论文中找到。

安装依赖

pip install -r requirements.txt

数据处理

下载说唱歌曲后，将其放置在 wav 文件夹中，例如 /path/to/your/data/wav，然后使用 pipeline.sh 处理数据：

bash pipeline.sh /path/to/your/data /path/to/save/features start_stage stop_stage

阶段范围从 0 到 5。

建议使用多 GPU 以加快处理速度。

许可证

数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。更多详细信息请访问 https://creativecommons.org/licenses/by-nc-sa/4.0/。

免责声明

本数据集按“原样”提供，不提供任何明示或暗示的保证，包括但不限于适销性和特定用途适用性的暗示保证。在任何情况下，版权持有人均不对任何直接、间接、附带、特殊、惩戒性或后果性损害（包括但不限于替代商品或服务的采购；使用、数据或利润的损失；或业务中断）承担责任，无论是否基于合同、严格责任或侵权（包括疏忽或其他），即使已被告知此类损害的可能性。

访问条款

RapBank 数据集源自公开可用的 YouTube 视频，可在 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证下下载用于非商业目的。我们不拥有音频的版权：版权仍归视频或音频的原始所有者所有，RapBank 中提供了原始视频或音频的公共 URL。

访问条款：研究人员已请求使用 RapBank 数据库的权限。作为交换，研究人员在此同意以下条款和条件：

研究人员仅将数据库用于非商业研究和教育目的。
作者对数据库不做任何陈述或保证，包括但不限于非侵权或适合特定用途的保证。
研究人员对其使用数据库的行为负全部责任，并应为 RapBank 的作者及其员工、受托人、官员和代理人辩护并赔偿因研究人员使用数据库而产生的任何和所有索赔，包括但不限于研究人员从数据库中创建的任何受版权保护的音频文件的使用。
研究人员可以向研究同事提供对数据库的访问权限，前提是他们首先同意遵守这些条款和条件。
作者保留随时终止研究人员访问数据库的权利。
如果研究人员受雇于营利性商业实体，其雇主也应受这些条款和条件的约束，研究人员在此代表其雇主全权授权进入本协议。

搜集汇总

数据集介绍

构建方式

RapBank数据集是首个专注于说唱音乐生成的数据集，其构建过程始于从YouTube平台收集大量说唱歌曲。通过精心设计的数据处理流程，包括音源分离、分段处理以及歌词识别等步骤，最终形成了包含92,371首歌曲的完整数据集。这些歌曲涵盖了84种不同的语言，总时长达到5,586小时，其中英语歌曲占据了主要部分，时长达3,830小时。数据集的元数据以CSV文件形式存储，包含视频ID、标题、播放列表信息等关键字段。

特点

RapBank数据集的特点在于其多样性和规模。它不仅涵盖了多种语言的歌曲，还提供了丰富的元数据信息，便于用户进行深度分析和处理。数据集的歌曲平均时长为218秒，且通过不同的子集划分（如Basic、Standard、Premium），用户可以根据需求选择不同质量级别的数据。此外，数据集还提供了详细的处理流程和工具支持，使得用户能够高效地进行数据预处理和特征提取。

使用方法

使用RapBank数据集时，用户首先需要安装相关依赖，并将下载的歌曲文件放置在指定的`wav`文件夹中。随后，通过运行`pipeline.sh`脚本，用户可以启动数据处理流程，该流程支持从0到5的不同阶段，涵盖音源分离、分段处理等关键步骤。为了提高处理速度，建议使用多GPU环境。数据集的非商业使用需遵循CC BY-NC-SA 4.0许可协议，用户需确保在使用过程中遵守相关条款和条件。

背景与挑战

背景概述

RapBank数据集是首个专注于说唱音乐生成的数据集，由研究人员从YouTube平台收集了大量说唱歌曲，并通过精心设计的数据处理流程进行整理。该数据集由新西兰的研究团队于2024年创建，旨在为自然语言处理和音乐生成领域提供高质量的说唱音乐数据。RapBank涵盖了84种语言的说唱歌曲，总时长超过5,586小时，其中英语歌曲占比最高，达到3,830小时。该数据集的发布为说唱音乐生成、歌词识别以及跨语言音乐分析等研究提供了重要支持，推动了音乐生成技术的进一步发展。

当前挑战

RapBank数据集在构建过程中面临多重挑战。首先，数据来源的多样性和复杂性使得数据清洗和预处理变得尤为困难，尤其是针对不同语言和风格的说唱歌曲。其次，由于部分视频的不可用性，数据集的实际下载量略低于预期，这对数据完整性提出了挑战。此外，数据处理的流程涉及音频分离、分段和歌词识别等多个步骤，计算资源需求较高，尤其是在处理大规模数据时，多GPU并行计算成为必要手段。最后，数据集的版权问题也需谨慎处理，确保所有数据的使用符合非商业研究的目的，并遵守相关法律条款。

常用场景

经典使用场景

RapBank数据集在说唱音乐生成领域具有广泛的应用，尤其是在文本到语音（TTS）和音乐生成任务中。研究人员可以利用该数据集中的大量说唱歌曲，训练生成模型以创作新的说唱音乐。通过其丰富多样的语言和风格，RapBank为生成模型提供了多样化的训练素材，使其能够生成更具创意和个性化的说唱作品。

衍生相关工作

RapBank数据集衍生了许多相关的研究工作，尤其是在音乐生成和语音合成领域。例如，基于该数据集的生成模型Freestyler在说唱音乐生成任务中表现出色，展示了其在跨语言音乐生成中的潜力。此外，RapBank还为歌词识别和语音分离技术提供了新的研究方向，推动了相关领域的技术创新。

数据集最近研究