RapBank
收藏RapBank 数据集概述
数据集简介
RapBank 是首个用于说唱生成的数据集。该数据集中的说唱歌曲收集自 YouTube,并提供了一个精心设计的数据处理管道。
数据集详情
数据来源
- 仓库: https://github.com/NZqian/RapBank
- 论文: https://arxiv.org/abs/2408.15474
- 演示: https://nzqian.github.io/Freestyler/
统计信息
RapBank 数据集包含 94,164 首歌曲的链接。由于某些视频不可用,成功下载了 92,371 首歌曲,总计 5,586 小时的内容,平均每首歌曲时长为 218 秒。这些歌曲涵盖了 84 种不同的语言,其中英语时长最高,总计 3,830 小时,约占总体时长的三分之二。
| 子集 | DNSMOS 阈值 | PPS 阈值 | 主唱阈值 | 总时长 (小时) | 平均片段时长 (秒) |
|---|---|---|---|---|---|
| Orig Songs | - | - | - | 5586.2 | 227.7 |
| RapBank | - | - | - | 4353.6 | 17.4 |
| RapBank (English) | - | - | - | 3830.1 | 17.3 |
| Basic | 2.5 | 12-35 | 0.8 | 1322.0 | 18.5 |
| Standard | 3.5 | 16-32 | 0.9 | 295.3 | 18.8 |
| Premium | 3.8 | 18-30 | 1.0 | 58.3 | 18.7 |
数据结构
元数据存储在一个 CSV 文件中,包含以下字段:
video_id, video_title, playlist_id, playlist_title, playlist_index
用户可以通过访问 https://www.youtube.com/watch?v=video_id 获取相应的说唱视频,并使用提供的管道进行数据处理。
数据处理管道
数据处理管道包括源分离、分段、歌词识别等步骤,详细信息可在论文中找到。
安装依赖
pip install -r requirements.txt
数据处理
下载说唱歌曲后,将其放置在 wav 文件夹中,例如 /path/to/your/data/wav,然后使用 pipeline.sh 处理数据:
bash pipeline.sh /path/to/your/data /path/to/save/features start_stage stop_stage
阶段范围从 0 到 5。
建议使用多 GPU 以加快处理速度。
许可证
数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。更多详细信息请访问 https://creativecommons.org/licenses/by-nc-sa/4.0/。
免责声明
本数据集按“原样”提供,不提供任何明示或暗示的保证,包括但不限于适销性和特定用途适用性的暗示保证。在任何情况下,版权持有人均不对任何直接、间接、附带、特殊、惩戒性或后果性损害(包括但不限于替代商品或服务的采购;使用、数据或利润的损失;或业务中断)承担责任,无论是否基于合同、严格责任或侵权(包括疏忽或其他),即使已被告知此类损害的可能性。
访问条款
RapBank 数据集源自公开可用的 YouTube 视频,可在 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证下下载用于非商业目的。我们不拥有音频的版权:版权仍归视频或音频的原始所有者所有,RapBank 中提供了原始视频或音频的公共 URL。
访问条款:研究人员已请求使用 RapBank 数据库的权限。作为交换,研究人员在此同意以下条款和条件:
- 研究人员仅将数据库用于非商业研究和教育目的。
- 作者对数据库不做任何陈述或保证,包括但不限于非侵权或适合特定用途的保证。
- 研究人员对其使用数据库的行为负全部责任,并应为 RapBank 的作者及其员工、受托人、官员和代理人辩护并赔偿因研究人员使用数据库而产生的任何和所有索赔,包括但不限于研究人员从数据库中创建的任何受版权保护的音频文件的使用。
- 研究人员可以向研究同事提供对数据库的访问权限,前提是他们首先同意遵守这些条款和条件。
- 作者保留随时终止研究人员访问数据库的权利。
- 如果研究人员受雇于营利性商业实体,其雇主也应受这些条款和条件的约束,研究人员在此代表其雇主全权授权进入本协议。




