five

Sleeping-DISCO 9M

收藏
arXiv2025-06-17 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/sleeping-disco-9m
下载链接
链接失效反馈
官方服务:
资源简介:
Sleeping-DISCO 9M是一个大规模的音乐和歌曲预训练数据集,由Sleeping AI、Wyndl Labs和L3S研究中心联合创建。该数据集旨在为生成音乐建模任务提供高质量的流行和知名歌曲数据,如文本音乐、音乐字幕、歌唱声音合成、旋律重建和跨模型检索。数据集包含8,956,887首歌曲,由648,118位艺术家演唱,涵盖了英语、日语和欧洲语言。数据集还包括深入的元数据,如个人歌曲和专辑相关信息、歌词嵌入、近千种流派以及所有广泛使用的语言。Sleeping-DISCO 9M为生成音乐建模领域提供了一个平衡的大规模预训练数据集,并通过抓取流行的在线歌词和歌曲元数据网站Genius,提供了高质量和大规模的音频数据。

Sleeping-DISCO 9M is a large-scale music and song pre-training dataset jointly developed by Sleeping AI, Wyndl Labs, and the L3S Research Center. This dataset aims to provide high-quality popular and well-known song data for generative music modeling tasks, such as text-to-music generation, music captioning, singing voice synthesis, melody reconstruction, and cross-modal retrieval. The dataset contains 8,956,887 songs performed by 648,118 artists, covering English, Japanese, and European languages. The dataset also features comprehensive metadata, including information associated with individual songs and albums, lyric embeddings, nearly one thousand music genres, and annotations for all widely used languages. Sleeping-DISCO 9M offers a balanced large-scale pre-training dataset for the field of generative music modeling, and provides high-quality, large-scale audio data by scraping data from the popular online lyrics and song metadata platform Genius.
提供机构:
Sleeping AI, Wyndl Labs, L3S Research Centre
创建时间:
2025-06-17
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐生成建模领域,高质量数据集的稀缺性长期制约着研究的深入发展。Sleeping-DISCO 9M通过系统化爬取Genius音乐平台的完整元数据架构,构建了包含896万首歌曲、64万艺术家的多维数据集。研究团队采用cloudscraper库突破Cloudflare防护,结合beautifulsoup解析HTML文档,完整提取歌曲详情、专辑信息、艺术家资料等结构化字段,并配套存储原始网页链接。为确保数据质量,实施严格的质量控制流程,包括YouTube视频标题与歌曲名称的嵌入向量相似度验证(如表3所示),最终形成覆盖169种语言、包含歌词嵌入和视频元数据的综合音乐知识库。
特点
该数据集最显著的特征在于其真实性与丰富性的完美平衡。相较于DISCO-10M等仅提供音频链接的粗粒度数据集,Sleeping-DISCO 9M包含每首歌曲的精细化元数据(艺术家、专辑、发行年份等)及近千种音乐流派标签(图3)。其语言覆盖度突破性地包含英语、日语及欧盟语系在内的169种语言,且45万小时的音频时长全部源自现实流行音乐作品。独特的时间维度检索功能支持按年份追溯音乐演变,而专业歌词嵌入向量则为跨模态研究提供支持,这些特质使其在表2的横向比较中展现出明显的差异化优势。
使用方法
作为生成式音乐建模的基础训练资源,该数据集支持多层次的科研应用。研究者可通过Huggingface平台获取结构化元数据,利用配套的YouTube链接建立本地音频库。对于歌词生成任务,8.9M量级的歌词嵌入向量支持语义驱动的音乐创作;跨模态检索则可结合音频特征与丰富的元数据进行联合建模。学术机构经授权后还可获取Genius专属的音乐注释数据,为音乐描述生成等前沿方向提供稀缺标注。需注意数据集采用CC-BY-NC-ND 4.0协议,禁止衍生作品创作,但允许完整的科研用途开发。
背景与挑战
背景概述
Sleeping-DISCO 9M是由Sleeping AI、Wyndl Labs和L3S Research Centre的研究团队于2025年推出的大规模音乐预训练数据集,旨在解决生成式音乐建模领域缺乏高质量、多样化且代表现实世界流行音乐的数据集的问题。该数据集包含近900万首歌曲,涵盖648,118位艺术家和169种语言,特别注重英语、日语和欧洲语言。与以往专注于合成或重新录制音乐的数据集(如GTSinger、M4Singer)或大规模但缺乏元数据的音频数据集(如DISCO-10M、LAION-DISCO-12M)不同,Sleeping-DISCO 9M通过从Genius网站爬取真实流行音乐及其丰富元数据,填补了生成式音乐建模领域的数据空白,为文本到音乐生成、音乐描述、歌声合成等任务提供了重要支持。
当前挑战
生成式音乐建模领域长期面临两大挑战:一是缺乏能够代表现实世界流行音乐的高质量数据集,现有数据集多为合成或重新录制的音乐,无法满足模型对真实音乐风格和多样性的需求;二是数据集构建过程中面临的技术与法律难题,包括大规模音乐数据的爬取与清洗、元数据的完整性保障、版权问题的规避等。Sleeping-DISCO 9M在构建过程中需解决Genius网站的反爬机制,确保数据爬取的合法性与可持续性,同时需处理海量音频与元数据的对齐问题,以及多语言歌词嵌入的生成与匹配。此外,如何平衡数据规模与质量,并在开放共享的同时遵守版权法规,亦是该数据集面临的核心挑战。
常用场景
经典使用场景
Sleeping-DISCO 9M数据集在生成式音乐建模领域具有广泛的应用价值,尤其适用于文本到音乐生成、音乐字幕生成、歌声合成、旋律重建以及跨模态检索等任务。该数据集以其大规模、高质量和丰富的元数据著称,为研究人员提供了一个统一的训练平台,避免了以往研究中数据分散和私有化的问题。
实际应用
在实际应用中,Sleeping-DISCO 9M被用于开发智能音乐创作工具、个性化音乐推荐系统以及跨语言音乐检索平台。其丰富的语言覆盖和详细的元数据使得该数据集在商业音乐服务和娱乐产业中具有重要价值。
衍生相关工作
Sleeping-DISCO 9M的发布推动了多项相关研究,包括基于该数据集的生成模型优化、多模态音乐理解以及跨语言音乐生成。例如,一些研究团队利用其元数据和音频嵌入开发了更高效的旋律重建算法和歌词生成模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作