DISCO-10M

Name: DISCO-10M
Creator: 苏黎世联邦理工学院
Published: 2023-10-05 17:45:00
License: 暂无描述

arXiv2023-10-05 更新2024-06-21 收录

下载链接：

https://huggingface.co/DISCOX

下载链接

链接失效反馈

官方服务：

资源简介：

DISCO-10M是由苏黎世联邦理工学院创建的大型音乐数据集，包含15296232条音乐数据，远超现有音乐数据集的规模。该数据集通过多阶段过滤过程确保数据质量，包括基于文本描述和音频嵌入的相似性。此外，数据集还提供了预计算的CLAP嵌入，便于直接应用于各种下游任务。DISCO-10M的目标是民主化和促进新研究，帮助推动音乐领域机器学习模型的创新发展。数据集内容丰富，覆盖多种音乐类型和来源，创建过程中采用了严格的筛选和匹配机制。应用领域广泛，旨在解决音乐分析、推荐系统和音乐创作中的问题。

DISCO-10M is a large-scale music dataset developed by ETH Zurich, containing 15,296,232 music samples, which far exceeds the scale of existing music datasets. This dataset ensures data quality through a multi-stage filtering process, including similarity checks based on textual descriptions and audio embeddings. Additionally, the dataset provides pre-computed CLAP embeddings to enable direct application across various downstream tasks. The core objective of DISCO-10M is to democratize access to and advance music-related research, facilitating the innovative development of machine learning models in the music domain. The dataset boasts rich content covering diverse music genres and sources, with strict screening and matching mechanisms adopted during its construction. It has a wide range of application scenarios, aiming to address key issues in music analysis, recommendation systems, and music creation.

提供机构：

苏黎世联邦理工学院

创建时间：

2023-06-23

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，大规模高质量数据集的匮乏长期制约着机器学习模型的演进。DISCO-10M的构建采用了一套严谨的多阶段过滤流程，以克服这一瓶颈。研究团队首先从涵盖多元流派的种子艺术家列表出发，通过广度优先搜索遍历Spotify的艺术家关系图谱，扩展至约40万位艺术家，并采集其热门曲目元数据。随后，利用曲目信息在YouTube平台进行检索，初步获得约4680万条匹配记录。为确保数据质量，团队设计了基于时长相似度、文本嵌入相似度（曲目标题与视频标题/描述）以及音频嵌入相似度（CLAP模型提取）的层级过滤机制，通过阈值设定剔除低质量匹配，最终形成包含1529万条高质量音乐视频链接的数据集。

特点

DISCO-10M的显著特征在于其前所未有的规模与精心设计的结构。该数据集包含超过1529万条记录，在数量级上超越了以往任何公开音乐数据集，为训练大规模模型提供了坚实基础。其核心优势在于提供了丰富的元数据与预计算嵌入：每条记录不仅包含指向Spotify预览音频和YouTube视频的链接，还整合了曲目时长、发行日期、显式内容标志、视频观看量等多维度信息。尤为重要的是，数据集附带了由Laion-CLAP模型生成的音频嵌入向量以及由Sentence-BERT生成的文本嵌入，极大降低了下游任务的计算门槛。此外，数据集涵盖了从1960年代至2023年的广泛时间跨度和多样音乐流派，并提供了不同规模与质量预设的子集（如DISCO-10K-random、DISCO-200k-high-quality），以适应从原型验证到高质量匹配需求的不同研究场景。

使用方法

DISCO-10M为音乐机器学习研究提供了灵活且资源高效的使用途径。研究者可直接利用数据集提供的预计算CLAP音频嵌入与Sentence-BERT文本嵌入，无需进行耗时的原始音频处理与特征提取，即可迅速开展音乐分类、检索、生成或跨模态学习等下游任务。对于需要原始音频的研究，可通过提供的Spotify预览URL或YouTube视频链接获取音频内容，但需注意遵守相应平台的服务条款。数据集的结构化元数据支持复杂的过滤与查询，例如基于显式内容标志、发行年份或音频相似度阈值进行样本筛选。为平衡计算资源与数据需求，建议根据任务复杂度选用适当的子集：DISCO-10K-random适用于快速原型开发；DISCO-200k-high-quality则适用于对匹配质量要求较高的任务。在使用过程中，研究者应留意数据集的局限性，如链接资源的时效性、潜在的内容偏差，并严格遵守仅用于学术研究的目的约束。

背景与挑战

背景概述

在音乐信息检索与机器学习交叉领域，大规模高质量数据集的匮乏长期制约着模型性能的突破性进展。苏黎世联邦理工学院的研究团队于2023年发布了DISCO-10M数据集，旨在构建超越现有音乐数据集规模一个数量级的开放资源。该数据集通过整合Spotify艺术家图谱与YouTube视频资源，采用多阶段过滤机制确保数据质量，并同步提供预计算的CLAP音频嵌入向量。其核心研究目标在于解决音乐机器学习领域数据稀缺性难题，为音乐分析、推荐系统与生成模型等下游任务提供基础设施支持，推动该领域研究范式的民主化进程。

当前挑战

DISCO-10M面临的挑战主要体现在两个维度：在领域问题层面，音乐数据的多模态特性与主观标注困境构成核心难点，如何建立跨平台音频语义对齐机制成为关键；在构建过程中，数据采集面临平台接口动态性带来的时效偏差，多源元数据融合需要设计复杂的相似度度量体系，而版权合规与伦理边界问题则要求构建者设计动态内容移除机制。此外，数据集规模扩张带来的计算资源消耗与存储优化需求，以及跨文化音乐表征的公平性问题，均为实际构建过程中需要持续应对的技术与伦理挑战。

常用场景

经典使用场景

在音乐信息检索与机器学习领域，大规模高质量数据集的匮乏长期制约着模型性能的突破。DISCO-10M以其超过1500万条音乐样本的庞大规模，为训练深度神经网络提供了前所未有的数据基础。该数据集最经典的应用场景在于音乐表征学习与跨模态检索，研究者可利用其预计算的CLAP音频嵌入，在共享的潜在空间中探索音乐音频与文本描述的语义关联，为音乐理解、分类与生成任务奠定坚实基础。

衍生相关工作

DISCO-10M的发布催生了一系列围绕大规模音乐数据的创新研究。其提供的预计算嵌入降低了研究门槛，促进了零样本音乐分类、音乐语义搜索等任务的探索。在生成式人工智能领域，该数据集为训练类似MusicLM、Jukebox的大规模音乐生成模型提供了关键的训练素材。此外，基于其构建的高质量子集（如DISCO-200k-high-quality）已成为评估音乐-文本对齐模型性能的新基准，推动了跨模态表示学习在音频领域的深入发展。

数据集最近研究