musdb18-processed

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/cs229-audio-ml-project/musdb18-processed

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个来自MUSDB18数据集的活跃片段版本，专门为提高音乐源分离模型的训练效率而设计。它只包含每个音轨（鼓点、贝斯、人声、伴奏和混合）中能量显著的片段。数据集具有一致的格式，采样率为22.05 kHz，单声道音频，并提供详细的段信息统计。

创建时间：

2025-10-24

原始信息汇总

MUSDB18 Active Stems Dataset - CS229 Project

数据集概述

这是一个基于MUSDB18数据集的处理版本，专门提取了各音轨（鼓、贝斯、人声、伴奏和混合）的有效片段，旨在提高音乐源分离模型的训练效率。

关键特性

有效片段检测：仅包含具有显著能量的音轨片段
5种音轨：混合音轨、鼓、贝斯、人声、伴奏
统一格式：22.05 kHz采样率，单声道音频
丰富元数据：详细的片段信息和统计信息

数据集结构

extracted_stems/ ├── train/ # 训练集 │ ├── drums/ # 有效鼓片段 │ ├── bass/ # 有效贝斯片段 │ ├── vocals/ # 有效人声片段 │ ├── accompaniment/ # 有效伴奏片段 │ └── mixture/ # 有效混合片段 ├── test/ # 测试集（相同结构） └── metadata/ # JSON元数据文件

提取参数

片段长度：4.0秒
跳跃长度：2.0秒（50%重叠）
能量阈值：0.01 RMS
采样率：22,050 Hz
最小持续时间：1.0秒

引用信息

bibtex @dataset{cs229_musdb18_active_stems, title={MUSDB18 Active Stems Dataset}, author={CS229 Audio ML Project Team}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/cs229-audio-ml-project/musdb18-processed} }

原始MUSDB18引用： bibtex @misc{musdb18, author = {Rafii, Zafar and Liutkus, Antoine and Stöter, Fabian-Robert and Mimilakis, Stylianos Ioannis and Bittner, Rachel}, title = {MUSDB18-HQ - an uncompressed version of MUSDB18}, month = {December}, year = {2019}, doi = {10.5281/zenodo.3338373}, url = {https://doi.org/10.5281/zenodo.3338373} }

搜集汇总

数据集介绍

构建方式

在音乐源分离研究领域，该数据集基于MUSDB18原始素材，通过能量阈值检测技术筛选出具有显著声学能量的活跃片段。构建过程采用4秒固定时长与2秒跳跃步长的滑动窗口策略，确保片段间50%的重叠率以增强数据连续性。所有音频统一转换为22.05kHz采样率的单声道格式，并辅以包含轨道名称、分段统计等信息的元数据体系，形成结构化的训练与测试集划分。

特点

该数据集的核心特征体现在其专注音乐信号中的有效成分，通过主动段检测机制滤除静默片段，显著提升模型训练效率。涵盖鼓组、贝斯、人声、伴奏及混合音轨五类音源，各片段均保持统一的音频规格与时间长度。丰富的元数据标注为深度分析提供支持，其标准化预处理流程特别适用于卷积时域网络等现代分离架构的对比研究。

使用方法

研究者可通过Hugging Face数据集库直接加载该资源，利用Python接口迭代获取音频数组与对应的音轨类型标签。对于特定分析需求，可配合SoundFile库读取原始波形数据，结合JSON格式的元数据文件解析分段属性。该数据集适用于端到端的源分离模型训练，亦可用于评估不同神经网络架构在活跃音频片段上的分离性能，为音乐信息检索领域提供标准化实验基准。

背景与挑战

背景概述

音乐源分离作为音频信号处理的前沿领域，旨在从混合录音中提取独立音轨成分。MUSDB18-processed数据集由斯坦福大学CS229机器学习课程团队于2025年构建，其核心研究聚焦于深度学习驱动的多轨音乐分离技术。该数据集基于原始MUSDB18数据集进行优化处理，通过主动段检测机制筛选具有显著能量的音频片段，涵盖鼓组、贝斯、人声、伴奏及混合音轨五类关键声部，为提升模型训练效率提供了标准化数据支撑。

当前挑战

音乐源分离领域长期面临混合信号中声学成分重叠的解析难题，尤其在谐波结构与瞬态特征共存的复杂场景下，传统方法难以实现高精度分离。数据集构建过程中，团队需攻克主动段能量阈值的自适应设定、跨乐器频谱泄漏的边界界定，以及44.1kHz至22.05kHz采样率转换时的相位对齐问题。四秒片段长度与两秒跳帧的参数设计，更需平衡时序连贯性与数据增强效果间的矛盾。

常用场景

经典使用场景

在音乐信息检索领域，该数据集通过提取MUSDB18中具有显著能量的活跃音频片段，为音乐源分离任务提供了高效训练样本。其经典应用场景聚焦于深度学习模型对鼓、贝斯、人声等音轨的分离性能评估，尤其适用于对比卷积时域网络等架构在不同音轨分离任务中的表现。

衍生相关工作

基于该数据集衍生的经典研究包括斯坦福CS229课程中针对Conv-TasNet架构的优化实验，以及后续对双向长短时记忆网络与注意力机制的融合探索。这些工作系统比较了不同神经网络在活跃片段上的分离效果，为音乐源分离领域建立了可复现的基准测试体系。

数据集最近研究