slakh2100

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/schismaudio/slakh2100

下载链接

链接失效反馈

官方服务：

资源简介：

Slakh2100（Synthesized Lakh）是一个大规模多轨音乐数据集，包含2,100首自动混音的曲目，每首曲目均带有分离的乐器音轨和对齐的MIDI文件。该数据集由西北大学的Manilow等人（2019年）创建，使用来自Lakh MIDI数据集的MIDI文件，通过专业级VST乐器渲染生成逼真的多轨音频。每首曲目包含每种乐器的独立音轨（如鼓、贝斯、吉他、钢琴、弦乐等），使Slakh成为音乐源分离研究的标准基准数据集。数据集采用无损FLAC压缩格式，总大小约为105GB。数据集分为训练集（1,500首）、验证集（375首）和测试集（225首），每首曲目包含完整的混音、独立音轨、MIDI文件和元数据文件。音频格式为44.1kHz立体声FLAC。数据集适用于音乐源分离、乐器识别和MIDI到音频的合成等任务。尽管使用了专业VST乐器，但音频仍为MIDI合成，缺乏真实录音的声学细节和表现力。数据集不包含人声音轨，且偏向于流行/摇滚音乐风格。数据集采用CC-BY 4.0许可，允许商业使用。

Slakh2100 (Synthesized Lakh) is a large-scale multi-track music dataset containing 2,100 automatically mixed tracks, each paired with separated instrumental audio tracks and aligned MIDI files. Developed by Manilow et al. (2019) from Northwestern University, this dataset leverages MIDI files sourced from the Lakh MIDI Dataset to render realistic multi-track audio using professional-grade VST instruments. Each track includes independent audio tracks for all featured instruments (e.g., drums, bass, guitar, piano, strings, etc.), positioning Slakh as a standard benchmark dataset for music source separation research. The dataset is stored in lossless FLAC compression format, with a total size of approximately 105 GB. It is partitioned into three subsets: a training set (1,500 tracks), a validation set (375 tracks), and a test set (225 tracks). Every track contains the full mixed audio, individual instrument tracks, MIDI files, and metadata files, with audio formatted as 44.1 kHz stereo FLAC. This dataset supports tasks including music source separation, instrument recognition, and MIDI-to-audio synthesis. However, despite employing professional VST instruments, all audio is MIDI-synthesized, lacking the acoustic details and expressive nuances of real-world recorded music. The dataset excludes vocal tracks and is biased towards pop/rock musical styles. It is licensed under CC-BY 4.0, permitting commercial usage.

创建时间：

2026-02-19

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，构建高质量的多轨音频数据集对于推进源分离技术至关重要。Slakh2100数据集以Lakh MIDI数据集为基础，从中精选出2100首具有丰富乐器配置和复杂编曲的MIDI文件。通过专业级的虚拟乐器技术，这些MIDI文件被渲染为高质量的多轨音频，每一轨乐器均生成独立的音频干声，并与原始MIDI精确对齐。整个合成过程自动化完成，确保了音频与标注数据之间样本级的一致性，为研究提供了可靠的基准数据。

特点

该数据集的核心特征在于其规模与结构的完整性。它包含了超过2100首合成音乐曲目，每首曲目均提供完整的混合音频、分离的乐器干声以及对齐的MIDI文件，覆盖了鼓、贝斯、吉他、钢琴等34类乐器。音频采用44.1kHz立体声FLAC格式存储，在保证音质的同时显著减少了存储占用。数据集严格划分为训练、验证和测试集，且乐器类别通过元数据文件清晰标注，为模型训练与评估提供了结构化支持。

使用方法

在音乐源分离与自动转录研究中，该数据集可直接用于模型训练与性能评测。用户可通过加载指定曲目目录，访问混合音频、各乐器干声及对应的MIDI文件。元数据文件详细记录了乐器类别和合成参数，便于按乐器类型筛选数据。典型应用包括训练源分离模型以从混合音频中提取特定乐器信号，或利用对齐的MIDI进行自动音乐转录研究。数据集的标准划分确保了实验的可重复性与公平比较。

背景与挑战

背景概述

Slakh2100数据集由西北大学的研究团队于2019年创建，旨在为音乐源分离研究提供大规模、高质量的多轨音频数据。该数据集基于Lakh MIDI数据集，通过专业虚拟乐器合成技术生成了2100条包含独立乐器音轨及对齐MIDI的音频片段。其核心研究问题聚焦于提升音乐信号处理中源分离模型的性能与泛化能力，已成为该领域的重要基准，推动了算法在复杂混音场景下的评估与优化。

当前挑战

该数据集主要应对音乐源分离任务中缺乏大规模、高质量标注数据的挑战，其构建过程亦面临多重困难。在领域问题层面，合成音频虽借助专业工具，但仍难以完全模拟真实录音的声学特性与演奏细节，限制了模型向实际应用的迁移。构建过程中，需从海量MIDI文件中筛选具有乐器多样性与编排复杂度的曲目，并设计高保真的合成流程以平衡音频真实性与数据一致性，同时克服了无歌唱音轨、流派偏差及部分乐器合成质量不均等局限。

常用场景

经典使用场景

在音乐信息检索领域，Slakh2100数据集为源分离研究提供了标准化的评估基准。该数据集通过专业虚拟乐器合成多轨音频，每首曲目均包含独立的乐器音轨及对齐的MIDI文件，使得研究者能够精确训练和验证分离算法。其大规模且结构化的特性，尤其适用于深度学习模型在复杂音乐场景下的性能优化，成为推动音频分离技术发展的核心资源。

解决学术问题

Slakh2100有效解决了音乐源分离研究中训练数据稀缺且标注成本高昂的难题。通过自动化合成流程，该数据集提供了大量带精确乐器标注的音频样本，支持算法在可控环境下评估分离精度。此外，其对齐的MIDI文件为音乐转录、乐器识别等任务提供了可靠的真值，促进了跨模态音乐分析方法的创新，显著提升了相关研究的可重复性与可比性。

衍生相关工作

围绕Slakh2100衍生了一系列经典研究工作，例如在源分离领域，它被广泛用于评估如Demucs、Open-Unmix等先进分离模型的性能。该数据集还催生了针对特定乐器的转录算法改进，如鼓组检测与钢琴音符识别。此外，基于其多模态特性，研究者开发了联合音频与MIDI的跨域表示学习方法，推动了音乐生成与结构分析等方向的进展。

以上内容由遇见数据集搜集并总结生成