onair-music-dataset

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/schism-audio/onair-music-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OnAir Music Dataset是一个用于音乐分离和音源分离研究的小型开源音乐音轨数据集。该数据集是原始OnAir Music Dataset的Hugging Face镜像，版本为v4。它包含11首完整歌曲，每首歌曲都提供了立体声混音和相应的音轨（如鼓、贝斯、人声等）。数据集采用“训练”分割，共包含99行音频数据，其中11个为混音文件，88个为音轨文件，总时长约为5.79小时。所有音频文件均为44.1 kHz采样率的立体声WAV格式。数据集结构遵循AudioFolder约定，通过metadata.csv文件管理元数据，每个音频文件对应一行记录。数据字段包括：audio（音频对象）、collection（原始源归档文件夹）、track（歌曲文件夹名称）、role（mix或stem）、stem（音轨标签或mix）、duration_seconds（持续时间）、sample_rate（采样率）、channels（声道数）和source_version（原始发布版本）。该数据集适用于音乐信号处理、音源分离算法开发和音乐信息检索等任务。

The OnAir Music Dataset is a small open-source music track dataset for music separation and source separation research. It is a Hugging Face mirror of the original OnAir Music Dataset, version v4. It contains 11 full songs, each providing a stereo mix and corresponding tracks (such as drums, bass, vocals, etc.). The dataset uses a train split, comprising 99 audio data rows, with 11 mix files and 88 track files, totaling approximately 5.79 hours in duration. All audio files are in stereo WAV format with a 44.1 kHz sample rate. The dataset structure follows the AudioFolder convention, managed by a metadata.csv file for metadata, with each audio file corresponding to one row. Data fields include: audio (audio object), collection (original source archive folder), track (song folder name), role (mix or stem), stem (track label or mix), duration_seconds (duration), sample_rate (sample rate), channels (number of channels), and source_version (original release version). This dataset is suitable for tasks such as music signal processing, source separation algorithm development, and music information retrieval.

创建时间：

2026-05-19

原始信息汇总

数据集概述

OnAir Music Dataset 是一个小型的开放音乐音轨数据集，专门用于音乐分离（music demixing）和音源分离（source-separation）研究。该数据集是原始 GitHub 仓库的 Hugging Face 镜像版本。

许可协议: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
任务类别: 音频到音频（audio-to-audio）
标签: 音乐、音源分离、音乐分离、音轨、OnAir
数据集大小: 少于 1000 个样本（n<1K）
镜像版本: 原始 GitHub 仓库的 v4 版本

数据集结构

数据集仅包含一个 train 拆分，包含 99 个音频行（11 个混音和 88 个音轨），大约 5.79 小时。所有音频文件均为 44.1 kHz 立体声 WAV 格式，遵循 AudioFolder 约定，metadata.csv 文件中每行对应一个混音或音轨，file_name 指向仓库中对应的 WAV 文件。

数据字段

字段	类型	描述
`audio`	`Audio`	由 `metadata.csv` 中 `file_name` 列引用的 WAV 文件
`collection`	`string`	原始源存档文件夹
`track`	`string`	歌曲文件夹名称
`role`	`string`	`mix`（混音）或 `stem`（音轨）
`stem`	`string`	从源文件名解析的音轨标签，或 `mix`
`duration_seconds`	`float`	来自 `ffprobe` 的时长
`sample_rate`	`int`	音频采样率
`channels`	`int`	音频通道数
`source_version`	`string`	原始 OnAir 发布标签

使用示例

python from datasets import load_dataset

ds = load_dataset("schism-audio/onair-music-dataset") mixes = ds["train"].filter(lambda row: row["role"] == "mix") stems = ds["train"].filter(lambda row: row["role"] == "stem") audio = ds["train"][0]["audio"]

来源与校验和

原始来源: https://github.com/sevagh/OnAir-Music-Dataset
镜像存档:
- OnAir-Music-Dataset-v4-LoFi-Vol-3.zip (SHA-256: 95b91cbe815e61903e2f5b51e97b9eb7889a9321dc53bea017efb861bddc14c2)
- OnAir-Music-Dataset-v4-misc.zip (SHA-256: bf2d6b8e460e523134fd9228c9bf3314d0be055bd9f93f4c40cfe92238b64765)

许可

数据集采用 Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可。原始许可文本包含在 LICENSE 文件中，原始 README 包含在 ORIGINAL_README.md 文件中。

搜集汇总

数据集介绍

构建方式

OnAir Music Dataset是一个面向音乐分离与源分离研究的小型开放数据集。其构建源自GitHub原始仓库的v4版本，汇集了11首完整歌曲及其立体声混音与对应的分离音轨（stems）。所有音频文件均以44.1 kHz采样率和立体声WAV格式存储。数据集遵循AudioFolder约定，通过metadata.csv文件记录每条混音或音轨的信息，其中file_name字段指向对应的音频文件。每个音频条目还包含来源文件夹、歌曲名称、角色（混音或音轨）以及音轨标签等元数据字段，便于研究者进行灵活的数据筛选与处理。

特点

该数据集的核心特点在于其小巧而结构清晰，总计包含99个音频条目，其中11个为完整混音，88个为分离音轨，总时长约5.79小时。每个音轨均附带详细的元数据，如持续时间、采样率、声道数及来源版本标签，为音乐源分离任务提供了良好的基准测试环境。数据集采用CC BY-SA 4.0许可协议，确保了其开放性与可复现性，同时保留了原始GitHub仓库的完整校验和，保障了数据的一致性与完整性。

使用方法

使用者可通过Hugging Face的datasets库直接加载该数据集，加载后即可获得训练集（train）拆分。借助filter方法，可便捷地依据role字段区分混音（mix）和分离音轨（stem），从而高效地进行音乐分离模型的训练与评估。每个音频样本可通过audio字段直接访问其波形数据，结合metadata中的音轨标签和持续时间信息，研究者能够构建自定义的数据批次，广泛应用于音乐源分离、音乐信息检索等研究领域。

背景与挑战

背景概述

OnAir Music Dataset是一个面向音乐源分离与音频分解研究的小型开源数据集，由研究者Sevag Hanssian于2020年代初创建并维护，目前托管于GitHub及HuggingFace平台。该数据集的核心研究问题在于为音乐信号处理领域提供高质量、易于访问的音频分离基准数据，以推动从混合音频中提取鼓、贝斯、人声等独立音轨的算法发展。尽管规模有限，仅包含11首完整歌曲及对应的立体声混合与音轨，但因其遵循开放许可（CC BY-SA 4.0）且结构清晰，已成为音乐分离社区中验证轻量级模型与快速原型开发的重要资源。其影响力主要体现在填补了开源、真实录音条件下的高质量音轨数据缺口，为后续如MUSDB等大型数据集提供了补充与对照，促进了该领域的实验可重复性与算法比较。

当前挑战

该数据集面临的首要挑战是其规模限制：仅含11首歌曲与约5.79小时的音频数据，远不足以支撑深度模型训练所需的多样性，导致模型泛化能力受限，容易过拟合于有限的音乐风格与录音条件。其次，数据来源单一，音轨标签依赖原始文件名解析，缺乏对乐器类别、录音环境或混音手法的精细标注，增加了噪声建模与多源分离的难度。最后，构建过程中需克服音频格式统一与元数据校验的复杂性，包括手动匹配轨道名称、处理不同归档结构的兼容性问题，以及确保44.1kHz立体声WAV的一致编码，这些步骤要求系统性验证以防止源数据损坏或标签错误。

常用场景

经典使用场景

在音乐信息检索与音频信号处理领域，源分离任务始终是研究的热点与难点。OnAir Music Dataset 作为一款精心设计的小型开放音乐分轨数据集，为音乐解混与源分离研究提供了标准化的评估基准。该数据集包含11首完整歌曲的立体声混音及其对应的独立分轨，研究人员可基于这些数据训练或测试将混合音频分解为人声、鼓、贝斯等不同声部的模型。其经典使用方式是将混音作为输入，以独立分轨作为监督目标，构建端到端的深度学习系统，从而推动音乐解混技术向更精准、更鲁棒的方向演进。

实际应用

在实际应用中，基于该数据集训练的源分离模型已广泛渗透至音乐制作、在线教育及娱乐产业。音乐制作人可利用此类模型从已有混音中提取人声或乐器轨，便于进行混音修复、翻唱制作或采样重组。在线卡拉OK平台借助分离的人声与伴奏轨实现实时消音与音量调整，大幅提升用户体验。此外，音频修复工作者可借助模型分离出背景噪声与目标源，为历史录音的数字化修复提供技术支撑，展现出显著的社会文化价值与商业潜力。

衍生相关工作

围绕 OnAir Music Dataset 衍生出的经典工作涵盖了从模型创新到评测体系完善等多个维度。研究者基于该数据集提出了多种改进的深度学习架构，如采用注意力机制增强频域分离能力的Spleeter变体、引入对抗训练以提升分离后音频自然感的Wave-U-Net扩展版本。同时，该数据集还催生了音乐解混领域的标准化对比实验设计，多个后续研究将其作为核心评测集之一，推动了诸如Demucs、Open-Unmix等开源框架的性能迭代与评估基准的统一，从而持续激发该方向的创新活力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集