onair-music-dataset
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/schism-audio/onair-music-dataset
下载链接
链接失效反馈官方服务:
资源简介:
OnAir Music Dataset是一个用于音乐分离和音源分离研究的小型开源音乐音轨数据集。该数据集是原始OnAir Music Dataset的Hugging Face镜像,版本为v4。它包含11首完整歌曲,每首歌曲都提供了立体声混音和相应的音轨(如鼓、贝斯、人声等)。数据集采用“训练”分割,共包含99行音频数据,其中11个为混音文件,88个为音轨文件,总时长约为5.79小时。所有音频文件均为44.1 kHz采样率的立体声WAV格式。数据集结构遵循AudioFolder约定,通过metadata.csv文件管理元数据,每个音频文件对应一行记录。数据字段包括:audio(音频对象)、collection(原始源归档文件夹)、track(歌曲文件夹名称)、role(mix或stem)、stem(音轨标签或mix)、duration_seconds(持续时间)、sample_rate(采样率)、channels(声道数)和source_version(原始发布版本)。该数据集适用于音乐信号处理、音源分离算法开发和音乐信息检索等任务。
The OnAir Music Dataset is a small open-source music track dataset for music separation and source separation research. It is a Hugging Face mirror of the original OnAir Music Dataset, version v4. It contains 11 full songs, each providing a stereo mix and corresponding tracks (such as drums, bass, vocals, etc.). The dataset uses a train split, comprising 99 audio data rows, with 11 mix files and 88 track files, totaling approximately 5.79 hours in duration. All audio files are in stereo WAV format with a 44.1 kHz sample rate. The dataset structure follows the AudioFolder convention, managed by a metadata.csv file for metadata, with each audio file corresponding to one row. Data fields include: audio (audio object), collection (original source archive folder), track (song folder name), role (mix or stem), stem (track label or mix), duration_seconds (duration), sample_rate (sample rate), channels (number of channels), and source_version (original release version). This dataset is suitable for tasks such as music signal processing, source separation algorithm development, and music information retrieval.
创建时间:
2026-05-19
原始信息汇总
数据集概述
OnAir Music Dataset 是一个小型的开放音乐音轨数据集,专门用于音乐分离(music demixing)和音源分离(source-separation)研究。该数据集是原始 GitHub 仓库的 Hugging Face 镜像版本。
- 许可协议: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
- 任务类别: 音频到音频(audio-to-audio)
- 标签: 音乐、音源分离、音乐分离、音轨、OnAir
- 数据集大小: 少于 1000 个样本(n<1K)
- 镜像版本: 原始 GitHub 仓库的
v4版本
数据集结构
数据集仅包含一个 train 拆分,包含 99 个音频行(11 个混音和 88 个音轨),大约 5.79 小时。所有音频文件均为 44.1 kHz 立体声 WAV 格式,遵循 AudioFolder 约定,metadata.csv 文件中每行对应一个混音或音轨,file_name 指向仓库中对应的 WAV 文件。
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
audio |
Audio |
由 metadata.csv 中 file_name 列引用的 WAV 文件 |
collection |
string |
原始源存档文件夹 |
track |
string |
歌曲文件夹名称 |
role |
string |
mix(混音)或 stem(音轨) |
stem |
string |
从源文件名解析的音轨标签,或 mix |
duration_seconds |
float |
来自 ffprobe 的时长 |
sample_rate |
int |
音频采样率 |
channels |
int |
音频通道数 |
source_version |
string |
原始 OnAir 发布标签 |
使用示例
python from datasets import load_dataset
ds = load_dataset("schism-audio/onair-music-dataset") mixes = ds["train"].filter(lambda row: row["role"] == "mix") stems = ds["train"].filter(lambda row: row["role"] == "stem") audio = ds["train"][0]["audio"]
来源与校验和
- 原始来源: https://github.com/sevagh/OnAir-Music-Dataset
- 镜像存档:
OnAir-Music-Dataset-v4-LoFi-Vol-3.zip(SHA-256:95b91cbe815e61903e2f5b51e97b9eb7889a9321dc53bea017efb861bddc14c2)OnAir-Music-Dataset-v4-misc.zip(SHA-256:bf2d6b8e460e523134fd9228c9bf3314d0be055bd9f93f4c40cfe92238b64765)
许可
数据集采用 Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可。原始许可文本包含在 LICENSE 文件中,原始 README 包含在 ORIGINAL_README.md 文件中。
搜集汇总
数据集介绍

构建方式
OnAir Music Dataset是一个面向音乐分离与源分离研究的小型开放数据集。其构建源自GitHub原始仓库的v4版本,汇集了11首完整歌曲及其立体声混音与对应的分离音轨(stems)。所有音频文件均以44.1 kHz采样率和立体声WAV格式存储。数据集遵循AudioFolder约定,通过metadata.csv文件记录每条混音或音轨的信息,其中file_name字段指向对应的音频文件。每个音频条目还包含来源文件夹、歌曲名称、角色(混音或音轨)以及音轨标签等元数据字段,便于研究者进行灵活的数据筛选与处理。
特点
该数据集的核心特点在于其小巧而结构清晰,总计包含99个音频条目,其中11个为完整混音,88个为分离音轨,总时长约5.79小时。每个音轨均附带详细的元数据,如持续时间、采样率、声道数及来源版本标签,为音乐源分离任务提供了良好的基准测试环境。数据集采用CC BY-SA 4.0许可协议,确保了其开放性与可复现性,同时保留了原始GitHub仓库的完整校验和,保障了数据的一致性与完整性。
使用方法
使用者可通过Hugging Face的datasets库直接加载该数据集,加载后即可获得训练集(train)拆分。借助filter方法,可便捷地依据role字段区分混音(mix)和分离音轨(stem),从而高效地进行音乐分离模型的训练与评估。每个音频样本可通过audio字段直接访问其波形数据,结合metadata中的音轨标签和持续时间信息,研究者能够构建自定义的数据批次,广泛应用于音乐源分离、音乐信息检索等研究领域。
背景与挑战
背景概述
OnAir Music Dataset是一个面向音乐源分离与音频分解研究的小型开源数据集,由研究者Sevag Hanssian于2020年代初创建并维护,目前托管于GitHub及HuggingFace平台。该数据集的核心研究问题在于为音乐信号处理领域提供高质量、易于访问的音频分离基准数据,以推动从混合音频中提取鼓、贝斯、人声等独立音轨的算法发展。尽管规模有限,仅包含11首完整歌曲及对应的立体声混合与音轨,但因其遵循开放许可(CC BY-SA 4.0)且结构清晰,已成为音乐分离社区中验证轻量级模型与快速原型开发的重要资源。其影响力主要体现在填补了开源、真实录音条件下的高质量音轨数据缺口,为后续如MUSDB等大型数据集提供了补充与对照,促进了该领域的实验可重复性与算法比较。
当前挑战
该数据集面临的首要挑战是其规模限制:仅含11首歌曲与约5.79小时的音频数据,远不足以支撑深度模型训练所需的多样性,导致模型泛化能力受限,容易过拟合于有限的音乐风格与录音条件。其次,数据来源单一,音轨标签依赖原始文件名解析,缺乏对乐器类别、录音环境或混音手法的精细标注,增加了噪声建模与多源分离的难度。最后,构建过程中需克服音频格式统一与元数据校验的复杂性,包括手动匹配轨道名称、处理不同归档结构的兼容性问题,以及确保44.1kHz立体声WAV的一致编码,这些步骤要求系统性验证以防止源数据损坏或标签错误。
常用场景
经典使用场景
在音乐信息检索与音频信号处理领域,源分离任务始终是研究的热点与难点。OnAir Music Dataset 作为一款精心设计的小型开放音乐分轨数据集,为音乐解混与源分离研究提供了标准化的评估基准。该数据集包含11首完整歌曲的立体声混音及其对应的独立分轨,研究人员可基于这些数据训练或测试将混合音频分解为人声、鼓、贝斯等不同声部的模型。其经典使用方式是将混音作为输入,以独立分轨作为监督目标,构建端到端的深度学习系统,从而推动音乐解混技术向更精准、更鲁棒的方向演进。
实际应用
在实际应用中,基于该数据集训练的源分离模型已广泛渗透至音乐制作、在线教育及娱乐产业。音乐制作人可利用此类模型从已有混音中提取人声或乐器轨,便于进行混音修复、翻唱制作或采样重组。在线卡拉OK平台借助分离的人声与伴奏轨实现实时消音与音量调整,大幅提升用户体验。此外,音频修复工作者可借助模型分离出背景噪声与目标源,为历史录音的数字化修复提供技术支撑,展现出显著的社会文化价值与商业潜力。
衍生相关工作
围绕 OnAir Music Dataset 衍生出的经典工作涵盖了从模型创新到评测体系完善等多个维度。研究者基于该数据集提出了多种改进的深度学习架构,如采用注意力机制增强频域分离能力的Spleeter变体、引入对抗训练以提升分离后音频自然感的Wave-U-Net扩展版本。同时,该数据集还催生了音乐解混领域的标准化对比实验设计,多个后续研究将其作为核心评测集之一,推动了诸如Demucs、Open-Unmix等开源框架的性能迭代与评估基准的统一,从而持续激发该方向的创新活力。
以上内容由遇见数据集搜集并总结生成



