five

ACMID

收藏
arXiv2025-10-09 更新2025-10-11 收录
下载链接:
https://github.com/scottishfold0621/ACMID
下载链接
链接失效反馈
官方服务:
资源简介:
ACMID是一个7声道的音乐乐器数据集,旨在为音乐源分离任务提供高粒度的数据支持。该数据集通过从YouTube上爬取原始数据,并使用基于预训练音频编码器的乐器分类器进行自动清洗,从而过滤和聚合目标乐器的干净片段,最终生成精炼的ACMID-Cleaned数据集。ACMID将传统的4声道分类扩展到7声道,包括钢琴、鼓、贝斯、原声吉他、电吉他、弦乐和铜管乐,从而实现高粒度的音乐源分离系统。实验结果表明,使用ACMID-Cleaned数据集训练的音乐源分离模型在分离性能上取得了显著提升。

ACMID is a 7-channel musical instrument dataset aimed at providing high-granularity data support for music source separation tasks. This dataset crawls raw data from YouTube, uses an instrument classifier based on a pre-trained audio encoder for automatic cleaning, filters and aggregates clean segments of target instruments, and finally generates the refined ACMID-Cleaned dataset. ACMID expands the traditional 4-channel classification to 7 channels, including piano, drums, bass, acoustic guitar, electric guitar, strings and brass, thus enabling high-granularity music source separation systems. Experimental results show that the music source separation model trained on the ACMID-Cleaned dataset achieves significant improvements in separation performance.
提供机构:
小米集团
创建时间:
2025-10-09
原始信息汇总

ACMID数据集概述

数据集基本信息

  • 项目名称: ACMID (Automatic Curation of Musical Instrument Dataset)
  • 研究领域: 音乐源分离
  • 论文状态: 已提交至ICASSP 2026

核心功能

  • 自动数据采集: 通过多语言查询从YouTube爬取目标乐器原始视频
  • 数据清洗: 使用预训练音频编码器二元分类器清洗原始数据
  • 高精度数据: 生成ACMID-Cleaned 7-stem数据集

技术特点

  • 7-stem分类: 钢琴/鼓/贝斯/原声吉他/电吉他/弦乐/管乐-铜管乐器
  • 细粒度分离: 从4-stem扩展到7-stem,实现单个乐器的精细分离
  • 性能提升: ACMID-Cleaned相比ACMID-Uncleaned提升2.39dB MSS性能

数据集构成

  • 乐器类型: 7种主要乐器类别
  • 数据来源: YouTube平台
  • 处理流程: 网络爬取 → 数据清洗 → 高质量数据集

应用价值

  • 研究填补: 解决细粒度音乐源分离研究空白
  • 性能优化: 结合现有数据集可将SOTA模型(SCNet)性能提升1.16dB
  • 开源代码: 提供完整的网络爬取和清洗代码

预训练资源

  • 基础模型: Dasheng音频编码器
  • 清洗模型: 7种乐器的专用清洗模型
  • 模型获取: https://zenodo.org/records/13315686/files/dasheng_audioset_mAP497.pt?download=1
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,高质量数据集对音乐源分离研究具有关键意义。ACMID数据集通过多语言关键词从YouTube平台爬取原始音频数据,构建了覆盖七类乐器的初始素材库。基于预训练音频编码器Dasheng构建的二元分类器对原始数据进行自动清洗,将每首乐曲分割为3秒片段并筛选纯净目标乐器片段,最终重组为高质量音频数据。该流程将原始4643.51小时数据精炼至737.35小时,有效解决了网络数据中普遍存在的元数据失配问题。
特点
该数据集在乐器分类体系上实现重要突破,将传统四声部分离扩展至钢琴、鼓组、贝斯、原声吉他、电吉他、弦乐与管乐铜管七大声部。其中弦乐声部涵盖大提琴、中提琴等四种乐器,管乐铜管声部包含长号、小号等十三种乐器,形成了层次化的乐器分类体系。数据集通过严格的自动清洗流程确保音频片段纯净度,采用多语言查询策略增强数据多样性,为高粒度音乐源分离研究提供了前所未有的数据支撑。
使用方法
该数据集适用于训练七声部音乐源分离模型,支持以48kHz采样率的立体声音频作为输入。研究者可直接使用经过清洗的ACMID-Cleaned版本进行模型训练,亦可结合MoisesDB与MedleyDB等现有数据集构建混合训练集以提升模型性能。数据集中每个声部均提供完整时长版本与平衡子集版本,便于应对不同训练需求。开源提供的爬虫代码与分类器权重支持研究者扩展数据规模或适配特定乐器分类任务。
背景与挑战
背景概述
音乐源分离技术旨在从复杂音频混合中提取独立音轨,随着深度学习的发展,该领域取得显著进展。2025年由小米MiLM Plus与中央音乐学院联合发布的ACMID数据集,针对现有监督学习模型依赖有限标注数据的问题,通过自动化数据清洗方法构建了大规模高质量乐器数据集。该数据集将传统4音轨分类扩展至7音轨体系,涵盖钢琴、鼓组、贝斯等精细乐器类别,为高粒度音乐源分离研究提供了重要资源支撑。
当前挑战
在音乐源分离领域,现有模型面临标注数据稀缺与分离粒度受限的双重挑战。ACMID构建过程中需解决网络爬取数据的元数据失配问题,即平台标签与音频内容不一致导致的数据污染。通过基于预训练音频编码器的二分类器实现自动化数据清洗,需在保持数据多样性的同时确保目标乐器片段的纯净度。多语言查询策略的设计与跨文化音乐内容的有效筛选,进一步增加了数据构建的技术复杂度。
常用场景
经典使用场景
在音乐信息检索领域,ACMID数据集最经典的应用场景是训练高粒度音乐源分离模型。该数据集通过自动清洗技术从YouTube平台获取了737.35小时的纯净乐器音轨,覆盖钢琴、鼓、贝斯等七种主要乐器类别。研究者利用这些高质量数据能够构建精确的7声部分离系统,相比传统的4声部分离实现了更精细的乐器识别与分离效果。实验证明,基于ACMID训练的SCNet模型在信号失真比指标上获得了显著提升,为多乐器混合音频的解析提供了可靠支撑。
衍生相关工作
该数据集的发布催生了多项重要衍生研究。基于ACMID的自动清洗框架被扩展应用于其他音频数据集构建,如环境声音分类和语音分离任务。在模型架构方面,研究者受其多粒度分离思想启发,开发了分层Transformer网络和频带分割RNN等新型分离架构。此外,数据集提供的多语言查询方法为跨文化音乐研究开辟了新途径,部分团队已将其迁移至民族乐器数据库构建,推动了全球音乐文化遗产的数字化保护进程。
数据集最近研究
最新研究方向
在音乐信息检索领域,ACMID数据集的推出标志着高粒度音乐源分离研究迈入新阶段。该数据集通过基于预训练音频编码器的自动清洗技术,有效解决了网络爬取数据中普遍存在的元数据失配问题,将传统4声部分离扩展至涵盖钢琴、鼓、贝斯等七类乐器的精细分离体系。当前研究聚焦于利用该数据集构建更精准的乐器分类模型,并通过多语言查询策略增强数据覆盖范围,显著提升了分离模型的信号失真比性能。这类工作正推动音乐源分离从通用声部处理向专业级乐器识别方向演进,为智能音乐制作与音频修复提供了关键技术支持。
相关研究论文
  • 1
    ACMID: Automatic Curation of Musical Instrument Dataset for 7-Stem Music Source Separation小米集团 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作