随机混合单次数据集(RMOD)
收藏arXiv2025-04-25 更新2025-04-29 收录
下载链接:
https://github.com/HSUNEH/DOSE
下载链接
链接失效反馈官方服务:
资源简介:
RMOD是一个包含大量随机排列的音乐混合物及其对应鼓单次样本的大型数据集。数据集包含一百万对混合音频及其相应的鼓单次样本,以及各一万个验证和测试样本。RMOD旨在为鼓单次样本提取任务提供训练和评估数据。数据集由首尔国立大学音乐与音频研究组创建,用于训练和评估DOSE模型,该模型旨在从音乐混合物中提取鼓单次样本。
RMOD is a large-scale dataset that encompasses a vast number of randomly arranged music mixtures and their corresponding individual drum samples. Specifically, the dataset includes one million pairs of mixed audio tracks and their corresponding individual drum samples, alongside 10,000 validation samples and 10,000 test samples respectively. RMOD is designed to provide training and evaluation data for the task of individual drum sample extraction. This dataset was developed by the Music and Audio Research Group of Seoul National University, and is used to train and evaluate the DOSE model, which aims to extract individual drum samples from music mixtures.
提供机构:
首尔国立大学音乐与音频研究组(MARG), 首尔国立大学机械工程系, 首尔国立大学人工智能跨学科项目与人工智能研究所
创建时间:
2025-04-25
原始信息汇总
DOSE : Drum One-Shot Extraction 数据集概述
数据集简介
- 名称:RMOD (Random Mixture One-shot Dataset)
- 任务描述:鼓声单样本提取任务。给定音频混合作为输入,任务旨在输出底鼓、军鼓和踩镲的单样本音频。
数据集生成过程
- 合成鼓循环:从单样本鼓音频中使用随机生成的MIDI音符合成底鼓、军鼓和踩镲循环。
- 选择其他音乐循环:可选的低音、钢琴、吉他和人声循环。
- 独立混合处理:鼓循环和其他音乐循环通过独立的混合链处理,应用增益、均衡、压缩、声像、限制、延迟和混响效果。
- 最终混合:所有音轨通过包含均衡和限制效果的母带处理链组合。
数据集内容
- 文件数量:10000个文件
- 下载地址:https://www.kaggle.com/datasets/sunehflower/random-mixture-one-shot-dataset-rmod
模型方法
- 编码:使用冻结的DAC编码器将输入音频混合编码为离散标记序列。
- 解码:将标记序列输入仅解码器Transformer,自回归预测鼓单样本标记。
- 损失函数:最小化起始损失和全长损失。
- 音频生成:使用DAC解码器将预测的标记序列解码为鼓单样本音频。
模型下载
- 底鼓模型:https://drive.google.com/file/d/1qgCSwOv43AZNviVKy1rO_FBuuqsj1oGP/view?usp=sharing
- 军鼓模型:https://drive.google.com/file/d/1FN3Zqvnng_PDsXQ-T6Un87yjU85Gx-4H/view?usp=drive_link
- 踩镲模型:https://drive.google.com/file/d/1jtBvDYHDVo8k7gY2_TX_3UucDQ-LJwmP/view?usp=drive_link
搜集汇总
数据集介绍

构建方式
随机混合单次数据集(RMOD)的构建过程体现了音乐信息检索领域对高质量鼓音样本的迫切需求。该数据集通过系统性合成方法,将公开可用的鼓单次样本与乐器循环样本进行随机混合,构建了包含360,000对音乐混合片段与对应鼓单次样本的大规模配对数据。在数据生成过程中,研究团队采用MIDI序列控制鼓点时序,并应用增益调节、均衡处理、压缩限制等专业音频效果链模拟真实音乐制作环境,同时通过音高变换和分层叠加等数据增强技术显著提升了样本多样性。所有音频均以16位、44.1kHz立体声WAV格式保存,确保了与专业音频工作流程的兼容性。
特点
RMOD数据集的核心价值在于其精心设计的专业特性。作为首个专注于鼓单次样本提取任务的大规模数据集,它提供了精确对齐的音乐混合片段与分离鼓单次样本的配对数据,弥补了传统鼓声数据集中样本孤立性不足的缺陷。数据集涵盖3,375个底鼓、1,801个军鼓和1,278个踩镲样本,通过随机时序编排和丰富的音频效果处理,模拟了从简单节奏到复杂音乐织体的各种声学场景。特别值得注意的是,数据集引入了鼓层叠增强技术,通过加权混合不同鼓样本生成新的音色组合,这种创新方法显著扩展了鼓声的频谱特征空间,为模型学习提供了更全面的声学特征表示。
使用方法
该数据集主要服务于基于深度学习的鼓单次样本提取研究,其使用遵循标准的机器学习工作流程。研究人员可将数据集划分为训练集(100万样本)、验证集和测试集(各1万样本),用于训练如DOSE等端到端鼓样本提取模型。在使用过程中,模型输入为4秒长度的音乐混合片段的DAC编码特征,输出目标为对应鼓单次样本的离散声学标记。评估阶段建议采用Fréchet音频距离(FAD)和多尺度频谱相似度(MSS)等客观指标,同时可结合RMOD纯鼓版本子集和Groove MIDI数据集进行跨域性能验证。为充分发挥数据集价值,建议配合论文提供的DOSE模型架构,特别关注其设计的起始损失函数对鼓声瞬态特征提取的优化作用。
背景与挑战
背景概述
随机混合单次数据集(RMOD)由首尔国立大学音乐与音频研究组(MARG)于2025年提出,旨在解决音乐制作中鼓点单次样本从混合音频中提取的核心问题。该数据集包含36万对合成音乐混合音频与对应鼓点单次样本,通过神经音频编解码语言模型实现端到端提取,规避了传统音源分离方法的局限性。作为首个专注于鼓点单次提取任务的大规模数据集,RMOD为电子音乐制作、声音设计等领域提供了关键数据支持,其创新的生成式提取范式显著提升了鼓样本的时序精度与音色保真度。
当前挑战
在领域问题层面,RMOD需解决混合音频中鼓点瞬态特征提取的挑战,包括高频打击乐(如踩镲)在复杂频谱重叠下的准确分离,以及不同鼓类(底鼓、军鼓等)声学特征的差异化建模。数据集构建过程中面临三大挑战:合成数据与真实商业音乐的领域差距需通过精细化音频效果链弥合;鼓层叠加增强时需平衡音色多样性与时序对齐精度;基于MIDI的随机编排策略要求严格避免同类鼓点样本的时域重叠。这些挑战通过多阶段混合母带模拟和创新的起始点损失函数得以部分缓解,但在真实音乐场景的泛化性仍有提升空间。
常用场景
经典使用场景
在音乐信息检索与音频信号处理领域,随机混合单次数据集(RMOD)为鼓音色分离与合成研究提供了标准化测试平台。该数据集通过模拟专业音乐制作中的随机混合场景,将鼓单次采样与复杂音乐混合流精准对齐,使得研究者能够系统评估模型在真实混音环境下提取特定鼓组件(如底鼓、军鼓、踩镲)的能力。其大规模合成数据覆盖了多样化的节奏型态、音色组合及音频效果处理,为端到端鼓音色提取任务建立了可靠的基准环境。
解决学术问题
RMOD有效解决了音乐源分离领域的两大核心挑战:其一,传统分离方法在提取孤立单次采样时存在的时序对齐与音质损失问题,通过提供精确配对的混合-单射样本对,使模型能直接学习从混合音频到目标采样的映射关系;其二,弥补了现有数据集中专业音乐制作场景模拟不足的缺陷,其包含的随机化MIDI编排、多轨效果链处理及母带级渲染,为算法在复杂声学环境下的泛化性能评估提供了科学依据。该数据集推动的DOSE模型在FAD和MSS指标上超越传统分离方法,证实了生成式路径在音质保真度方面的优势。
衍生相关工作
RMOD的发布催生了多项跨模态音乐生成研究,包括:1)神经音频编解码器在乐器分离任务的拓展应用,如MusicGen采用的类似架构实现多乐器生成;2)基于onset损失函数的时序建模改进,被后续工作CRASH等扩散模型引入以提升瞬态响应;3)混合数据合成方法论影响了Musdb-HQ等数据集的增强策略。相关技术路径已在Google的MusicLM、Meta的AudioGen等系统中得到延续发展,推动着音乐AI从分离向生成范式的转变。
以上内容由遇见数据集搜集并总结生成



