MedleyVox

Name: MedleyVox
Creator: Gaudio Lab, Inc., Seoul, South Korea 2Department of Intelligence and Information, Seoul National University 3 Interdisciplinary Program in Artificial Intelligence, Seoul National University 4 AI Institute, Seoul National University, Seoul, South Korea
Published: 2023-05-04 22:13:42
License: 暂无描述

arXiv2023-05-04 更新2024-06-21 收录

下载链接：

https://github.com/jeonchangbin49/MedleyVox

下载链接

链接失效反馈

官方服务：

资源简介：

MedleyVox是由Gaudio Lab, Inc.和首尔国立大学合作创建的一个评估数据集，专门用于多重歌唱声音分离的研究。该数据集包含了23首歌曲的声乐轨道，分为四种不同的分离类别：齐唱、二重唱、主唱与和声以及其他多重歌唱分离。数据集的创建过程中，使用了多种单声歌唱数据集来构建多重歌唱混合物，并提出了改进的超分辨率网络（iSRNet）以提高分离网络的初步估计。MedleyVox旨在为音乐源分离研究提供一个基准数据集，特别是在解决流行音乐中的多重歌唱声音分离问题。

MedleyVox is an evaluation dataset co-developed by Gaudio Lab, Inc. and Seoul National University, specifically dedicated to research on multiple singing voice separation. The dataset includes vocal tracks from 23 songs, categorized into four distinct separation types: unison singing, duet singing, lead vocal with harmony, and other multiple singing voice separation tasks. During its construction, multiple monophonic singing voice datasets were utilized to generate multiple singing voice mixtures, and an improved super-resolution network (iSRNet) was proposed to refine the preliminary estimations of separation models. MedleyVox aims to provide a benchmark dataset for music source separation research, particularly for addressing the multiple singing voice separation problem in popular music.

提供机构：

Gaudio Lab, Inc., Seoul, South Korea 2Department of Intelligence and Information, Seoul National University 3 Interdisciplinary Program in Artificial Intelligence, Seoul National University 4 AI Institute, Seoul National University, Seoul, South Korea

创建时间：

2022-11-14

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，多声部人声分离任务长期缺乏标准评估数据集，这制约了相关研究的深入发展。MedleyVox数据集的构建基于MedleyDB v1和v2中的23首歌曲，研究者从这些歌曲中提取出人声轨道，并依据音乐特性将有声片段手动划分为四个类别：齐唱、二重唱、主唱与伴唱分离以及N声部分离。每个类别均标注了人声数量和歌手数量，确保了数据集的精细结构和评估的针对性。通过这种系统化的构建方式，MedleyVox为多声部人声分离提供了首个专门设计的评估基准。

使用方法

MedleyVox数据集主要用于评估多声部人声分离模型的性能，研究者可依据其分类结构进行有针对性的实验分析。在使用时，首先需根据任务类型选择相应的数据子集，例如针对二声部分离可专注于齐唱或二重唱类别。模型训练可结合论文提出的多声部混合构建策略，利用单声部数据集生成训练样本，并通过改进的超分辨率网络（iSRNet）提升分离效果。评估过程中，建议采用信号失真比（SDR）和尺度不变信号失真比（SI-SDR）等客观指标，并结合听觉质量进行综合分析，以全面衡量模型在不同声部配置下的分离能力。

背景与挑战

背景概述

在音乐信息检索领域，歌唱声源分离技术随着深度学习的发展取得了显著进展，但多歌唱声源分离这一细分方向长期缺乏系统性研究。2023年，由Gaudio Lab与首尔国立大学联合团队推出的MedleyVox数据集填补了这一空白。该数据集基于MedleyDB中的23首歌曲构建，精心标注了381个片段，涵盖齐唱、二重唱、主唱与伴唱分离及N-歌唱分离四类任务。其核心在于解决流行音乐中多声部人声的分离难题，为算法评估提供了标准化基准，推动了歌唱分离研究从单一声源向复杂声源交互场景的拓展。

当前挑战

MedleyVox所针对的多歌唱声源分离任务面临多重挑战：在领域层面，声源间的高相关性（如相同音高、同步起止）导致分离难度远超语音分离；齐唱场景中相位信息的敏感性使得传统时频掩码方法性能受限。在构建过程中，缺乏专门的多歌唱训练数据迫使研究者设计混合策略，利用单一声源数据集模拟多声源混合物；同时需克服置换不变性训练中的声部分配模糊问题，并在模型训练中处理输出信号幅值爆炸及长时沉默片段导致的归一化误差。这些挑战共同制约着多歌唱分离技术的实用化进程。

常用场景

经典使用场景

在音乐信息检索领域，多声部人声分离一直是技术难点，尤其针对流行音乐中多个歌唱声源的分离问题。MedleyVox数据集通过提供精心标注的评估数据，为研究者构建了统一的基准测试平台。该数据集将多声部歌唱分离任务细分为齐唱、二重唱、主唱与伴唱分离以及N声部分离四类场景，涵盖了从高度相关的齐唱旋律到复杂的主次声部交互等多种声学情境。这种分类方式不仅反映了实际音乐作品的多样性，也为模型性能的细致评估提供了结构化框架，使得研究者能够针对不同难度层级的任务开展针对性研究。

解决学术问题

该数据集有效解决了多声部歌唱分离领域长期存在的基准数据缺失问题，为这一细分研究方向奠定了实证基础。通过提供高质量的人工标注数据，研究者能够突破以往仅依赖合成数据或受限场景的局限，开展更可靠的算法性能评估。数据集设计的四类分离场景分别对应着不同的声学挑战：齐唱分离需要处理高度相关的频谱特征，二重唱涉及异质旋律的区分，主唱与伴唱分离则要求模型具备声部优先级识别能力。这些精心设计的任务类别推动了分离算法在特征表示、时序建模和声源判别等方面的理论创新，显著提升了该领域研究的科学严谨性。

实际应用

在现实应用层面，MedleyVox支撑的技术可广泛应用于智能音乐制作与消费场景。卡拉OK系统中可实现保留和声伴唱的主唱消除功能，为使用者提供更丰富的演唱体验；音乐教育领域能够借助声部分离技术进行多声部乐谱的自动生成与分析；音频修复工程则可对历史录音中的重叠人声进行清晰化处理。此外，该技术还能赋能智能混音平台，允许制作人对复杂人声轨道进行独立编辑与再创作。这些应用不仅提升了音乐产业的工作效率，也为普通用户提供了前所未有的音频交互可能性。

数据集最近研究