SINGVERSE

Name: SINGVERSE
Creator: 香港中文大学（深圳）, 华为中央媒体技术研究院
Published: 2025-09-25 18:12:21
License: 暂无描述

arXiv2025-09-25 更新2025-09-27 收录

下载链接：

https://singverse.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

SINGVERSE是一个为唱歌语音增强设计的真实世界基准数据集，它覆盖了多种声学场景，提供了配对的、录音室质量的干净参考录音，用于评估。该数据集包含7942个语音样本，总时长约为18.36小时，跨越19个不同的声学场景，从混响的音乐厅到嘈杂的路边，为稳健的评估提供了丰富的数据。SINGVERSE旨在填补现有数据集在真实世界声学复杂性方面的空白，为唱歌语音增强领域的研究提供了基础性基准。

SINGVERSE is a real-world benchmark dataset designed for singing voice enhancement. It covers diverse acoustic scenarios and provides paired, studio-quality clean reference recordings for evaluation purposes. This dataset consists of 7942 speech samples with a total duration of approximately 18.36 hours, spanning 19 distinct acoustic scenarios ranging from reverberant concert halls to noisy roadside environments, providing abundant data for robust evaluation. SINGVERSE aims to fill the gap in real-world acoustic complexity of existing datasets, serving as a foundational benchmark for research in the field of singing voice enhancement.

提供机构：

香港中文大学（深圳）, 华为中央媒体技术研究院

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在歌唱语音增强领域，数据集的真实性直接影响模型评估的有效性。SINGVERSE通过采集真实环境中的歌唱录音构建而成，覆盖音乐会厅、路边、KTV等19种声学场景，并利用专业与非专业设备录制。其中日常环境录音由音乐院校学生演唱30首歌曲，每首在3至4种场景下多设备采集；音乐会场景的嘈杂音轨源自公开视频平台，其对应的纯净干声则通过优化的SingNet流程从官方发行版中提取。所有片段均经过人工时间对齐和分段处理，最终形成7942对共计18.36小时的配对数据。

特点

SINGVERSE的突出特点在于其真实性与多样性。作为首个面向真实世界的歌唱语音增强基准，它摒弃了传统合成数据的局限性，完整保留了环境噪声、混响及伴奏干扰等复杂声学特征。数据集涵盖从高保真音乐会场馆到嘈杂日常环境的广泛场景，且同时包含专业 condenser 麦克风与智能手机等非专业设备录制的样本。这种多维度覆盖不仅反映了实际应用中的声学挑战，还为模型在不同设备质量下的鲁棒性评估提供了基础。其提供的配对纯净参考音轨进一步确保了评估的精确性与可复现性。

使用方法

该数据集主要用于歌唱语音增强模型的基准测试与性能分析。研究者可借助其提供的真实嘈杂-纯净语音对，从内容保持度与感知质量两个维度评估模型效果。典型流程包括：首先利用SBERT、说话人相似度及WER等指标量化增强后语音的语义完整性与清晰度；再通过DNSMOS、NISQA等非侵入式模型评估听觉感知质量。为进一步探究设备影响，可将数据按专业与非专业设备划分为子集进行对比实验。此外，数据集支持聚类分析以揭示模型在质量与可懂度间的权衡策略，并为跨领域迁移学习（如语音模型适配歌唱任务）提供验证基础。

背景与挑战

背景概述

歌唱语音增强作为音频信号处理的重要分支，其发展长期受限于真实场景评估数据的匮乏。2025年由香港中文大学（深圳）与华为中央媒体技术研究院联合发布的SINGVERSE数据集，首次构建了覆盖19种真实声学场景的歌唱语音增强基准。该数据集包含7942条共计18.36小时的语音样本，通过专业录音设备与消费级设备同步采集，并配对准录音棚级干声作为清洁参考。其创新性在于突破了传统合成数据的局限性，为评估模型在真实复杂环境下的性能提供了坚实基础，推动了歌唱语音处理领域向实用化方向发展。

当前挑战

该数据集核心挑战体现在领域问题与构建过程两个维度。在领域层面，歌唱语音较之普通语音具有更宽的音高动态范围、持续性元音发声及谐波关联的音乐背景，导致传统语音增强模型存在显著领域失配问题。构建过程中需攻克多场景同步采集的技术壁垒，包括19类声学环境的标准化数据获取、专业与非专业设备的并行录制、以及真实音乐会录音与官方干声的精准时间对齐。此外，数据质量控制的复杂性体现在需平衡感知质量与内容可懂度的评估指标，避免模型陷入保守处理或过度增强的极端策略。

常用场景

经典使用场景

在歌唱音频增强领域，SINGVERSE数据集被广泛用于评估和比较各类先进模型的性能。该数据集覆盖了从音乐厅到路边等19种真实声学场景，提供了包含专业与非专业设备录制的7942对音频样本，使得研究者能够系统分析模型在不同环境下的鲁棒性。通过其配对的干净参考音频，该数据集成为验证模型在去除噪声、抑制混响以及保留歌唱音质方面的黄金标准，为领域内的方法优化提供了关键支撑。

衍生相关工作

基于SINGVERSE的公开评估，多项研究进一步探索了歌唱增强的优化路径。例如，有工作利用该数据集验证了领域自适应训练的有效性，表明混合歌唱与语音数据能够提升模型性能而不损害原有能力；另有研究借鉴其多指标聚类分析框架，开发了平衡感知质量与可懂度的新型模型结构。这些衍生工作不仅扩展了生成式模型（如AnyEnhance）在歌唱领域的应用，还促进了针对复杂背景音乐干扰的专用算法创新。

数据集最近研究