GMO-SVS和SoulX-Singer-Eval

github2026-02-11 更新2026-02-13 收录

下载链接：

https://github.com/Soul-AILab/SoulX-Singer-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

GMO-SVS是基于三个公开的SVS语料库构建的：GTSinger、M4Singer和Opencpop。M4Singer和Opencpop采用官方测试分割。GTSinger贡献了来自多位歌手的英语和普通话歌曲，具有多样的技巧和风格。总共包含802个样本。SoulX-Singer-Eval是另一个补充评估数据集，用于评估开源和零样本条件。

GMO-SVS is constructed based on three publicly available SVS corpora: GTSinger, M4Singer, and Opencpop. M4Singer and Opencpop adopt their official test splits. GTSinger features English and Mandarin songs from multiple singers, with diverse singing techniques and styles. In total, GMO-SVS contains 802 samples. SoulX-Singer-Eval is another supplementary evaluation dataset intended for evaluating open-source scenarios and zero-shot settings.

创建时间：

2026-02-11

原始信息汇总

SoulX-Singer-Eval 数据集概述

数据集基本信息

数据集名称: SoulX-Singer-Eval
主要用途: 用于零样本歌声合成系统的评估套件，涵盖美学吸引力、信号质量、发音准确性、说话人相似度和旋律精确度。
数据集地址: https://huggingface.co/datasets/Soul-AILab/SoulX-Singer-Eval-Dataset

评估指标概述

1. 歌唱美学

SingMOS-Pro: 针对歌声的专业MOS预测器，专注于专业声乐属性。
Sheet-SSQA: 基于简单层次感知增强的语音主观质量评估工具。

2. 频谱质量

Mel Cepstral Distortion (MCD): 测量预测音频与真实音频之间的频谱距离。

3. 发音清晰度

WER/CER: 使用ASR模型评估准确性。
英语模型: Whisper Large v3 (https://huggingface.co/openai/whisper-large-v3)。
中文模型: Paraformer-large (https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch)。
注意: 计算前移除标点符号。

4. 说话人相似度

Speaker-Sim (余弦相似度): 计算提示声音与生成声音之间的余弦相似度。
模型: WavLM-base-plus-sv (https://huggingface.co/microsoft/wavlm-base-plus-sv)。

5. 旋律准确性

FFE / GPE / VDE: 帧错误、总音高错误和浊音决策错误。

数据集详情

GMO-SVS 数据集

构建基础: 基于三个公开的SVS语料库：GTSinger、M4Singer和Opencpop。
样本数量: 802个样本。
评估方式: 每首歌的第一句用作声学提示，其余内容由评估模型合成。保留提示歌手的真实录音以评估发音准确性、韵律一致性和整体合成质量。
公平性保证: 这些开源数据集均未用于SoulX-Singer的训练。

SoulX-Singer-Eval 数据集

主要目的: 针对未见说话人的零样本泛化能力评估。
样本构成: 包含来自50个不同个体的100个歌唱片段（25名普通话和25名英语说话人），每个说话人2个片段。
数据来源:
- 普通话数据: 从招募的专业和业余歌手处收集，已获得开源许可。
- 英语数据: 从多轨《Mixing Secrets》数据集中切片和过滤。
标注信息: 所有片段均经过精确旋律的人工标注。
合成目标: 目标歌词和旋律从GMO-SVS中的15首普通话和15首英语曲目中随机选择。

使用说明

数据准备

遵循 examples/summary.json 中的结构。
每个JSON记录包含：txt（参考文本）、ref_fn（参考音频路径）、gen_fn（生成音频路径）、prompt_fn（提示音频路径）、language（语言）、prompt_language（提示语言）。

评估流程

启动评估服务器：bash eva_server_run.sh
运行评估脚本：编辑 eva_client_run.sh 并设置 infer_dir，然后执行 bash eva_client_run.sh
手动评估：python eva_client.py --input_file examples/summary.json --output_dir examples

结果输出

生成文件：result_zh.json / result_en.json、merged_zh.json / merged_en.json
结果汇总：python average.py --input_file examples/result_zh.json --result_file examples/merged_zh.json

依赖组件

TTS-Evaluation (https://github.com/Shengqiang-Li/TTS-Evaluation)
TTS-Objective-Metric (https://github.com/AI-Unicamp/TTS-Objective-Metrics)
SingMOS (https://github.com/South-Twilight/SingMOS)
Sheet-SSQA (https://github.com/unilight/sheet)

搜集汇总

数据集介绍

构建方式

在歌唱合成领域，评估数据集的构建需兼顾多样性与专业性。GMO-SVS数据集整合了三个公开歌唱语料库：GTSinger、M4Singer和Opencpop，采用官方测试划分，共包含802个样本，其中首句作为声学提示，其余内容由模型合成，真实录音用于评估发音准确性与合成质量。SoulX-Singer-Eval则专门为零样本泛化设计，收集了50位不同歌手的100个歌唱片段，涵盖中英文，通过手动标注旋律以满足零样本模型的提示需求，目标歌词和旋律从GMO-SVS中随机选取，确保评估的严谨性。

特点

该评估套件的核心特点在于其多维度的度量体系，全面覆盖歌唱合成的主观与客观指标。主观层面引入SingMOS-Pro和Sheet-SSQA两种平均意见分数预测模型，专业评估歌唱美感；客观层面则通过梅尔倒谱失真衡量频谱质量，利用语音识别模型计算词错误率以评估发音清晰度，并基于WavLM模型计算说话人相似度，同时结合帧错误率等指标精确分析旋律准确性。这种综合设计为歌唱合成系统提供了标准化、可复现的评估基准。

使用方法

使用该数据集进行评估时，需遵循结构化流程。首先准备样本数据，按照指定JSON格式组织参考文本、音频路径及语言信息；随后启动评估服务器，通过编辑脚本设置输入目录，运行客户端脚本以自动生成中英文结果文件。评估过程整合了多种预训练模型，用户需提前下载检查点文件并配置环境，最终通过聚合脚本得到平均分数，从而系统化地完成歌唱合成模型的性能分析。

背景与挑战

背景概述

在人工智能与音乐信息检索的交叉领域，歌唱语音合成技术正经历从特定歌手建模向零样本泛化的范式转变。SoulX-Singer-Eval数据集由Soul-AILab于2024年推出，旨在构建系统化的零样本歌唱语音合成评估体系。该数据集针对现有开源模型在未见歌手音色克隆与风格迁移中的性能瓶颈，通过整合GMO-SVS基准集与全新采集的多语言歌唱样本，为学术界提供了覆盖美学感知、频谱保真度、发音清晰度、说话人相似度及旋律准确性的多维评估框架。其创新性在于首次将专业歌唱美学指标与零样本泛化能力验证相结合，推动了歌唱合成技术向实用化与个性化方向发展。

当前挑战

歌唱语音合成评估面临的核心挑战在于如何建立与人类主观感知高度一致的客观评价体系。现有指标在捕捉歌唱艺术特有的颤音控制、情感表达等美学维度时存在显著局限性，而跨语言发音评估中方言变体与歌唱咬字特性也增加了智能识别难度。数据集构建过程中，专业歌唱数据的采集需协调歌手版权与录音环境标准化，多轨道音乐素材的声乐分离精度直接影响评估样本纯度。此外，零样本场景要求评估集必须完全独立于模型训练数据，这对数据源的多样性与标注一致性提出了更高要求，需通过人工校验确保旋律标注与歌词文本的时空对齐精度。

常用场景

经典使用场景

在歌唱语音合成领域，SoulX-Singer-Eval数据集作为一套零样本评估套件，其经典使用场景在于为新兴的SVS模型提供多维度的性能基准测试。该数据集通过整合GMO-SVS与SoulX-Singer-Eval两个子集，覆盖了从公开语料到全新歌手的广泛数据，使得研究人员能够在统一框架下，系统性地评估模型在美学吸引力、频谱质量、发音清晰度、说话人相似度及旋律准确性等方面的综合表现，从而推动零样本歌唱合成技术的标准化进程。

解决学术问题

该数据集有效解决了歌唱语音合成研究中长期存在的评估标准缺失问题。传统上，该领域缺乏公认的基准数据集与全面的评价指标，导致不同模型间的比较往往流于主观或片面。SoulX-Singer-Eval通过引入涵盖主观美学与客观声学参数的多样化度量体系，如SingMOS-Pro、MCD、WER/CER及FFE等，为量化模型在零样本条件下的泛化能力、音色克隆保真度以及跨语言适应性提供了严谨的学术工具，显著提升了研究成果的可复现性与可比性。

衍生相关工作

围绕该数据集，已衍生出一系列重要的相关研究工作。其评估框架集成了来自SingMOS、Sheet-SSQA等项目的先进度量模型，这些模型本身便是歌唱质量评估领域的代表性成果。此外，数据集的设计理念与构建方法，为后续更大规模的歌唱合成基准（如可能扩展的多语种、多风格评估集）提供了范本。基于其公开的评估协议，多个开源SVS模型（如SoulX-Singer项目本身）得以进行系统化比较与优化，进一步推动了整个社区在模型架构与训练策略上的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集