SingMOS-Pro

Name: SingMOS-Pro
Creator: 中国人民大学、中山大学、卡内基梅隆大学、佐治亚理工学院
Published: 2025-10-03 13:07:06
License: 暂无描述

arXiv2025-10-03 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/TangRain/SingMOS-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

SingMOS-Pro 是一个用于自动歌唱质量评估的数据集，由 7,981 个歌唱片段组成，这些片段由 41 个模型生成，跨越 12 个数据集，涵盖了从早期系统到最新进展的范围。每个片段都至少由五名专业标注者进行评分，确保了可靠性和一致性。该数据集包含 3,425 个 SVS 片段、1,307 个 SVC 片段、2,671 个 SVR 片段和 578 个真实样本。数据集的扩展部分包含了从最新的 SVS、SVR 和歌曲生成系统中提取的样本，每个片段都标注有三个维度：歌词评分、旋律评分和整体 MOS 评分。

SingMOS-Pro is a dataset for automatic singing quality assessment, comprising 7,981 singing clips generated by 41 models across 12 datasets, spanning systems ranging from early-stage implementations to state-of-the-art advancements. Each clip is rated by at least five professional annotators, ensuring reliability and consistency. The dataset includes 3,425 SVS clips, 1,307 SVC clips, 2,671 SVR clips, and 578 real-world samples. The extended subset of the dataset contains samples extracted from the latest SVS, SVR and song generation systems, with each clip annotated across three dimensions: lyrics score, melody score and overall MOS score.

提供机构：

中国人民大学、中山大学、卡内基梅隆大学、佐治亚理工学院

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在歌唱质量评估研究领域，数据集的构建需兼顾多样性与专业性。SingMOS-Pro通过整合来自12个数据集的167首歌曲，覆盖了歌唱语音合成、歌唱语音转换及歌唱语音重合成等多种任务类型。该数据集共包含7,981个歌唱片段，由41种不同模型生成，每个片段均经过至少五位专业标注者的多维度评估，确保了数据的广泛代表性和可靠性。音频片段采样率涵盖16kHz至44.1kHz，平均时长为5.03秒，全面反映了从早期系统到最新技术的歌唱生成模型表现。

特点

作为首个多语言、多任务聚焦的歌唱质量评估数据集，SingMOS-Pro在标注维度上实现了显著拓展。除了传统的整体平均意见分数外，还专门引入了歌词清晰度与旋律自然度的精细评分，共涵盖44,247条整体评分及23,475条歌词与旋律评分。数据集覆盖3,425个歌唱语音合成片段、1,307个歌唱语音转换片段、2,671个歌唱语音重合成片段及578个真实录音，其评分分布呈现出接近高斯曲线的统计特征，为模型评估提供了丰富的质量层次参照。

使用方法

为促进歌唱质量评估模型的标准化发展，SingMOS-Pro预先划分了训练集与测试集。训练集包含4,453个片段，三个测试集分别包含1,070、1,444与339个片段，确保了模型评估的严谨性。研究实践表明，采用自监督学习骨干网络结合多数据集微调策略能有效提升模型性能，特别是在处理不同标注标准的数据时，引入领域标识符可显著缓解域间差异。该数据集支持以均方根误差、线性相关系数与斯皮尔曼等级相关系数作为核心评估指标，为自动歌唱质量预测研究建立了可靠的基准框架。

背景与挑战

背景概述

随着歌声生成技术的飞速发展，学术界与工业界对高质量歌声合成的需求日益增长，然而客观评估歌声质量的方法却长期滞后。由中国人民大学、中山大学、卡内基梅隆大学和佐治亚理工学院的研究团队于2025年联合发布的SingMOS-Pro数据集，首次构建了面向多语言、多任务的歌声质量评估基准。该数据集包含来自41种模型的7,981个歌声片段，涵盖歌声合成、歌声转换和歌声重合成三大任务，每个片段均获得至少五位专业标注者对歌词清晰度、旋律自然度及整体质量的三维评分。作为首个具备细粒度标注的大规模歌声评估数据集，SingMOS-Pro通过系统化的数据构建与严谨的标注流程，为自动歌声质量评估研究提供了关键基础设施。

当前挑战

在歌声质量评估领域，传统主观评测方法存在成本高昂且结果难以跨实验比较的固有局限，而现有客观指标与人类感知相关性较弱。SingMOS-Pro针对这一核心问题，需解决歌声生成模型在旋律保真度与发音准确性之间的平衡难题，以及跨语言、跨任务场景下的评估一致性挑战。在数据构建过程中，团队面临多源数据整合的复杂性，包括12个数据集的格式统一、141种系统配置的声学特征对齐，以及78名标注者在三维评分标准下的质量控制。此外，不同标注批次的标准化差异与音频采样率多样性（16kHz至44.1kHz）进一步增加了数据协同利用的难度。

常用场景

经典使用场景

在歌唱生成技术快速发展的背景下，SingMOS-Pro数据集作为首个多语言、多任务的歌唱质量评估基准，其经典应用场景集中于为自动歌唱质量评估模型提供标准化测试平台。该数据集通过覆盖歌唱语音合成、歌唱语音转换及歌唱语音重合成等任务，系统性地评估生成歌声在发音清晰度、旋律自然度及整体听感等维度的表现，为不同算法提供可比较的客观量化依据。

实际应用

在产业实践中，SingMOS-Pro被广泛应用于歌唱生成系统的快速迭代优化。音乐科技企业可借助该数据集构建自动化质量监控流程，实时检测合成歌声的发音异常与旋律失真。其多语言特性尤其适用于跨文化音乐产品的本地化适配，例如通过评估中文与日语歌唱样本的发音自然度，指导多语言歌唱合成系统的参数调优与质量改进。

衍生相关工作

基于SingMOS-Pro衍生的经典研究包括歌唱质量预测模型SingMOS与跨模态评估框架SHEET-ssqa。这些工作探索了自监督语音表征与旋律特征的融合机制，推动了歌唱评估从单一质量评分向多维度细粒度分析演进。该数据集还催生了针对歌唱特性的音高直方图特征提取方法，为后续研究如何有效整合音乐先验知识提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集