SingMOS

Name: SingMOS
Creator: 中国人民大学信息学院
Published: 2024-06-16 20:15:28
License: 暂无描述

arXiv2024-06-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.10911v1

下载链接

链接失效反馈

官方服务：

资源简介：

SingMOS是由中国人民大学信息学院和卡内基梅隆大学语言技术研究所联合创建的高质量歌唱语音数据集，旨在解决歌唱领域中MOS评价数据稀缺的问题。该数据集包含3421个中文和日文歌唱片段，总时长4.25小时，平均长度4.47秒。数据集内容丰富，涵盖了21种歌唱语音合成模型、6种歌唱语音转换模型和6种再合成模型。创建过程中，使用了多种开源工具和模型，确保了数据的多样性和可靠性。SingMOS数据集的应用领域主要集中在歌唱MOS预测，为提升歌唱语音质量提供了重要数据支持。

SingMOS is a high-quality singing speech dataset jointly created by the School of Information, Renmin University of China and the Language Technology Institute, Carnegie Mellon University, aiming to address the scarcity of MOS evaluation data in the singing domain. This dataset contains 3,421 Chinese and Japanese singing speech clips, with a total duration of 4.25 hours and an average length of 4.47 seconds. Boasting rich content, the dataset covers 21 singing speech synthesis models, 6 singing voice conversion models and 6 resynthesis models. During its creation, various open-source tools and models were employed to ensure the diversity and reliability of the dataset. The application scenarios of SingMOS mainly focus on singing MOS prediction, providing critical data support for improving the quality of singing speech.

提供机构：

中国人民大学信息学院

创建时间：

2024-06-16

搜集汇总

数据集介绍

构建方式

SingMOS数据集的构建依托于现有开源歌唱数据集，包括中文和日文的多源歌唱数据，通过整合21种歌唱声音合成（SVS）模型、6种歌唱声音转换（SVC）模型及6种重合成（声码器）模型，生成了3421个歌唱片段，总时长4.25小时。所有真实歌唱片段及对应乐谱均来自开源数据集，确保了数据的开放性和可复现性。数据标注由专业评审员完成，每个系统目标标注量达90-100个样本，并额外引入Interspeech 2024离散语音挑战赛的评估结果以增强数据多样性。

特点

SingMOS数据集以其高质量和多样性著称，覆盖了中、日双语种及多种先进歌唱生成技术。数据集中歌唱片段平均时长为4.47秒，样本分布均衡，包含真实人声与合成声音的对比标注。通过严格的统计验证，数据展现出显著的标注可靠性和系统多样性，尤其注重音高准确性与自然度等歌唱特有属性的评估需求。此外，数据集特别划分了训练集、开发集和测试集，并包含未见系统子集以测试模型泛化能力。

使用方法

该数据集适用于歌唱质量评估模型的训练与测试，尤其针对平均意见分数（MOS）预测任务。使用者可基于公开的CC-By-SA-NC 4.0协议获取数据，参照论文提供的基线方法（如微调wav2vec2.0等SSL模型）进行实验。数据集已预分割为训练、开发和测试集，其中测试集进一步包含主测试集和额外挑战赛数据，支持跨系统、跨语种的泛化性验证。研究建议关注音高相关特征对歌唱MOS预测的影响，并可通过扩展数据集规模进一步提升模型性能。

背景与挑战

背景概述

SingMOS数据集由中国人民大学和卡内基梅隆大学的研究团队于2024年提出，旨在解决歌唱领域缺乏高质量平均意见分数（MOS）标注数据的问题。该数据集包含3421个中日语歌唱片段，覆盖21种歌唱合成模型、6种歌唱转换模型和6种再合成模型，总时长4.25小时。作为首个公开的歌唱MOS数据集，SingMOS通过专业标注和多样化数据来源，为歌唱质量评估提供了重要基准，填补了语音与歌唱领域在MOS预测研究上的空白。

当前挑战

歌唱MOS预测面临双重挑战：在领域问题上，歌唱对音高准确性和自然度的要求显著高于语音，现有语音MOS预测模型难以直接迁移；在数据构建过程中，严格的版权保护导致歌唱数据获取困难，且专业标注成本高昂。此外，歌唱数据的声学特征复杂性（如持续元音和宽动态范围）也增加了模型训练的难度。这些因素共同制约了歌唱质量评估研究的发展。

常用场景

经典使用场景

SingMOS数据集在歌唱合成与转换领域具有广泛的应用价值，尤其在歌唱质量评估方面表现出色。该数据集通过整合多种歌唱合成模型生成的音频样本，并结合专业标注者的主观评分，为研究者提供了一个可靠的基准平台。其经典使用场景包括训练和评估歌唱质量预测模型，帮助研究者优化歌唱合成系统的输出质量。

实际应用

在实际应用中，SingMOS数据集被广泛用于歌唱合成系统的质量优化和性能评估。例如，开发者可以利用该数据集训练自动评分模型，以替代昂贵的人工评分流程。此外，该数据集还可用于歌唱转换和合成技术的商业化应用测试，确保生成音频的自然度和音高准确性。

衍生相关工作

SingMOS数据集的推出催生了一系列相关研究，特别是在歌唱MOS预测模型的优化方面。基于该数据集，研究者开发了多种基于自监督学习的预测模型，如结合F0信息的改进模型。此外，该数据集还被用于歌唱合成挑战赛的基准测试，进一步推动了歌唱技术的研究与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集