five

SingMOS|歌唱语音数据集|MOS预测数据集

收藏
arXiv2024-06-16 更新2024-08-06 收录
歌唱语音
MOS预测
下载链接:
http://arxiv.org/abs/2406.10911v1
下载链接
链接失效反馈
资源简介:
SingMOS是由中国人民大学信息学院和卡内基梅隆大学语言技术研究所联合创建的高质量歌唱语音数据集,旨在解决歌唱领域中MOS评价数据稀缺的问题。该数据集包含3421个中文和日文歌唱片段,总时长4.25小时,平均长度4.47秒。数据集内容丰富,涵盖了21种歌唱语音合成模型、6种歌唱语音转换模型和6种再合成模型。创建过程中,使用了多种开源工具和模型,确保了数据的多样性和可靠性。SingMOS数据集的应用领域主要集中在歌唱MOS预测,为提升歌唱语音质量提供了重要数据支持。
提供机构:
中国人民大学信息学院
创建时间:
2024-06-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
SingMOS数据集的构建依托于现有开源歌唱数据集,包括中文和日文的多源歌唱数据,通过整合21种歌唱声音合成(SVS)模型、6种歌唱声音转换(SVC)模型及6种重合成(声码器)模型,生成了3421个歌唱片段,总时长4.25小时。所有真实歌唱片段及对应乐谱均来自开源数据集,确保了数据的开放性和可复现性。数据标注由专业评审员完成,每个系统目标标注量达90-100个样本,并额外引入Interspeech 2024离散语音挑战赛的评估结果以增强数据多样性。
特点
SingMOS数据集以其高质量和多样性著称,覆盖了中、日双语种及多种先进歌唱生成技术。数据集中歌唱片段平均时长为4.47秒,样本分布均衡,包含真实人声与合成声音的对比标注。通过严格的统计验证,数据展现出显著的标注可靠性和系统多样性,尤其注重音高准确性与自然度等歌唱特有属性的评估需求。此外,数据集特别划分了训练集、开发集和测试集,并包含未见系统子集以测试模型泛化能力。
使用方法
该数据集适用于歌唱质量评估模型的训练与测试,尤其针对平均意见分数(MOS)预测任务。使用者可基于公开的CC-By-SA-NC 4.0协议获取数据,参照论文提供的基线方法(如微调wav2vec2.0等SSL模型)进行实验。数据集已预分割为训练、开发和测试集,其中测试集进一步包含主测试集和额外挑战赛数据,支持跨系统、跨语种的泛化性验证。研究建议关注音高相关特征对歌唱MOS预测的影响,并可通过扩展数据集规模进一步提升模型性能。
背景与挑战
背景概述
SingMOS数据集由中国人民大学和卡内基梅隆大学的研究团队于2024年提出,旨在解决歌唱领域缺乏高质量平均意见分数(MOS)标注数据的问题。该数据集包含3421个中日语歌唱片段,覆盖21种歌唱合成模型、6种歌唱转换模型和6种再合成模型,总时长4.25小时。作为首个公开的歌唱MOS数据集,SingMOS通过专业标注和多样化数据来源,为歌唱质量评估提供了重要基准,填补了语音与歌唱领域在MOS预测研究上的空白。
当前挑战
歌唱MOS预测面临双重挑战:在领域问题上,歌唱对音高准确性和自然度的要求显著高于语音,现有语音MOS预测模型难以直接迁移;在数据构建过程中,严格的版权保护导致歌唱数据获取困难,且专业标注成本高昂。此外,歌唱数据的声学特征复杂性(如持续元音和宽动态范围)也增加了模型训练的难度。这些因素共同制约了歌唱质量评估研究的发展。
常用场景
经典使用场景
SingMOS数据集在歌唱合成与转换领域具有广泛的应用价值,尤其在歌唱质量评估方面表现出色。该数据集通过整合多种歌唱合成模型生成的音频样本,并结合专业标注者的主观评分,为研究者提供了一个可靠的基准平台。其经典使用场景包括训练和评估歌唱质量预测模型,帮助研究者优化歌唱合成系统的输出质量。
实际应用
在实际应用中,SingMOS数据集被广泛用于歌唱合成系统的质量优化和性能评估。例如,开发者可以利用该数据集训练自动评分模型,以替代昂贵的人工评分流程。此外,该数据集还可用于歌唱转换和合成技术的商业化应用测试,确保生成音频的自然度和音高准确性。
衍生相关工作
SingMOS数据集的推出催生了一系列相关研究,特别是在歌唱MOS预测模型的优化方面。基于该数据集,研究者开发了多种基于自监督学习的预测模型,如结合F0信息的改进模型。此外,该数据集还被用于歌唱合成挑战赛的基准测试,进一步推动了歌唱技术的研究与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录