five

Opencpop|歌唱语音合成数据集|中文流行歌曲数据集

收藏
arXiv2022-01-20 更新2024-06-21 收录
歌唱语音合成
中文流行歌曲
下载链接:
https://wenet.org.cn/opencpop/
下载链接
链接失效反馈
资源简介:
Opencpop是一个专为歌唱语音合成(SVS)设计的高质量开源中文流行歌曲数据集,由西北工业大学和网易公司伏羲AI实验室共同创建。该数据集包含100首由专业女歌手演唱的流行中文歌曲,音频以44,100 Hz的采样率录制,并提供了相应的歌词和乐谱。所有歌唱录音都进行了语音学标注,包括音素边界和音节(音符)边界。数据集的创建过程涉及歌曲选择、录音、标注和后处理等多个步骤,旨在为SVS研究提供一个可靠的基准。Opencpop的应用领域包括虚拟角色和艺术创作等,旨在解决中文SVS领域的高质量数据集缺乏问题。
提供机构:
西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU),网易公司伏羲AI实验室
创建时间:
2022-01-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
Opencpop数据集的构建过程详尽而精细。首先,从多个中国流行歌曲排行榜中挑选了300首歌曲,经过筛选,最终选择了100首具有足够音节和每分钟节拍(BPM)覆盖率的流行歌曲进行录制。录音在专业录音室进行,确保了音频质量,并采用44,100 Hz的采样率录制。随后,对录音进行了详细的标注,包括音符音高、音符边界、音素边界、音节边界、单词边界、句子边界以及音符是否为连音的指示。标注过程采用了半自动化的方法,结合了Logic Pro和Praat软件,以及专业标注人员的参与。最后,将录音分割成更小的片段,以便于SVS系统的训练,并设置了测试集和训练集。
特点
Opencpop数据集的特点在于其高质量和详细的标注。该数据集包含了100首由专业女歌手演唱的流行歌曲,所有音频均以44,100 Hz的采样率录制,总时长约为5.2小时。数据集的标注信息丰富,包括音素边界、音符边界等,为SVS模型的训练提供了准确的基础。此外,数据集的BPM分布广泛,覆盖了从40到130的BPM值,使得基于Opencpop训练的系统能够处理各种BPM条件。音符音高和音素的分布也较为均匀,能够满足SVS系统对各种音素的处理需求。
使用方法
Opencpop数据集的使用方法涉及多个步骤。首先,用户需要将数据集下载到本地。然后,可以使用数据集中的音频和标注信息进行SVS模型的训练。在训练过程中,可以根据需要选择不同的模型,如Fastspeech2、HiFi-GAN等。训练完成后,可以使用测试集对模型进行评估,包括客观指标和主观评价。此外,用户还可以使用数据集中的音频进行语音合成,生成高质量的歌唱声音。Opencpop数据集的发布,为SVS领域的研究和应用提供了重要的资源。
背景与挑战
背景概述
Opencpop数据集是一个高质量的开源中文流行歌曲语料库,专门为歌唱语音合成(SVS)任务设计。该数据集由王宇、王晓升、朱鹏程等研究人员共同创建,并由西北工业大学计算机科学与技术学院的音频、语音和语言处理小组(ASLP@NPU)以及网易伏羲AI实验室提供支持。数据集包含由一位专业女歌手演唱的100首流行中文歌曲,录音质量达到专业级别,采样率为44,100 Hz,并提供相应的歌词和乐谱。所有演唱录音均经过音素边界和音节(音符)边界的语音标注。为了证明所发布数据的可靠性并为进一步研究提供基准,研究人员建立了基于深度神经网络的SVS模型,并使用客观指标和主观平均意见得分(MOS)进行评估。实验结果表明,在Opencpop数据库上训练的最佳SVS模型实现了3.70的MOS,证明了所提供语料库的可靠性。Opencpop已被开源社区WeNet1发布,语料库以及合成的演示可以在项目主页2上找到。该数据集的创建对于推动中文SVS技术的发展具有重要意义,为相关研究提供了高质量的数据资源。
当前挑战
Opencpop数据集的创建面临的主要挑战包括:1) 语音合成领域的挑战,特别是歌唱语音合成(SVS)需要处理与普通语音合成不同的音乐信息,如音符和节奏,这使得SVS模型的设计和训练更加复杂;2) 数据集构建过程中的挑战,例如,高质量SVS语料库的标注需要专业人员进行音素边界和音节边界的语音标注,这需要大量的人力和时间投入。此外,由于歌唱语音与乐谱的精确对齐难度较大,因此需要手动后处理,如声音塑形或乐谱重新标注,这进一步增加了数据集构建的难度。尽管存在这些挑战,Opencpop数据集的创建仍然为SVS研究提供了重要的数据资源,并为未来研究提供了基准性能。
常用场景
经典使用场景
Opencpop数据集,作为一款高质量的开源中文流行歌曲语料库,其经典的使用场景主要集中于歌唱语音合成(SVS)领域。该数据集包含了100首由专业女歌手演唱的中文流行歌曲,录音质量达到专业录音室标准,采样率为44,100 Hz。同时,每首歌曲都提供了对应的歌词和乐谱,并对语音进行了音素边界和音节(音符)边界的标注。这些丰富的标注信息使得Opencpop数据集成为训练和评估SVS模型的重要资源。
衍生相关工作
Opencpop数据集的发布也衍生出了一系列相关的工作。例如,一些研究者使用Opencpop数据集训练了基于深度神经网络的SVS模型,并取得了较好的效果。此外,Opencpop数据集还被用于评估和比较不同的SVS模型,推动了该领域的技术发展。
数据集最近研究
最新研究方向
Opencpop数据集为中文流行歌曲的歌唱语音合成(SVS)任务提供了高质量的语料库,其包含100首由专业女歌手演唱的流行歌曲。该语料库的音频文件以44,100 Hz的采样率录制,并提供相应的歌词和乐谱。所有的歌唱录音都经过音素边界和音节(音符)边界的语音注释。为验证所提供数据的可靠性并为未来研究提供基准,构建了基于深度神经网络的SVS模型,并使用客观指标和主观平均意见得分(MOS)进行评估。实验结果表明,在Opencpop数据库上训练的最佳SVS模型实现了3.70 MOS,证明了所提供语料库的可靠性。Opencpop数据集的发布将有助于推动中文歌唱语音合成领域的研究,特别是在高质量语音合成、风格化语音和情感语音合成等方面。此外,该数据集的开放性也将促进学术交流和合作,为研究人员提供一个共同的基准平台,以评估和比较不同SVS模型的表现。
相关研究论文
  • 1
    Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis西北工业大学计算机学院音频、语音与语言处理组(ASLP@NPU),网易公司伏羲AI实验室 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中,每张图片仅包含一张车牌,车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息,但是CCPD数据集没有专门的标注文件,每张图像的文件名就是该图像对应的数据标注。

github 收录