NGYY_ENG_Dataset
收藏github2024-10-06 更新2024-10-22 收录
下载链接:
https://github.com/CylnaNangong/NGYY_ENG_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集含有共约时长50分钟、三个音色的英文演唱录音。音频使用电容麦在安静的家庭环境下录制。声学相关的标记已在自动标记后手动精修。音素方案为ARPAbetPlus(含有ax dx dr和tr)。音高相关标记为SOME自动标记。音频没有经过任何除了剪辑以外的后期处理。数据采集自非母语的英语使用者。发音习惯和口音可能会有前后不一致的状况。不允许以他人或其他角色的名义二次发布该数据集或使用该数据集训练并可反映原采样特征的模型。如果在训练或其他情况下使用本数据集的时候能credit一下『南宫颜·羽』的话,小颜小羽会很开心的。本数据集日后可能会继续更新。
This dataset contains approximately 50 minutes of total English singing recordings across three distinct timbres. The audio was recorded using a condenser microphone in a quiet home environment. Acoustic-related annotations were manually refined following automatic labeling. The phoneme scheme adopted is ARPAbetPlus (including ax, dx, dr, and tr). Pitch-related annotations were automatically labeled using SOME. No post-processing was applied to the audio except for trimming. The dataset was collected from non-native English speakers. There may be inconsistencies in pronunciation habits and accents across the recordings. Redistributing this dataset under the name of other individuals or fictional characters, or training models that replicate the characteristics of the original samples using this dataset, is prohibited. If you would like to attribute credit to "南宫颜·羽" when using this dataset for training or other scenarios, we would be extremely grateful. This dataset may receive further updates in the future.
创建时间:
2024-10-06
原始信息汇总
南宫颜·羽英语数据集
概述
- 数据集名称: 南宫颜·羽英语数据集
- 数据类型: 英文演唱语音数据
- 时长: 约50分钟
- 音色数量: 3种
- 录制环境: 安静的家庭环境
- 录音设备: 电容麦克风
数据特点
- 音素标记: 采用ARPAbetPlus方案,包含ax, dx, dr和tr
- 音高标记: 自动标记,但音高准确性较差,需谨慎使用
- 后期处理: 仅进行剪辑和裁剪,未进行其他后期处理
- 发音者: 非母语英语使用者,可能存在发音和口音不一致的情况
使用限制
- 二次发布: 不允许以他人或其他角色的名义二次发布该数据集
- 模型发布: 不允许以他人或其他角色的名义发布使用该数据集训练并可反映原采样特征的模型或该种模型产生的内容
其他信息
- 数据集更新: 未来可能会继续更新
- 署名要求: 使用时建议署名“南宫颜·羽”
搜集汇总
数据集介绍

构建方式
NGYY_ENG_Dataset数据集的构建基于一位非母语英语使用者的演唱录音,总时长约为50分钟,涵盖三种不同的音色。录音环境为安静的家庭环境,使用电容麦克风进行捕捉。声学相关的数据标记经过自动标记后,由人工进行修正,采用ARPAbetPlus音素方案,确保与DIFF EN音素转换器的兼容性。音高信息则由SOME系统自动标记,尽管存在一定的音高准确性问题,但仍为研究者提供了宝贵的数据资源。
使用方法
使用NGYY_ENG_Dataset时,研究者可以利用其丰富的音色和音高信息进行声学模型的训练。由于数据集未经过后期处理,用户可以根据需要自行进行音频处理,如降噪、去混响等。在使用过程中,建议考虑到音高标记的自动生成特性,可能需要进一步校正。同时,尊重数据集的版权声明,不得以其他角色名义发布或使用该数据集训练的模型。
背景与挑战
背景概述
NGYY_ENG_Dataset是由南宫颜·羽(Nangong Yan & Yu)创建的英语演唱声音数据集,旨在为DiffSinger虚拟歌手项目提供高质量的语音资源。该数据集包含了约50分钟的英语演唱音频,涵盖了三种不同的音色,均由同一位非母语者录制。数据集的创建时间未明确提及,但通过其详细的标注和处理过程,可以推测其创建时间较为近期。主要研究人员或机构为南宫颜·羽,其核心研究问题在于提供一个适用于虚拟歌手项目的多音色英语演唱数据集,以支持语音合成技术的进一步发展。该数据集对语音合成领域具有重要影响力,特别是在虚拟歌手和语音合成模型的训练中,其多样化的音色和详细的标注为研究者提供了宝贵的资源。
当前挑战
NGYY_ENG_Dataset在构建过程中面临了多个挑战。首先,由于录音者为非母语者,数据中存在发音不一致和口音差异的问题,这可能影响模型的训练效果。其次,音高标记由自动工具生成,存在一定的误差,需要在使用时特别注意。此外,数据集的声学标记虽经过手动修正,但仍需进一步优化以提高准确性。最后,数据集的音色多样性虽然丰富,但也增加了模型训练的复杂性,需要研究者开发更复杂的模型来充分利用这些资源。
常用场景
经典使用场景
在语音合成领域,NGYY_ENG_Dataset 数据集的经典使用场景主要集中在开发和优化基于DiffSinger技术的虚拟歌手系统。该数据集提供了约50分钟的英文演唱音频,涵盖三种不同的音色,适用于训练能够生成高质量、多样化语音的模型。通过利用这些音频数据,研究人员和开发者可以探索如何更精确地模拟人类歌唱的音高、节奏和情感表达,从而提升虚拟歌手的自然度和表现力。
解决学术问题
NGYY_ENG_Dataset 数据集在学术研究中解决了多个关键问题。首先,它为非母语英语发音的研究提供了宝贵的数据资源,有助于分析和改进语音合成系统在处理不同口音和发音习惯时的表现。其次,数据集中的音高和音素信息为音高预测和音素识别算法的研究提供了基础,推动了语音合成技术在音高准确性和音素转换精度方面的进步。此外,该数据集还为虚拟歌手系统的个性化和情感表达研究提供了丰富的素材,促进了相关领域的发展。
实际应用
在实际应用中,NGYY_ENG_Dataset 数据集被广泛用于开发和优化虚拟歌手系统,这些系统在娱乐、教育和商业领域具有广泛的应用前景。例如,在音乐制作中,虚拟歌手可以作为创作工具,帮助音乐人快速生成和编辑歌曲。在教育领域,虚拟歌手可以用于语言学习软件,提供发音练习和纠正。此外,虚拟歌手还可以应用于游戏和虚拟现实环境中,增强用户体验和互动性。
数据集最近研究
最新研究方向
在虚拟歌手和语音合成领域,NGYY_ENG_Dataset因其独特的多音色和非母语发音特点,吸引了研究者的广泛关注。该数据集不仅提供了丰富的音色变化,还包含了详细的音素和音高信息,这对于提升语音合成系统的自然度和表现力具有重要意义。当前的研究主要集中在利用这些特性来改进语音合成模型,特别是在处理非母语发音的挑战性任务上。此外,数据集的开放性和可扩展性也为未来的研究提供了广阔的空间,预期将推动语音合成技术在多语言和多音色应用中的进一步发展。
以上内容由遇见数据集搜集并总结生成



