five

moe-speech-plus

收藏
Hugging Face2025-02-21 更新2025-02-22 收录
下载链接:
https://huggingface.co/datasets/ayousanz/moe-speech-plus
下载链接
链接失效反馈
官方服务:
资源简介:
MoeSpeech是一个包含日本人声优高质声音频的数据集,适用于文本到语音和音频到音频等任务,尤其针对日本萌文化中的角色语音合成。数据集共有473个角色,约395k个音频文件,总时长约623小时,数据大小约184GB。音频文件经过质量过滤,适合用于TTS等任务。

MoeSpeech is a high-quality audio dataset containing recordings from Japanese voice actors, applicable to tasks including text-to-speech and audio-to-audio, with a special focus on character speech synthesis in Japanese moe culture. The dataset includes 473 characters, approximately 395,000 audio files, with a total duration of about 623 hours and a total data size of roughly 184 GB. All audio files have undergone quality filtering, making them suitable for tasks such as TTS.
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从合法购买的PC游戏中收集专业声优的表演录音,经过质量筛选和格式转换构建而成,旨在促进情感TTS和声音转换的研究与开发。
特点
数据集特点包括:包含男女声优的高质量录音,组织结构清晰,具有匿名化的角色标识,经过质量筛选,适用于TTS等任务。
使用方法
使用方法包括:通过Hugging Face CLI或git-lfs进行数据集的下载,根据具体任务选择相应的子集进行训练或测试。
背景与挑战
背景概述
MoeSpeech数据集是由日本专业人士提供的,包含日本专业声优录制的高质量角色表演语音音频。这些音频是在没有噪音和背景音乐的录音室中录制的,每个音频文件是2-15秒的44.1kHz 16bit单声道WAV文件。该数据集目前包括473个角色,大约395k个音频文件,总时长约623小时,总大小约184GB。数据集的创建旨在促进情感TTS和声音转换的研究与发展,特别是在日本萌文化领域。该数据集的来源是合法购买的PC游戏录音,经过筛选和处理,以确保音频质量适合TTS等任务。
当前挑战
该数据集在构建过程中面临的挑战包括:确保音频质量符合TTS等任务的要求,处理和排除不合适的音频内容,以及遵守版权法规,确保数据集的使用不侵犯版权所有者的利益。具体挑战包括:1)处理和排除经过特殊处理的音频,如听起来像是从电话或墙壁另一侧传来的音频;2)遵守版权法规定,合理使用数据集,避免不当损害版权所有者的利益。
常用场景
经典使用场景
该数据集的经典使用场景在于为研究和发展语音相关任务,如语音转换和具有丰富情感表达的字符语音合成,尤其是在日本萌文化中,提供了高质量的语音数据,有助于开发更加自然的语音合成系统。
实际应用
在实际应用中,该数据集可以被用于开发更加自然的语音助手、角色扮演游戏中的角色语音合成,以及任何需要高质量语音输出的场景,如广告、电影和电视节目等。
衍生相关工作
该数据集衍生出的相关工作包括但不限于:基于该数据集的语音合成模型的开发、情感识别算法的改进,以及用于教育和研究目的的语音数据集的创建。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作