moe-speech-plus

Hugging Face2025-02-21 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/ayousanz/moe-speech-plus

下载链接

链接失效反馈

官方服务：

资源简介：

MoeSpeech是一个包含日本人声优高质声音频的数据集，适用于文本到语音和音频到音频等任务，尤其针对日本萌文化中的角色语音合成。数据集共有473个角色，约395k个音频文件，总时长约623小时，数据大小约184GB。音频文件经过质量过滤，适合用于TTS等任务。

MoeSpeech is a high-quality audio dataset containing recordings from Japanese voice actors, applicable to tasks including text-to-speech and audio-to-audio, with a special focus on character speech synthesis in Japanese moe culture. The dataset includes 473 characters, approximately 395,000 audio files, with a total duration of about 623 hours and a total data size of roughly 184 GB. All audio files have undergone quality filtering, making them suitable for tasks such as TTS.

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

该数据集通过从合法购买的PC游戏中收集专业声优的表演录音，经过质量筛选和格式转换构建而成，旨在促进情感TTS和声音转换的研究与开发。

特点

数据集特点包括：包含男女声优的高质量录音，组织结构清晰，具有匿名化的角色标识，经过质量筛选，适用于TTS等任务。

使用方法

使用方法包括：通过Hugging Face CLI或git-lfs进行数据集的下载，根据具体任务选择相应的子集进行训练或测试。

背景与挑战

背景概述

MoeSpeech数据集是由日本专业人士提供的，包含日本专业声优录制的高质量角色表演语音音频。这些音频是在没有噪音和背景音乐的录音室中录制的，每个音频文件是2-15秒的44.1kHz 16bit单声道WAV文件。该数据集目前包括473个角色，大约395k个音频文件，总时长约623小时，总大小约184GB。数据集的创建旨在促进情感TTS和声音转换的研究与发展，特别是在日本萌文化领域。该数据集的来源是合法购买的PC游戏录音，经过筛选和处理，以确保音频质量适合TTS等任务。

当前挑战

常用场景

经典使用场景

该数据集的经典使用场景在于为研究和发展语音相关任务，如语音转换和具有丰富情感表达的字符语音合成，尤其是在日本萌文化中，提供了高质量的语音数据，有助于开发更加自然的语音合成系统。

实际应用

在实际应用中，该数据集可以被用于开发更加自然的语音助手、角色扮演游戏中的角色语音合成，以及任何需要高质量语音输出的场景，如广告、电影和电视节目等。

衍生相关工作

该数据集衍生出的相关工作包括但不限于：基于该数据集的语音合成模型的开发、情感识别算法的改进，以及用于教育和研究目的的语音数据集的创建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集