13.3-Hours-Chinese-Mandarin-Synthesis-Corpus-Female-Emotional

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/Nexdata-AI/13.3-Hours-Chinese-Mandarin-Synthesis-Corpus-Female-Emotional

下载链接

链接失效反馈

官方服务：

资源简介：

13.3小时中文普通话合成语料库-女性情感版。由中文母语者录制，包含情感文本，音节、音素和声调平衡。专业语音学家参与标注，精确匹配语音合成研究和开发需求。内容包括六种情感（快乐、愤怒、悲伤、惊讶、恐惧、厌恶），适用于语音合成场景。

A 13.3-hour Chinese Mandarin synthetic speech corpus - female emotional version. Recorded by native Chinese speakers, it includes emotional texts with balanced syllables, phonemes, and tones. Professional phoneticians participated in the annotation, precisely matching the needs of speech synthesis research and development. The content covers six emotions (happiness, anger, sadness, surprise, fear, disgust), suitable for speech synthesis scenarios.

创建时间：

2022-09-29

原始信息汇总

数据集概述

数据集名称

13.3小时中文普通话合成语料库-女性情感

描述

本数据集包含13.3小时的中文普通话女性情感语音，由中文母语者录制，情感文本，音节、音素和声调均衡。专业语音学家参与标注，精确匹配语音合成研究和开发需求。

格式

采样率：48,000Hz
位深度：16bit
格式：无压缩wav
声道：单声道

录制环境

专业录音室

录制内容

包含六种情感：快乐、愤怒、悲伤、惊讶、恐惧、厌恶

发音人

性别：女性
年龄：20-30岁
声音特点：柔和友好

设备

麦克风

语言

普通话

标注

文字和拼音转录
韵律边界标注

应用场景

语音合成

许可信息

商业许可

搜集汇总

数据集介绍

构建方式

该数据集通过专业的录音工作室环境，由一位20至30岁的女性母语者录制，涵盖了六种情感状态（快乐、愤怒、悲伤、惊讶、恐惧、厌恶）。录音采用48,000Hz、16bit、未压缩的单声道wav格式，确保了音频的高质量。此外，专业语音学家参与了注释工作，提供了精确的词语和拼音转录以及韵律边界标注，从而满足了语音合成研究与开发的需求。

特点

此数据集的显著特点在于其情感多样性和高质量的录音环境。通过涵盖六种不同的情感状态，该数据集为情感语音合成提供了丰富的资源。此外，专业语音学家的参与确保了数据的精确性和可靠性，使得该数据集在语音合成领域具有较高的应用价值。

使用方法

该数据集适用于语音合成技术的研究和开发，特别是在情感语音合成方面。用户可以通过加载wav格式的音频文件，结合提供的词语和拼音转录以及韵律边界标注，进行模型训练和测试。建议在使用前详细阅读数据集的许可信息，确保符合商业使用的要求。

背景与挑战

背景概述

13.3-Hours-Chinese-Mandarin-Synthesis-Corpus-Female-Emotional数据集是由中国本土女性演讲者录制的情感语音合成语料库，涵盖了六种基本情感（快乐、愤怒、悲伤、惊讶、恐惧、厌恶）。该数据集由专业的语音学家参与标注，确保音节、音素和声调的平衡，精确匹配语音合成技术的研发需求。其录制环境为专业录音室，采用48,000Hz、16bit、未压缩的wav格式，单声道录音，旨在为语音合成领域提供高质量的情感语音数据。该数据集的创建不仅丰富了中文语音合成语料库的多样性，还为情感语音合成技术的研究与应用提供了坚实的基础。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，情感语音的录制需要演讲者在不同情感状态下保持语音的自然性和一致性，这对演讲者的表演能力和录音技术提出了较高要求。其次，情感语音的标注需要专业语音学家的参与，以确保音节、音素和声调的准确性，这增加了数据集构建的复杂性和成本。此外，情感语音合成技术的研究需要处理情感与语音特征之间的复杂关系，如何在合成语音中准确表达和控制情感仍是一个技术难题。这些挑战不仅影响了数据集的质量，也对语音合成技术的进一步发展提出了新的研究方向。

常用场景

经典使用场景

该数据集主要用于中文普通话情感语音合成研究，特别适用于开发具有情感表达能力的语音合成系统。通过提供六种基本情感（快乐、愤怒、悲伤、惊讶、恐惧、厌恶）的语音样本，研究者可以训练模型以生成具有特定情感色彩的语音输出，从而提升语音合成系统的自然度和情感表达能力。

实际应用

在实际应用中，该数据集可用于开发具有情感交互能力的智能语音助手、情感化教育软件以及情感识别系统。例如，在智能客服中，通过情感语音合成技术，系统可以根据用户的情绪状态调整回应的语气和内容，从而提升用户体验。此外，在教育领域，情感化的语音输出可以帮助学生更好地理解和记忆学习内容。

衍生相关工作

基于该数据集，研究者已开展了多项相关工作，包括情感语音合成模型的优化、情感识别与语音合成的联合建模以及跨语言情感语音合成等。这些工作不仅推动了语音合成技术的发展，还为情感计算和自然语言处理领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集