22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/Nexdata-AI/22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

22人中文普通话多情感合成语料库，由中文母语者录制，涵盖不同年龄和性别。包含六种情感文本，音节、音素和声调平衡。专业语音学家参与标注，精确匹配语音合成研究和开发需求。

A 22-person Mandarin Chinese multi-emotion synthetic corpus, recorded by native Chinese speakers, covering different ages and genders. It includes six types of emotional texts, with balanced syllables, phonemes, and tones. Professional phoneticians participated in the annotation, precisely matching the needs of speech synthesis research and development.

创建时间：

2023-11-09

原始信息汇总

22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus 概述

数据集描述

名称：22 People - Chinese Mandarin Multi-emotional Synthesis Corpus
内容：由22位不同年龄和性别的汉语母语者录制，涵盖六种情感文本，音节、音素和声调均衡。专业语音学家参与标注，精确匹配语音合成研究和开发需求。

规格

格式：48,000Hz, 24bit, 单声道无压缩wav文件
录制环境：专业录音室
录制内容：七种情感（快乐、愤怒、悲伤、惊讶、恐惧、厌恶）
发言人：22人，涵盖不同年龄和性别
设备：麦克风
语言：普通话
标注：字和拼音转录，韵律边界标注
应用场景：语音合成
数据量：每人140分钟数据，每种情感20分钟

许可信息

许可类型：商业许可

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的录音流程构建，由22名来自不同年龄段和性别背景的汉语母语者参与录制。录音内容涵盖了七种基本情感，包括快乐、愤怒、悲伤、惊讶、恐惧和厌恶，每种情感的录音时长为20分钟，确保了情感表达的多样性和平衡性。录音在专业的录音棚环境中进行，采用48,000Hz、24bit的高质量音频格式，确保了音频数据的清晰度和准确性。此外，数据集还包含了专业的音韵学家参与的标注工作，提供了词语和拼音的转录以及韵律边界的标注，从而为语音合成研究提供了精确的数据支持。

特点

此数据集的显著特点在于其情感表达的多样性和平衡性，涵盖了七种基本情感，每种情感均有20分钟的录音，确保了情感数据的丰富性。此外，数据集的录音质量极高，采用48,000Hz、24bit的未压缩wav格式，保证了音频的清晰度和保真度。数据集还包含了详细的标注信息，包括词语和拼音的转录以及韵律边界的标注，这些标注为语音合成技术的研究和开发提供了重要的数据支持。

使用方法

该数据集主要用于语音合成技术的研究和开发，特别适用于需要多情感表达的语音合成系统。使用者可以通过分析不同情感状态下的语音特征，优化语音合成算法，提升合成语音的自然度和情感表达能力。数据集的标注信息也为研究者提供了便利，可以直接用于训练和验证语音识别和合成模型。此外，由于数据集的高质量录音和详细标注，它也可以用于其他与语音处理相关的研究领域，如情感识别和语音情感分析。

背景与挑战

背景概述

22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus 是由中国本土发音人录制的多情感合成语料库，涵盖不同年龄和性别。该数据集包含六种情感文本，音节、音素和声调均经过平衡处理，并由专业语音学家参与标注，精确匹配语音合成领域的研究与开发需求。该数据集的创建旨在推动中文普通话情感语音合成技术的发展，为相关研究提供高质量的语音数据支持。

当前挑战

该数据集在构建过程中面临多项挑战。首先，情感语音的录制需要确保每种情感的语音特征清晰且一致，这对录音环境和发音人的情感表达能力提出了高要求。其次，音节、音素和声调的平衡处理增加了数据标注的复杂性，需专业语音学家的精细校准。此外，不同年龄和性别的发音人数据整合，确保了数据的多样性，但也增加了数据处理的难度。最后，如何在保证数据质量的同时，满足大规模语音合成应用的需求，是该数据集面临的重要挑战。

常用场景

经典使用场景

22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus数据集的经典使用场景主要集中在情感语音合成领域。该数据集通过收录22位不同年龄和性别的中文母语者的语音数据，涵盖了七种基本情感（如快乐、愤怒、悲伤、惊讶、恐惧、厌恶等），为情感语音合成模型的训练提供了丰富的素材。其语音数据的音节、音素和声调的均衡性，以及专业语音学家的标注，使得该数据集在情感语音合成研究中具有极高的应用价值。

实际应用

在实际应用中，22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus数据集广泛应用于智能语音助手、情感化教育软件、心理健康监测系统等领域。例如，在智能语音助手中，通过使用该数据集训练的模型，可以实现更加自然和情感丰富的语音交互，提升用户体验。在心理健康监测系统中，该数据集可以帮助开发能够识别和分析用户情感状态的语音分析工具，从而提供个性化的心理健康服务。

衍生相关工作

基于22-People-Chinese-Mandarin-Multi-emotional-Synthesis-Corpus数据集，衍生了许多经典工作，包括情感语音合成模型的优化、情感语音识别技术的改进以及多模态情感分析系统的开发。例如，有研究者利用该数据集提出了新的情感特征提取方法，显著提升了情感语音合成的质量。此外，该数据集还被用于开发跨语言情感语音合成系统，为全球范围内的语音合成技术发展做出了贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集