EmoVoice-DB

Name: EmoVoice-DB
Creator: 上海交通大学, 同济大学, 天津大学, 浙江大学
Published: 2025-04-17 19:50:04
License: 暂无描述

arXiv2025-04-17 更新2025-04-20 收录

下载链接：

https://anonymous.4open.science/r/EmoVoice-DF55

下载链接

链接失效反馈

官方服务：

资源简介：

EmoVoice-DB是一个高质量的40小时英文情感语音数据集，包含表达性强的语音和细粒度的情感标签以及自然语言情感描述。该数据集由上海交通大学的研究团队构建，旨在为情感可控文本转语音模型的训练提供支持。数据集中的语音样本涵盖了不同的情感状态，如愤怒、快乐、悲伤、惊讶、恐惧、厌恶和中立，每个情感状态都有对应的文本示例和详细情感描述。

EmoVoice-DB is a high-quality 40-hour English emotional speech dataset featuring highly expressive speech, fine-grained emotional labels, and natural language-based emotional descriptions. Developed by the research team from Shanghai Jiao Tong University, this dataset is designed to support the training of emotion-controllable text-to-speech models. The speech samples in the dataset cover diverse emotional states including anger, happiness, sadness, surprise, fear, disgust and neutrality, with each emotional state paired with corresponding text examples and detailed emotional descriptions.

提供机构：

上海交通大学, 同济大学, 天津大学, 浙江大学

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

EmoVoice-DB数据集的构建采用了系统化的三步流程。首先，利用GPT-4o模型生成文本及对应的情感描述，确保文本长度在15至25个单词之间，并包含丰富的情感细节。其次，通过GPT-4o-audio模型合成情感语音，使用五种不同的说话人音色以增强多样性。最后，通过计算词错误率（WER）进行后处理和过滤，确保语音的转录准确性和情感表达的一致性。

使用方法

EmoVoice-DB适用于情感语音合成、语音情感识别及情感分析等领域的研究。使用时，用户可通过自然语言描述控制生成语音的情感表达。数据集支持直接输入情感描述文本，模型将据此生成对应的情感语音。此外，数据集还提供了语音样本的转录文本和情感描述标签，便于进行多模态任务的研究和开发。

背景与挑战

背景概述

EmoVoice-DB是由上海交通大学和通义语音实验室的研究团队于2025年推出的高质量情感语音数据集，旨在推动情感文本到语音（TTS）技术的发展。该数据集包含约40小时的英语情感语音样本，覆盖愤怒、快乐、悲伤、惊讶、厌恶、恐惧和中性七种核心情感类别，每个样本均配有细粒度的自然语言情感描述标签。EmoVoice-DB的构建基于GPT-4o和GPT-4o-audio模型生成的合成数据，确保了情感表达的精确性和语音的自然度。该数据集的发布为情感语音合成、语音情感识别等领域的研究提供了重要资源，显著提升了情感TTS模型的性能和研究水平。

当前挑战

EmoVoice-DB面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，情感TTS需要解决细粒度情感控制的难题，传统方法依赖粗粒度的情感类别标签，难以捕捉复杂情感状态。EmoVoice-DB通过自然语言描述标签解决了这一问题，但仍需应对情感表达的多样性和一致性评估的困难。在构建过程中，挑战包括合成语音的转录保真度问题（如误读词或遗漏），以及情感标签的多样性和一致性维护。此外，数据集的规模限制和情感描述的变异性也为模型的泛化能力带来了挑战。这些问题的解决需要创新的模型设计和严格的数据质量控制。

常用场景

经典使用场景

EmoVoice-DB数据集在情感语音合成领域具有广泛的应用场景。该数据集通过提供高质量的情感语音样本和细粒度的自然语言情感描述标签，为研究人员和开发者提供了丰富的资源。在情感语音合成任务中，EmoVoice-DB可用于训练和评估模型的情感表达能力，帮助模型生成更具情感色彩的语音输出。此外，该数据集还可用于语音情感识别任务，通过分析语音样本中的情感特征，提升情感识别模型的性能。

解决学术问题

EmoVoice-DB数据集解决了情感语音合成领域中的多个关键学术问题。首先，它填补了高质量情感语音数据集的空白，提供了40小时的英语情感语音样本，覆盖七种核心情感类别。其次，数据集中的细粒度自然语言情感描述标签为模型提供了更丰富的情感表达指导，解决了传统粗粒度情感标签无法全面捕捉语音中细微情感状态的问题。此外，该数据集还支持对情感语音合成模型的客观和主观评估，推动了情感语音合成技术的发展。

实际应用

EmoVoice-DB数据集在实际应用中具有广泛的潜力。在虚拟助手和情感伴侣领域，该数据集可用于训练模型生成更具情感共鸣的语音输出，提升用户体验。在教育领域，情感语音合成技术可用于开发更具互动性的学习工具，帮助学生更好地理解和记忆学习内容。此外，该数据集还可应用于娱乐产业，如游戏和动画配音，为角色赋予更丰富的情感表达。

数据集最近研究