synthetic-emotional-en-v2

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/sudoping01/synthetic-emotional-en-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Emotional English TTS 数据集是一个用于文本到语音转换（TTS）任务的情感语音数据集，特别针对跨语言情感迁移到非洲语言的应用场景（MALIBA-TTS）。数据集包含两个配置：默认配置（default）和已审核配置（reviewed）。默认配置包含619个样本，总大小约222MB；已审核配置包含182个样本，总大小约65MB。每个样本包含音频数据、文本内容、情感标签（包括chuckle、crying、fear、laugh、mixed、sigh等）、情感强度、语言信息和模型信息。数据集由Fish Audio S2 Pro生成，主要用于为非洲语言的跨语言情感迁移提供合成训练数据。情感分布方面，包含19个chuckle样本、114个crying样本、79个fear样本、98个laugh样本、103个mixed样本和56个sigh样本。数据集采用MIT许可协议。

创建时间：

2026-04-04

原始信息汇总

数据集概述

基本信息

数据集名称: Emotional English TTS Dataset
托管地址: https://huggingface.co/datasets/sudoping01/synthetic-emotional-en-v2
语言: 英语 (en)
许可证: MIT
标签: 文本到语音 (text-to-speech)、情感语音合成 (emotional-tts)、副语言学 (paralinguistics)、MALIBA-TTS (maliba-tts)

数据集配置与结构

数据集包含两种配置：

1. 默认配置 (default)

数据文件路径: data/train-*
训练集样本数: 619
训练集大小: 221,959,802 字节 (约 212 MB)
下载大小: 216,275,218 字节 (约 206 MB)

2. 已审核配置 (reviewed)

数据文件路径: reviewed/train-*
训练集样本数: 182
训练集大小: 65,261,229.77221325 字节 (约 62 MB)
下载大小: 67,567,824 字节 (约 64 MB)

数据特征

所有配置均包含以下特征字段：

audio: 音频数据 (audio 类型)
text: 文本内容 (string 类型)
emotion: 情感标签 (string 类型)
intensity: 情感强度 (string 类型)
language: 语言 (string 类型)
model: 模型信息 (string 类型)

数据生成与内容

生成工具: 使用 Fish Audio S2 Pro 生成。
总样本量: 469 个样本（基于默认配置的分布统计）。

情感分布

chuckle (轻笑): 19 个样本
crying (哭泣): 114 个样本
fear (恐惧): 79 个样本
laugh (大笑): 98 个样本
mixed (混合情感): 103 个样本
sigh (叹息): 56 个样本

数据集目的

为 MALIBA-TTS 的跨语言情感迁移至非洲语言提供合成的情感训练数据。

搜集汇总

数据集介绍

构建方式

在情感语音合成领域，数据集的构建方式直接影响模型的表达力。synthetic-emotional-en-v2数据集采用Fish Audio S2 Pro技术生成，通过合成方法创建了包含619个样本的英语语音数据。每个样本均标注了情感类别和强度，涵盖了 chuckle、crying、fear、laugh、mixed、sigh 六种情感状态，并特别设置了 reviewed 配置以提供经过筛选的182个高质量样本。这种基于先进合成工具的构建策略，有效解决了真实情感语音数据稀缺的挑战，为跨语言情感迁移研究奠定了数据基础。

使用方法

对于研究者而言，该数据集主要用于支持跨语言情感语音合成模型的训练与评估。用户可通过 HuggingFace 平台直接加载 default 或 reviewed 配置，获取包含音频、文本、情感标签及强度信息的结构化数据。它特别适用于 MALIBA-TTS 等项目，旨在将英语中的情感模式迁移至非洲语言。在实际应用中，开发者可利用这些合成数据训练情感编码器或进行多情感 TTS 系统的微调，以提升合成语音的表现力和自然度。

背景与挑战

背景概述

在语音合成技术领域，情感语音生成是提升人机交互自然度与表现力的关键研究方向。synthetic-emotional-en-v2数据集由MALIBA-TTS项目团队创建，旨在为跨语言情感迁移研究提供高质量的英语情感语音数据。该数据集采用Fish Audio S2 Pro模型生成，包含619个样本，涵盖笑声、哭泣、恐惧等多种情感类别及其强度标注，核心目标是支持非洲语言的情感语音合成，推动语音技术在多语言环境下的情感表达适应性。

当前挑战

情感语音合成领域长期面临情感标注一致性低、跨语言情感特征迁移困难等挑战。synthetic-emotional-en-v2数据集构建过程中，需克服合成语音情感自然度不足、多情感类别平衡性调控等技术难点，同时确保数据在跨语言应用中保持情感语义的保真度与泛化能力。

常用场景

经典使用场景

在情感语音合成领域，synthetic-emotional-en-v2数据集为跨语言情感迁移研究提供了关键资源。该数据集通过Fish Audio S2 Pro生成，包含多种情感类别如哭泣、笑声和恐惧等，常用于训练和评估情感文本转语音模型，特别是在缺乏大规模标注数据的非洲语言场景中，支持模型学习并迁移情感表达模式。

解决学术问题

该数据集解决了情感语音合成中数据稀缺和标注成本高昂的学术难题。通过提供高质量、多情感强度的合成音频，它促进了跨语言情感迁移方法的发展，使研究者能够探索情感特征在语言间的泛化能力，并推动了语音合成中副语言学研究，为情感计算和人工智能交互提供了理论基础。

实际应用

在实际应用中，synthetic-emotional-en-v2数据集被用于开发更自然、富有表现力的语音助手和交互系统。它支持教育、娱乐和心理健康等领域的情感化语音生成，例如在虚拟角色或数字叙事中模拟真实情感反应，提升用户体验，并助力非洲语言社区的技术包容性发展。

数据集最近研究