MultiEmotionalTTS-Eval

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/kunge123/MultiEmotionalTTS-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

B-CES（Bilingual Complex Emotional Speech Dataset）是一个专门设计用于评估文本到语音（TTS）模型在复杂情感转折及双语对齐表现的数据集。该数据集包含约 3,188 条原始中文标注数据及其严格对应的英文翻译版本，共计 6,376 条样本。每个音频样本都经过精心挑选，包含单句内明显的情感起伏或转折，并提供了基于情感转折点切分的分句标注。数据集以 JSONL 格式索引，包含 ID、原始情感对、文本内容、音频路径、切分结果和切分音频前缀等关键字段。情感标签涵盖 7 种核心情感：中性、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。数据集适用于情感 TTS、双语语音合成等任务。

创建时间：

2026-03-01

原始信息汇总

MultiEmotionalTTS-Eval (B-CES) 数据集概述

数据集基本信息

数据集名称: MultiEmotionalTTS-Eval (B-CES)
全称: Bilingual Complex Emotional Speech Dataset
许可证: cc-by-nc-4.0
任务类别: 文本转语音 (text-to-speech)
支持语言: 中文 (zh)、英文 (en)
标签: 情感文本转语音 (emotional-tts)、双语 (bilingual)、语音合成 (speech-synthesis)、复杂情感 (complex-emotion)
数据规模: 1K<n<10K

数据集简介

本数据集是专门为评估 TTS 模型在复杂情感转折及双语对齐表现而设计的。它包含约 3,188 条原始中文标注数据及其严格对应的英文翻译版本，共计 6,376 条样本。每个音频样本都经过精心挑选，包含单句内明显的情感起伏或转折。除了完整音频，还提供了基于情感转折点切分的分句标注。

数据结构

数据集通过 .jsonl 格式进行索引，包含以下关键字段：

id: 唯一识别号（英/中子集通过该 ID 严格对应）。
original_emotion_pair: 句子包含的情感对（如 happiness, sadness）。
text: 语音对应的文本内容。
audio: 完整句音频路径（支持 Hugging Face 直接在线试听）。
split_results: 包含情感切分片段的列表，每项含 text 和对应的 emotion。
split_audio_prefix: 对应切分片段音频的路径前缀。

情感标签说明

数据集包含 7 种核心情感标签：

neutral (中性)
happiness (快乐)
sadness (悲伤)
anger (愤怒)
fear (恐惧)
disgust (厌恶)
surprise (惊讶)

使用方法

你可以直接在 Python 中使用 datasets 库加载： python from datasets import load_dataset

加载中文部分

dataset_cn = load_dataset("kunge123/MultiEmotionalTTS-Eval", data_files="metadata_cn.jsonl")

加载英文部分

dataset_en = load_dataset("kunge123/MultiEmotionalTTS-Eval", data_files="metadata_en.jsonl")

搜集汇总

数据集介绍

构建方式

在情感语音合成领域，B-CES数据集的构建聚焦于捕捉复杂情感转换与双语对齐的细微差别。该数据集通过精心设计的录音流程，确保每个音频样本在单一句子内呈现显著的情感波动或转折，例如从喜悦过渡到悲伤。除了完整的句子音频，还依据特定的情感转换点提供了分段标注，这些标注详细记录了每个片段对应的文本与情感标签，从而为模型训练与评估提供了精细化的数据支持。

特点

B-CES数据集的核心特点在于其双语架构与复杂情感表达的深度整合。它不仅覆盖了中文与英文两种语言，还包含了七种核心情感标签，如中性、喜悦、悲伤等，使得数据能够模拟真实对话中情感的动态变化。每个样本都标注了原始情感对，并提供了分段音频与文本的对应关系，这种结构化的设计便于研究者分析情感转换的边界与连续性，为跨语言情感合成研究提供了丰富的实验素材。

使用方法

利用B-CES数据集进行情感语音合成评估时，研究者可通过Hugging Face的datasets库轻松加载中文或英文子集。数据以JSONL格式组织，包含唯一标识符、文本转录、音频路径及分段结果等字段，支持在线音频预览。通过分析split_results中的情感分段，可以量化TTS模型在情感过渡与双语对齐方面的性能，为模型优化与基准测试提供可靠依据。

背景与挑战

背景概述

在语音合成技术不断追求自然度与表现力的演进历程中，情感语音合成已成为关键研究方向。MultiEmotionalTTS-Eval（亦称B-CES）数据集应运而生，由研究人员精心构建，旨在应对双语复杂情感语音合成的评估需求。该数据集聚焦于单一语句内情感的动态波动与过渡，涵盖了中文与英文双语种，并标注了七种核心情感标签。其核心研究问题在于如何准确评估文本到语音模型在处理跨语言情感转换与对齐方面的能力，为推进更具表现力与适应性的语音合成系统提供了重要的基准资源。

当前挑战

该数据集致力于解决情感语音合成领域内，模型处理复杂情感过渡与双语对齐的评估挑战。具体而言，其构建过程面临多重困难：一是如何精准定义与标注语句内部的情感转换点，确保情感边界的客观性与一致性；二是需在双语环境下保持数据在情感内容、语句结构与语音特性上的严格对应，以支持有效的跨语言模型比较。这些挑战要求数据集在设计与标注阶段具备高度的语言学与心理学洞察力，以及精细的工程化处理。

常用场景

经典使用场景

在语音合成领域，MultiEmotionalTTS-Eval（B-CES）数据集为评估双语复杂情感转换能力提供了基准。该数据集精心设计了包含显著情感波动或转换的句子音频，并提供了基于情感转折点的分段标注，使得研究人员能够系统测试TTS模型在单一语句内处理多种情感过渡的性能。其经典使用场景集中于模型在双语对齐和复杂情感表达方面的评测，为推进情感语音合成的精细化研究奠定了数据基础。

衍生相关工作

基于MultiEmotionalTTS-Eval数据集，已衍生出一系列专注于复杂情感合成与跨语言建模的经典研究。这些工作包括开发新型神经网络架构以处理语句内情感过渡，以及设计评估指标来衡量双语情感对齐的一致性。此外，该数据集也激发了多模态情感分析领域的交叉探索，促进了语音与文本情感标注的协同研究，为情感计算领域的理论创新与应用拓展提供了重要支撑。

数据集最近研究