CSEMOTIONS

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS

下载链接

链接失效反馈

官方服务：

资源简介：

CSEMOTIONS是一个高质量的普通话情感语音数据集，包含6位专业配音演员录制的约10小时的情感语音，支持表达性语音合成、情感识别和语音克隆研究。数据集包含七种情感类别：中性、快乐、愤怒、悲伤、惊讶、厌恶和恐惧。

CSEMOTIONS is a high-quality Mandarin emotional speech dataset. It contains approximately 10 hours of emotional speech recorded by 6 professional voice actors, supporting research in expressive speech synthesis, emotion recognition and voice cloning. The dataset includes seven emotional categories: neutral, happy, angry, sad, surprised, disgusted and fearful.

创建时间：

2025-08-04

原始信息汇总

CSEMOTIONS 数据集概述

基本信息

名称: CSEMOTIONS
语言: 中文（普通话）
许可证: Apache License 2.0
任务类别: 文本转语音
标签: 语音、情感语音、语音克隆、普通话

数据集摘要

总时长: ~10小时
说话人: 6位（3男，3女）专业普通话配音演员
情感类别: 中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧
采样率: 48kHz，24-bit PCM
录制环境: 专业录音棚
评估提示: 每种情感100条，中英文双语

数据集结构

音频: 语音波形（48kHz，24-bit，WAV）
文本: 普通话转录文本
情感: 七种情感之一
说话人ID: 匿名说话人标识符（如S01）
性别: 男/女
提示ID: 每个话语的唯一标识符

数据统计

属性	值
总音频小时数	~10
说话人数	6（3♂，3♀，匿名ID）
情感类别	中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧
格式	WAV，单声道，48kHz/24bit
录音棚质量	是

标签	时长	句子数
悲伤	1.73h	546
愤怒	1.43h	769
快乐	1.51h	603
惊讶	1.25h	508
恐惧	1.92h	623
顽皮	1.23h	621
中性	1.14h	490
总计	10.24h	4160

用途

表达性文本转语音（TTS）和语音克隆系统
语音情感识别（SER）研究
跨语言和跨情感合成实验
情感迁移或解耦模型的基准测试

下载与使用

python from datasets import load_dataset dataset = load_dataset("AIDC-AI/CSEMOTIONS")

引用

bibtex @misc{tian2025marcovoicetechnicalreport, title={Marco-Voice Technical Report}, author={Fengping Tian and Chenyang Lyu and Xuanfan Ni and Haoqin Sun and Qingjuan Li and Zhiqiang Qian and Haijun Li and Longyue Wang and Zhao Xu and Weihua Luo and Kaifu Zhang}, year={2025}, eprint={2508.02038}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.02038}, }

免责声明

数据集已通过合规性检查算法，但无法完全保证无版权问题或不适当内容。如有问题，请联系处理。

搜集汇总

数据集介绍

构建方式

在情感语音合成研究领域，高质量数据集的构建至关重要。CSEMOTIONS数据集通过专业录音棚环境采集，邀请六位专业配音演员参与录制，涵盖中性、快乐、愤怒、悲伤、惊讶、俏皮和恐惧七种情感类别。采用48kHz采样率和24位PCM格式确保音频质量，每个情感类别包含精心设计的100个中英文评估提示词，最终形成包含4160条样本的高精度语料库。

使用方法

研究人员可通过Hugging Face数据集库直接加载使用该资源。调用load_dataset('AIDC-AI/CSEMOTIONS')即可获取结构化数据，每条样本包含音频波形、文本转录、情感标签及说话人信息。该数据集适用于表达性语音合成系统开发、语音情感识别模型训练以及跨语言情感转换实验，为可控语音生成研究提供标准化基准平台。

背景与挑战

背景概述

情感语音合成领域在2025年迎来重要突破，由AIDC-AI研究团队发布的CSEMOTIONS数据集填补了高质量中文情感语音资源的空白。该数据集由六位专业配音演员在录音棚环境中录制，包含七种精细化情感类别（中性、快乐、愤怒、悲伤、惊讶、俏皮、恐惧）的4160条语音样本，总时长超过10小时。其48kHz/24bit的高保真录音规格为语音合成、情感识别和声音克隆研究提供了前所未有的数据支撑，显著推动了跨语言情感迁移与解耦建模的发展进程。

当前挑战

在构建过程中面临多重技术挑战：情感标注的一致性保障需要语言学与心理学专家的协同标注，七类细腻情感的边界界定存在主观差异性；专业录音棚环境虽保障音质，但不同演员的情感表达强度标准化成为难点。领域应用层面，该数据集需解决跨语种情感传递中的文化特异性问题，如何将中文声调特征与情感韵律有机结合仍是核心难题，同时高采样率数据对模型计算效率提出严峻考验，情感解耦过程中避免语义信息损失亦需精密算法设计。

常用场景

经典使用场景

在语音合成技术快速发展的背景下，CSEMOTIONS数据集为普通话情感语音合成提供了高质量的实验基础。该数据集最经典的使用场景集中于表达性文本转语音系统的训练与评估，研究者通过其精细标注的七种情感类别和专业的录音质量，能够构建出具有丰富情感表现力的语音合成模型。这些模型在生成自然且情感饱满的语音输出方面表现出色，极大地推动了可控语音合成技术的前沿探索。

解决学术问题

CSEMOTIONS数据集有效解决了情感语音合成领域中的多个关键学术问题，包括情感表示的准确建模、跨情感类别的语音转换以及多说话人情感一致性控制。其高保真的语音数据和细致的情感标注为语音情感识别、情感 disentanglement 以及跨语言合成实验提供了可靠基准，显著提升了相关研究的可重复性和科学性，对推动语音技术的基础理论发展具有深远影响。

实际应用

在实际应用层面，CSEMOTIONS数据集支撑了多种现实场景的技术落地，例如智能虚拟助手的情感交互、有声读物的情感化朗读以及临床治疗中的语音情绪模拟。其高质量的普通话情感语音为这些应用提供了自然且多样化的语音资源，增强了人机交互的真实感和亲和力，同时在娱乐、教育和医疗等领域展现了广泛的应用潜力。

数据集最近研究