AffectSpeech

github2026-02-03 更新2026-02-09 收录

下载链接：

https://github.com/jeremychee4/AffectSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

AffetSpeech是一个大规模情感语音数据集，带有细粒度、多层次的文本描述，支持语音情感标注（SEC）和情感语音合成（ESS）的先进研究。该数据集包含253,799个高质量情感语音数据和1,522,794个自然语言描述。

AffetSpeech is a large-scale emotional speech dataset with fine-grained and multi-level textual descriptions, which supports cutting-edge research on Speech Emotion Annotation (SEC) and Emotional Speech Synthesis (ESS). This dataset contains 253,799 high-quality emotional speech samples and 1,522,794 natural language descriptions.

创建时间：

2026-02-01

原始信息汇总

AffectSpeech 数据集概述

数据集简介

AffectSpeech 是一个大规模情感语音数据集，包含细粒度、多层次的文本描述，旨在支持语音情感描述（SEC）和情感语音合成（ESS）的先进研究。该数据集包含 253,799 条高质量情感语音数据及 1,522,794 条自然语言描述。

核心属性

情感类别：愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、蔑视、平静。
语言：英语。
音频格式：16kHz，16位，PCM WAV 格式。
标注内容：采用 ShareGPT 格式，包含情感极性、开放词汇情感描述、韵律（音高、节奏、能量）、情感强度、突出片段以及语义内容分析。

获取与许可

许可协议：数据集在受限的最终用户许可协议（EULA）下发布，仅限非商业学术研究用途。
申请流程：
1. 从仓库下载 EULA.pdf 文件。
2. 仔细阅读条款并由申请人所属机构的正式教职员工/研究人员（如教授或高级研究员）签署。
3. 将签署后的 PDF 扫描件发送至 qitianhua@seu.edu.cn。
  - 邮件主题格式：[AffetSpeech Request] 姓名 - 机构
  - 邮件正文：请使用机构邮箱地址（如 .edu, .ac 等），并简要说明数据集的预期用途。
4. 审核通过后，将通过私人链接提供完整版本下载。

仓库结构

EULA.pdf：待签署的许可协议文件。
README.md：项目描述文件。
metadata_sample/：用于预览的标注文件小样本。
- sample_sec.json
- sample_ess.json
scripts/：数据加载/评估的辅助脚本。
- data_loader.py

搜集汇总

数据集介绍

构建方式

在情感计算与语音合成领域，高质量数据的稀缺性长期制约着相关模型的性能提升。AffectSpeech数据集的构建过程体现了系统化与精细化的设计理念，其核心在于采集大规模、高质量的情感语音样本并配以多层次文本描述。该数据集通过专业录制流程，收集了涵盖愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、轻蔑与平静九种基本情感的英语语音，采样频率为16kHz，采用16位PCM波形格式以确保音频保真度。每段语音均通过结构化标注流程，生成了包括情感极性、开放词汇情感描述、韵律特征（音高、节奏、能量）、情感强度、显著片段及语义内容分析在内的六类精细化文本描述，最终形成了包含253,799条高质量情感语音与1,522,794条自然语言描述的大规模资源。

特点

AffectSpeech数据集在情感语音资源中展现出显著的规模与深度优势。其首要特点在于规模宏大，所涵盖的语音样本与描述数量为当前领域内领先水平，为数据驱动模型提供了坚实的训练基础。更为突出的是其标注的细粒度与多维性，不仅覆盖了离散的情感类别，更通过开放词汇描述捕捉情感的微妙差异，同时结合了客观的韵律参数与主观的情感强度评估，实现了对情感语音从表层特征到深层语义的全面刻画。这种多层级、结构化的标注体系使得该数据集能够同时支持语音情感描述生成与情感语音合成两类前沿任务，为跨模态情感理解与生成研究提供了统一的基准平台。

使用方法

为促进学术研究的规范发展，AffectSpeech数据集采用受限许可协议进行分发，仅限非商业学术研究用途。研究者需首先下载并仔细阅读终端用户许可协议，由所在机构的固定教职员工（如教授或高级研究员）签署后，通过机构邮箱发送至指定联系邮箱。申请邮件需明确标注主题并简要说明研究意图，经审核通过后即可获得完整数据集的私有下载链接。数据集文件包含完整的音频波形与结构化标注文件，标注采用ShareGPT格式，并提供了示例元数据与数据加载脚本，便于研究者快速进行数据解析与模型集成，推动语音情感描述与合成技术的创新探索。

背景与挑战

背景概述

在情感计算与语音技术交叉领域，高质量、大规模且具备细粒度标注的情感语音数据长期稀缺，制约了语音情感理解与合成模型的深度发展。AffectSpeech数据集由东南大学等研究机构于近年创建，旨在通过提供大规模、多层级文本描述的情感语音数据，推动语音情感描述与合成的前沿研究。该数据集包含超过25万条高质量情感语音及逾150万条自然语言描述，覆盖愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、轻蔑与平静九种情感类别，其核心研究问题聚焦于如何实现从语音到文本的细粒度情感语义映射，以及如何生成自然且情感丰富的人工语音，对语音情感分析、多模态人机交互等领域具有显著的促进意义。

当前挑战

AffectSpeech数据集致力于解决语音情感描述与合成这一复杂领域问题，其核心挑战在于如何准确捕捉并量化语音信号中微妙且连续的情感表达，实现从声学特征到开放词汇文本描述的可靠转换。具体而言，在构建过程中，研究团队面临多重挑战：情感标注需要克服主观性与模糊性，确保不同标注者之间的一致性；细粒度多层级描述（如情感极性、强度、韵律特征及语义内容）的标注体系设计复杂，需平衡全面性与可操作性；大规模高质量语音数据的采集与处理涉及专业演员录制、音频质量控制及隐私合规等环节，工程成本高昂。这些挑战共同塑造了数据集的构建难度与应用边界。

常用场景

经典使用场景

在情感计算与语音处理领域，AffectSpeech数据集为语音情感标注与合成研究提供了关键支撑。其核心应用场景在于训练端到端的语音情感理解模型，通过大规模高质量的情感语音样本与细粒度文本描述，模型能够学习从语音信号中识别并生成自然语言情感描述，推动语音情感分析向更精细、更人性化的方向发展。

实际应用

在实际应用中，AffectSpeech数据集可赋能智能交互系统的情感感知能力。例如，在智能客服、虚拟助手或心理健康辅助工具中，基于该数据集训练的模型能够实时分析用户语音中的情感状态，生成恰当的情感反馈或合成带有特定情感的语音回应，从而提升人机交互的自然度与共情能力，推动情感智能技术在教育、医疗、娱乐等领域的落地。

衍生相关工作

围绕AffectSpeech数据集，已衍生出一系列经典研究工作。这些工作主要集中在语音情感标注模型的架构创新、基于文本描述的情感语音合成方法，以及多任务学习框架下的情感特征联合建模。这些研究不仅验证了数据集在推动语音情感生成与理解任务上的有效性，也为后续更复杂的多模态情感分析任务提供了重要的技术参考与基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集