SpeechEQ数据集(SEQD)

Name: SpeechEQ数据集(SEQD)
Creator: 平安科技(深圳)有限公司
Published: 2022-07-28 09:43:23
License: 暂无描述

arXiv2022-07-28 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.13101v2

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechEQ数据集(SEQD)是由平安科技(深圳)有限公司创建的一个内容无关的普通话语音情感识别数据集。该数据集包含总计2.3小时的语音，来自20位说话者（10男10女）的1648个音频片段，采样率为16kHz，精度为16位。数据集的创建过程涉及每位说话者独立编写描述情感的句子，并通过三位独立评审的验证确保情感表达的准确性。SEQD数据集旨在通过提供统一的情感识别标准，改善智能系统对人类情感状态的理解和交互能力，主要应用于语音情感识别领域。

SpeechEQ Dataset (SEQD) is a content-independent Mandarin speech emotion recognition dataset created by Ping An Technology (Shenzhen) Co., Ltd. It contains a total of 2.3 hours of speech, including 1648 audio clips from 20 speakers (10 males and 10 females), with a sampling rate of 16 kHz and 16-bit precision. The dataset creation process involved each speaker independently writing sentences that describe emotions, and the accuracy of the expressed emotions was verified by three independent reviewers. The SEQD dataset aims to provide a unified standard for emotion recognition to improve intelligent systems' understanding of human emotional states and their interaction capabilities, and is mainly applied in the field of speech emotion recognition.

提供机构：

平安科技(深圳)有限公司

创建时间：

2022-06-27

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，数据集的构建需兼顾内容的独立性与情感的多样性。SpeechEQ数据集（SEQD）作为一项普通话语音情感识别资源，其构建过程体现了严谨的设计理念。该数据集收录了20位说话人（男女各半）在中等规模会议室环境下录制的1648段语音片段，总时长约2.3小时，采样率为16kHz，精度为16位。录制时采用华为手机，信噪比控制在20dB左右，确保了语音质量的统一性。每位说话人需为SEQM度量中的25种情感独立撰写3至5句描述性语句，并以日常对话的语调进行表演。每段语音由三位评审独立评判，若超过一位评审认为情感表达不准确，则需重新录制，直至三位评审一致认可情感匹配，从而保证了情感标注的可靠性与一致性。

特点

SpeechEQ数据集（SEQD）的显著特点在于其基于多尺度统一度量（SEQM）的情感标注体系。SEQM将情感划分为8种情感状态类别（ESC）及中性类别，并为每种情感赋予1至4级的情感强度尺度（EIS），实现了情感类别与强度的量化统一。该数据集内容独立，避免了文本内容对情感识别的干扰，涵盖了信任、快乐、期待、愤怒、厌恶、悲伤、惊讶、恐惧等多种情感，且每种情感均包含低、中、高三个强度等级，提供了丰富的情感表达层次。此外，SEQD专为普通话设计，支持多任务学习框架，可与音素识别、性别识别等辅助任务结合使用，增强了模型的泛化能力与鲁棒性。

使用方法

SpeechEQ数据集（SEQD）的使用方法紧密围绕多任务学习（MTL）框架设计。在训练阶段，模型通过共享主干网络同时优化情感状态分类、情感强度回归、音素识别及性别识别四个任务，利用连接主义时间分类（CTC）损失、焦点损失（Focal Loss）及一致性相关系数（CCC）损失分别处理不同任务，并通过超参数α、β、η平衡各任务损失。数据集支持标签忽略机制，以处理未标注情感强度的数据。推理阶段则仅保留情感识别任务，输出情感类别与强度。此外，SEQD可与CASIA、ESD等普通话数据集构建多尺度统一数据集（MsUD），通过数据增强（如音高调整、语速变化、噪声添加）提升模型鲁棒性，适用于跨数据集的语音情感识别模型训练与评估。

背景与挑战

背景概述

语音情感识别作为人机交互领域的关键技术，其发展长期受限于数据标注标准不统一与模型泛化能力不足的瓶颈。SpeechEQ数据集（SEQD）由平安科技的研究团队于2022年构建，旨在通过多尺度统一度量框架解决汉语语音情感识别中的标准化难题。该数据集以情感轮盘理论与情绪沙漏模型为理论基础，将语音情感划分为九类状态与四级强度，构建了包含2.3小时、1648条标注语音的汉语情感语音库。其创新性地融合了多任务学习机制，同步优化情感状态分类、情感强度回归、音素识别与性别识别四项任务，为跨数据集模型训练提供了标准化接口，显著提升了在CASIA、ESD等公开数据集上的识别准确率。

当前挑战

在语音情感识别领域，核心挑战在于情感标注的主观性与跨数据集标准缺失导致的模型泛化困境。具体而言，现有数据集的标注体系在情感类别定义、强度分级维度上存在显著差异，例如CASIA缺乏强度标注而IEMOCAP采用连续值标注，这种异构性阻碍了多数据集联合训练的有效性。在数据集构建层面，SEQD面临三大挑战：其一，情感标注需依赖多名评审员的主观一致性评估，标注过程存在人际偏差风险；其二，为覆盖多尺度情感表达，需设计兼顾内容独立性与声学多样性的录音脚本，这对发音人的情感表演能力提出较高要求；其三，数据增强过程中需平衡语音速率、音高扰动与噪声添加的参数范围，以避免过度失真对情感特征产生干扰。

常用场景

经典使用场景

在语音情感识别领域，SpeechEQ数据集（SEQD）的经典使用场景体现在其作为多尺度统一度量框架的验证基准。该数据集通过整合情感状态分类与情感强度尺度，构建了一个内容无关的普通话语音情感标注体系，为研究者提供了标准化的评估平台。在实验中，SEQD常被用于测试多任务学习模型在跨数据集情境下的泛化能力，特别是在结合音素识别和性别识别辅助任务时，能够显著提升情感识别的准确性与鲁棒性。

实际应用

在实际应用层面，SpeechEQ数据集推动了智能交互系统向更自然的情感感知演进。其构建的多任务学习框架可集成于客服机器人、心理健康监测平台及车载语音助手等场景，通过实时分析语音中的情感类别与强度，提升系统对用户情绪状态的响应精度。例如，在远程医疗咨询中，该系统能辅助识别患者的焦虑或抑郁倾向；在教育领域，则可适配个性化学习工具，根据学生的语音情感反馈调整教学策略。

衍生相关工作

基于SpeechEQ数据集衍生的经典工作主要集中在多模态情感计算与跨领域迁移学习方向。部分研究扩展了其多尺度度量框架至视频文本融合模型，实现了视听情感协同分析；另有工作借鉴其多任务学习架构，结合自监督预训练技术，在低资源语言情感识别中取得突破。此外，该数据集启发了对情感强度回归任务的优化方法，如引入动态标签掩码机制，显著提升了模型在部分标注数据下的训练效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集