LSSED

Name: LSSED
Creator: 华南理工大学电子与信息工程学院
Published: 2021-01-30 19:15:32
License: 暂无描述

arXiv2021-01-30 更新2024-06-21 收录

下载链接：

https://github.com/tobefans/LSSED

下载链接

链接失效反馈

官方服务：

资源简介：

LSSED是一个大规模的英语语音情感识别数据集，由华南理工大学电子与信息工程学院和UBTECH Robotics Corp创建。该数据集包含147,025条来自820名参与者的语音记录，总时长超过206小时。数据集的创建过程涉及在实验室环境中录制参与者在不同情感状态下的语音，并由专业团队进行标注。LSSED数据集主要用于语音情感识别研究，特别是在人机交互和心理健康分析等领域，旨在解决现有小规模数据集在模型泛化能力上的不足。

LSSED is a large-scale English speech emotion recognition dataset, developed by the School of Electronic and Information Engineering of South China University of Technology and UBTECH Robotics Corp. This dataset contains 147,025 speech recordings from 820 participants, with a total duration of over 206 hours. The development of the dataset involves recording participants' speech under various emotional states in a laboratory environment, with annotations completed by a professional team. LSSED is primarily utilized for speech emotion recognition research, especially in fields such as human-computer interaction and mental health analysis, with the goal of addressing the limitations of existing small-scale datasets in terms of model generalization capability.

提供机构：

华南理工大学电子与信息工程学院

创建时间：

2021-01-30

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，数据规模与多样性是制约模型泛化能力的关键因素。LSSED数据集的构建采用了大规模自然场景采集策略，通过820名受试者在室内实验室环境中录制自发语音对话。每位受试者通过随机问题诱导产生带有情感色彩的语音片段，并由专业标注团队对每个语音片段进行精细标注，涵盖愤怒、快乐、悲伤等11种情感类别。音频数据经过16kHz采样率转换后，采用谱减法进行降噪处理，并通过梅尔滤波器组提取声学特征，最终形成包含147,025条语音、总时长超过206小时的结构化数据集。

使用方法

该数据集为语音情感识别研究提供了标准化的训练与测试基准。研究者可将数据集按预设的8:2比例划分为训练集与测试集，确保各类别情感样本在划分后保持分布一致性。基于LSSED训练的预训练模型可直接用于下游情感识别任务，其提取的声学特征对心理健康分析等数据稀缺领域具有显著迁移价值。实验表明，采用金字塔卷积改进的PyResNet架构在该数据集上表现优异，其高频率分辨率特性使其在抑郁检测等下游任务中超越传统语音识别预训练模型。

背景与挑战

背景概述

在语音情感识别领域，早期研究受限于小规模数据集，如IEMOCAP和MELD，这些数据集在说话者数量和样本多样性方面存在局限，导致模型易出现过拟合问题，难以泛化至真实场景。为应对这一挑战，华南理工大学与优必选机器人公司于2020年联合发布了LSSED数据集，该数据集包含820名说话者的14.7万条自然语音，总时长超过200小时，覆盖11种情感类别。LSSED通过大规模自然对话数据模拟真实世界分布，不仅推动了语音情感识别算法的进步，其预训练模型还可迁移至心理健康分析等下游任务，显著提升了相关研究的实用价值。

当前挑战

语音情感识别领域长期面临模型泛化能力不足的挑战，现有算法在小规模数据集上表现优异，但跨数据集测试时性能显著下降，这源于数据分布的差异性和样本多样性的缺失。LSSED的构建过程亦遭遇多重困难：首先，大规模自然语音的采集需协调820名不同年龄、性别的参与者，在实验室环境中诱导真实情感表达，确保数据的自然性与代表性；其次，数据标注需专业团队对每条语音进行多情感标签标注，处理部分语句中多重情感共存的复杂情况；此外，数据预处理涉及音频降噪、特征提取等步骤，需平衡计算效率与特征保真度。这些挑战共同凸显了构建高质量大规模数据集的复杂性。

常用场景

经典使用场景

在语音情感识别领域，LSSED数据集以其大规模、高多样性的特点，成为评估和训练深度学习模型的经典基准。该数据集包含来自820名受试者的147,025条自然语音样本，覆盖11种情感类别，总时长超过200小时，能够有效模拟真实世界的情感分布。研究者通常利用LSSED来训练和验证语音情感识别模型，如基于VGG、ResNet及其变体PyResNet的架构，以探索模型在大规模数据上的泛化能力和性能极限。

解决学术问题

LSSED数据集主要解决了语音情感识别研究中因小规模数据集导致的模型过拟合和泛化能力不足的问题。传统数据集如IEMOCAP和MELD规模有限，模型在其上表现优异但难以迁移到其他场景。LSSED通过提供大规模、多样化的自然语音样本，促进了跨数据库的稳健模型开发，并支持了迁移学习研究，如在心理健康分析等下游任务中应用预训练模型，缓解了数据稀缺的挑战。

实际应用

LSSED数据集的实际应用广泛涉及人机交互和心理健康监测领域。基于其训练的模型可集成到智能助手、客服系统或教育平台中，实现更自然的情感感知交互。此外，其预训练模型已被成功迁移至抑郁症检测等下游任务，利用语音中的声学特征辅助心理状态评估，为临床诊断提供非侵入性工具，体现了从学术研究到现实场景的转化价值。

数据集最近研究