sustcsenlp/bn_emotion_speech_corpus

Name: sustcsenlp/bn_emotion_speech_corpus
Creator: sustcsenlp
Published: 2023-01-11 09:00:32
License: 暂无描述

Hugging Face2023-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sustcsenlp/bn_emotion_speech_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

SUBESCO是一个仅包含音频的孟加拉语情感语音语料库，包含7000个句子级别的语音。20名专业演员（10男10女）参与了10个句子的录制，涵盖了7种目标情感：愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。数据集的总时长为7小时40分钟40秒，总大小为2.03 GB。数据集由50名评估者（25男25女）进行评价，人类感知测试的原始准确率为71%。数据集的创建、评估和分析的详细信息已在Plos One期刊上发表。

SUBESCO is an audio-only Bengali emotional speech corpus containing 7,000 sentence-level speech utterances. Twenty professional actors (10 male and 10 female) participated in the recording of 10 sentences, covering 7 target emotions: anger, disgust, fear, happiness, neutral, sadness, and surprise. The total duration of the corpus is 7 hours, 40 minutes and 40 seconds, with an overall file size of 2.03 GB. The corpus was evaluated by 50 annotators (25 male and 25 female), with an original accuracy rate of 71% in the human perception test. Detailed information on the creation, evaluation and analysis of the corpus has been published in the journal PLOS ONE.

提供机构：

sustcsenlp

原始信息汇总

SUST BANGLA EMOTIONAL SPEECH CORPUS 数据集概述

数据集描述

数据集名称: SUST BANGLA EMOTIONAL SPEECH CORPUS (SUBESCO)
数据集大小: 2.03 GB
数据集时长: 7小时40分钟40秒
语言: 孟加拉语 (Bangla)
任务类别: 音频分类
情感类别: 愤怒、厌恶、恐惧、幸福、中性、悲伤、惊喜
录音参与者: 20名专业演员（10名男性和10名女性）
录音内容: 每位演员录制10句，共7种情感
评估: 由50名评估者（25名男性和25名女性）进行的人类感知测试，达到71%的原始准确率
论文: SUBESCO PAPER
联系人: Sadia Sultana

数据集创建

创建目的: 作为Sadia Sultana博士论文项目的一部分
开发单位: 沙贾拉尔科技大学计算机科学与工程系
资金支持: 沙贾拉尔科技大学

数据集下载

python from datasets import load_dataset

train = load_dataset("sustcsenlp/bn_emotion_speech_corpus", split="train")

命名规范

文件命名结构: 性别-说话者编号-说话者姓名-录音单元-单元编号-情感名称-重复编号-文件格式
示例: F_02_MONIKA_S_1_NEUTRAL_5.wav

引用信息

@dataset{sadia_sultana_2021_4526477, author = {Sadia Sultana}, title = {SUST Bangla Emotional Speech Corpus (SUBESCO)}, month = feb, year = 2021, publisher = {Zenodo}, version = {version - 1.1}, doi = {10.5281/zenodo.4526477}, url = {https://doi.org/10.5281/zenodo.4526477} }

搜集汇总

数据集介绍

构建方式

在情感计算与语音识别领域，构建高质量的情感语音数据集对推动孟加拉语相关研究至关重要。SUBESCO数据集的构建过程体现了严谨的学术规范，其采集工作由20位专业演员（男女各半）参与，每位演员针对10个固定句子演绎7种目标情感，包括愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。整个语料库共包含7000条句子级语音样本，总时长约7小时40分钟，数据规模达2.03GB。为确保标注质量，数据集还邀请了50位评审员进行人工感知评估，最终获得71%的原始识别准确率，相关方法论已在Plos One期刊论文中详细阐述。

特点

作为孟加拉语情感语音资源的重要补充，SUBESCO数据集展现出多维度特征。其语音样本覆盖七种基本情感类别，且通过均衡的性别分布（10名男性与10名女性演员）增强了数据的代表性。每条语音文件均采用结构化命名规则，通过下划线连接性别、演员编号、姓名、句子单元、情感标签及录制次数等信息，为后续分析提供了清晰的元数据框架。该数据集已通过严格的同行评审，并依托Zenodo平台进行版本管理与持久化存储，体现了学术资源的可靠性与可追溯性。

使用方法

在语音情感识别模型的开发与评估中，SUBESCO数据集为研究者提供了标准化的实验基准。用户可通过Hugging Face的datasets库直接加载数据，使用指定代码即可获取训练集分割。数据集中每条样本均包含原始音频波形及其对应情感标签，可直接用于端到端的声学特征提取与分类任务。鉴于其清晰的命名规范与完整的情感类别，该数据集亦适用于跨语言情感分析、声学模型微调及多模态学习等前沿探索，相关研究成果需引用其官方论文及数据集版本信息。

背景与挑战

背景概述

在情感计算与语音处理领域，构建高质量的情感语音数据集对于推动多模态人机交互技术的发展至关重要。SUST Bangla Emotional Speech Corpus（SUBESCO）由沙贾拉尔科技大学计算机科学与工程系的Sadia Sultana等人于2021年创建，作为其博士论文项目的一部分。该数据集专注于孟加拉语的情感语音识别，旨在解决低资源语言在情感分析任务中的数据稀缺问题。通过收录7000条句子级语音样本，涵盖愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶七种基本情感，并由专业演员参与录制，SUBESCO为孟加拉语的情感语音研究提供了标准化资源，显著促进了南亚地区语言技术在情感识别领域的应用与发展。

当前挑战

在情感语音识别领域，准确捕捉和分类复杂情感状态仍面临诸多挑战。SUBESCO数据集旨在解决孟加拉语情感语音分类问题，其核心挑战在于情感标注的主观性，尽管经过50名评估者验证，人类感知准确率仅为71%，反映出情感边界模糊性带来的识别困难。在构建过程中，挑战主要集中于数据收集的标准化，需协调20名专业演员录制多情感语句，确保语音质量与情感表达的一致性，同时克服低资源语言中语音数据稀缺与标注成本高昂的障碍，这些因素共同制约了数据集的规模扩展与模型泛化能力。

常用场景

经典使用场景

在情感计算与语音处理领域，SUST Bangla Emotional Speech Corpus（SUBESCO）为孟加拉语情感语音识别研究提供了关键资源。该数据集包含7000条句子级语音样本，涵盖愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶七种情感，由专业演员录制并经人工评估验证。其经典使用场景在于训练和评估基于深度学习的多类情感分类模型，例如利用卷积神经网络或循环神经网络从语音信号中提取声学特征，进而实现情感状态的自动判别，为低资源语言的情感分析奠定数据基础。

解决学术问题

SUBESCO数据集有效解决了孟加拉语情感语音研究中的数据稀缺问题，推动了跨语言情感计算的发展。在学术层面，它支持研究者探索语音特征与情感维度之间的映射关系，验证声学参数如基频、能量和频谱在情感表达中的普适性。该资源不仅促进了多模态情感识别模型的构建，还为语言特异性情感模型的比较研究提供了实证依据，有助于深化对人类情感表达的文化与语言差异的理解。

衍生相关工作

围绕SUBESCO数据集，已衍生出多项经典研究工作。例如，研究者利用该数据开发了基于注意力机制的端到端情感分类模型，或将其与文本模态结合进行多模态情感分析。部分工作聚焦于数据增强技术以克服样本不平衡问题，另一些则探索跨语言迁移学习策略，将孟加拉语情感知识迁移至其他低资源语言。这些成果不仅丰富了情感计算领域的方法论，也为后续大规模多语言情感语料库的构建提供了参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集