sajid73/SUBESCO-audio-dataset

Name: sajid73/SUBESCO-audio-dataset
Creator: sajid73
Published: 2023-07-03 11:53:40
License: 暂无描述

Hugging Face2023-07-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sajid73/SUBESCO-audio-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SUBESCO是一个仅包含音频的情感语音语料库，包含7000个句子级别的孟加拉语语音。20名专业演员（10名男性和10名女性）参与了10个句子的录制，涵盖了7种目标情感：愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。语料库的总时长为7小时40分钟40秒，总大小为2.03 GB。数据集由50名评估者（25名男性和25名女性）进行评价，人类感知测试的原始准确率为71%。数据集的创建、评估和分析细节已在Plos One期刊上发表。

提供机构：

sajid73

原始信息汇总

SUST BANGLA EMOTIONAL SPEECH CORPUS

数据集描述

数据集名称: SUST BANGLA EMOTIONAL SPEECH CORPUS (SUBESCO)
数据集大小: 7000个句子级别的语音记录，总时长7小时40分钟40秒，总大小2.03 GB
语言: 孟加拉语
情感类别: 愤怒、厌恶、恐惧、幸福、中性、悲伤、惊讶
参与者: 20名专业演员（10男10女），50名评估者（25男25女）
准确率: 人类感知测试的原始准确率为71%
创建目的: 作为Sadia Sultana博士论文项目的一部分，由Shahjalal University of Science and Technology的计算机科学与工程系设计和开发
资金支持: 由大学提供

数据集创建

创建者: Sadia Sultana
开发机构: Shahjalal University of Science and Technology的计算机科学与工程系
资金来源: 大学支持

引用信息

@dataset{sadia_sultana_2021_4526477, author = {Sadia Sultana}, title = {SUST Bangla Emotional Speech Corpus (SUBESCO)}, month = feb, year = 2021, note = {{This database was created as a part of PhD thesis project of the author Sadia Sultana. It was designed and developed by the author in the Department of Computer Science and Engineering of Shahjalal University of Science and Technology. Financial grant was supported by the university. If you use the dataset please cite SUBESCO and the corresponding academic journal publication in Plos One.}}, publisher = {Zenodo}, version = {version - 1.1}, doi = {10.5281/zenodo.4526477}, url = {https://doi.org/10.5281/zenodo.4526477} }

贡献者

姓名	大学
Sadia Sultana	Shahjalal University of Science and Technology
Dr. M. Zafar Iqbal	Shahjalal University of Science and Technology
Dr. M. Shahidur Rahman	Shahjalal University of Science and Technology

搜集汇总

数据集介绍

构建方式

在情感计算与语音分析领域，构建高质量的情感语音数据集对于推动孟加拉语自然语言处理研究至关重要。SUBESCO数据集的构建过程体现了严谨的学术规范，其核心在于通过专业演员录制句子级语音样本。具体而言，研究团队邀请了20位专业演员（男女各半）参与录制，每位演员针对七种目标情感（愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶）分别演绎10个句子，最终汇集了7000条语音 utterances，总时长约7小时40分钟。数据采集后，由50位评估者（男女各半）进行人工感知测试，以验证情感标注的可靠性，整体原始准确率达到71%。该数据集作为作者博士论文项目的一部分，在沙贾拉尔科技大学计算机科学与工程系设计开发，并获得了校方的资金支持，确保了数据构建的科学性与可复现性。

特点

SUBESCO数据集作为孟加拉语情感语音资源，展现出多方面的显著特点。该数据集专注于音频情感分类，涵盖了七种基本情感状态，为情感识别模型提供了丰富的训练素材。其规模适中，包含7000条句子级语音，总数据量约2.03 GB，既保证了多样性又便于研究使用。数据集的平衡性体现在演员性别比例与情感类别的均匀分布上，10名男性与10名女性演员的参与增强了语音样本的泛化能力。所有语音均经过严格的人工评估，确保了情感标注的质量与一致性。作为公开可用的资源，数据集遵循CC-BY-4.0许可协议，支持学术与工业界的广泛应用，并附有详细的期刊论文描述其创建与评估过程，为后续研究提供了坚实的理论基础。

使用方法

在语音情感识别研究中，有效利用标注数据集是模型开发的关键环节。SUBESCO数据集可通过Hugging Face平台便捷加载，使用`datasets`库中的`load_dataset`函数即可获取训练集。研究人员可基于该数据集构建音频分类管道，例如提取梅尔频谱图等声学特征，进而训练深度学习模型进行七类情感分类。数据集的标准化格式支持直接嵌入到主流机器学习框架中，便于进行数据预处理、特征工程与模型评估。在使用过程中，建议遵循数据集的引用规范，引用相关的学术论文与数据集版本，以确保学术贡献得到恰当认可。该数据集适用于孟加拉语情感分析、跨语言情感比较以及语音合成中的情感建模等多种应用场景，为相关领域的研究提供了宝贵的实验数据。

背景与挑战

背景概述

在情感计算与语音处理领域，构建高质量、语言特定的情感语音数据集对于推进语音情感识别技术的发展至关重要。SUBESCO（SUST Bangla Emotional Speech Corpus）数据集于2021年由沙贾拉尔科技大学计算机科学与工程系的Sadia Sultana及其导师团队创建，作为其博士论文项目的一部分。该数据集专注于孟加拉语，旨在解决该语言在情感语音资源匮乏的核心研究问题，通过专业演员录制涵盖愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶七种情感的7000条语句级语音，总时长近8小时。其发布不仅填补了孟加拉语情感语音数据的空白，还为跨文化情感分析研究提供了重要基础，通过人类感知测试验证了数据的有效性，对语音技术在南亚地区的应用产生了积极影响。

当前挑战

SUBESCO数据集面临的挑战主要体现在两个方面：在领域问题层面，语音情感识别本身具有高度复杂性，因为情感表达受个体差异、语境和文化背景影响显著，孟加拉语作为资源稀缺语言，其语音特征和情感模式的建模缺乏先验参考，导致模型泛化能力受限；在构建过程中，挑战包括确保情感标注的一致性与可靠性，需通过50名评估者进行人工验证以克服主观偏差，同时协调20名专业演员录制多情感语句，在数据平衡、音频质量控制和伦理规范方面需投入大量资源，这些因素共同增加了数据集创建的难度。

常用场景

经典使用场景

在情感计算与语音处理领域，SUBESCO数据集作为孟加拉语情感语音的标准化资源，其经典使用场景聚焦于多类别情感识别模型的训练与评估。该数据集通过专业演员录制的七种基本情感语音，为研究者提供了丰富的声学特征样本，使得基于深度学习的分类器能够学习情感与语音韵律、音高及频谱间的复杂映射关系。这一场景不仅推动了孟加拉语情感分析技术的发展，也为跨语言情感识别研究提供了重要基准。

衍生相关工作

围绕SUBESCO数据集，学术界已衍生出一系列经典研究工作，包括基于卷积神经网络和循环神经网络的孟加拉语情感分类模型构建，以及跨语言情感迁移学习框架的探索。这些研究不仅验证了数据集的可靠性与泛化能力，还进一步优化了特征提取与数据增强策略。部分工作将SUBESCO与其他语言情感语料库结合，促进了多模态情感分析技术的发展，为低资源语言处理领域的算法创新提供了重要参考与启发。

数据集最近研究