Amharic Speech Emotion Dataset (ASED)

Name: Amharic Speech Emotion Dataset (ASED)
Creator: 西北大学信息科学与技术学院
Published: 2023-07-20 20:24:23
License: 暂无描述

arXiv2023-07-20 更新2024-06-21 收录

下载链接：

https://github.com/Ethio2021/ASED_V1

下载链接

链接失效反馈

官方服务：

资源简介：

Amharic Speech Emotion Dataset (ASED) 是由西北大学信息科学与技术学院创建的公开可用数据集，包含2,474个录音，由65名说话者（25名男性，40名女性）参与，涵盖五种情绪：恐惧、中性、快乐、悲伤和愤怒。ASED数据集的创建旨在支持跨语言和多语言的语音情感识别研究，特别是在资源稀缺的语言如阿姆哈拉语中。该数据集的应用领域包括工业和医疗领域的实时语音情感识别系统，以及增强语音情感识别系统的鲁棒性。

Amharic Speech Emotion Dataset (ASED) is a publicly available dataset developed by the School of Information Science and Technology, Northwest University. It consists of 2,474 audio recordings collected from 65 speakers (25 male and 40 female), covering five emotional categories: fear, neutral, happiness, sadness, and anger. The ASED dataset was constructed to support cross-lingual and multilingual speech emotion recognition research, particularly for low-resource languages such as Amharic. Its potential application domains include real-time speech emotion recognition systems in industrial and medical scenarios, as well as efforts to enhance the robustness of speech emotion recognition systems.

提供机构：

西北大学信息科学与技术学院

创建时间：

2023-07-20

搜集汇总

数据集介绍

构建方式

Amharic Speech Emotion Dataset (ASED) 的构建涉及了四个主要方言（Gojjam、Wollo、Shewa 和 Gonder）以及五种不同的情感（中性、恐惧、快乐、悲伤和愤怒）。该数据集的构建过程包括收集65名阿姆哈拉语母语者的语音样本，他们记录了2,474个时长为2到4秒的语音样本。然后，八位评审员（每个方言两位）对样本进行了情感标注，并且具有高水平的共识（Fleiss kappa = 0.8）。最终，该数据集免费提供给公众下载。

使用方法

ASED数据集的使用方法包括：下载数据集；提取语音样本的特征，如MFCC；使用深度学习模型，如VGGb，对提取的特征进行情感识别；对模型进行训练和测试，以评估其性能；使用ASED数据集与其他语言的情感识别数据集进行比较，以评估其性能；将ASED数据集与其他数据集结合使用，以进行跨语言情感识别研究。

背景与挑战

背景概述

语音情感识别（SER）作为人工智能领域的一个研究热点，旨在通过语音信号自动识别说话人的情感状态。在众多语言中，阿姆哈拉语作为世界上第二大的闪米特语，在埃塞俄比亚等国家具有重要的政治、历史和文化意义。然而，由于语言资源的匮乏，阿姆哈拉语在语音情感识别领域的研究相对滞后。为了填补这一空白，西北大学信息科学与技术学院的研究团队创建了阿姆哈拉语音情感数据集（ASED）。该数据集包含了来自四个主要方言（戈贾姆、沃洛、绍瓦和贡德尔）的65位志愿者录制的2474个声音样本，涵盖了五种不同的情感（中性、恐惧、快乐、悲伤和愤怒）。此外，该数据集还经过8位评委的高水平评估，确保了数据质量。ASED的创建不仅为阿姆哈拉语音情感识别研究提供了宝贵资源，也为多语言SER研究提供了新的视角。

当前挑战

ASED数据集的创建和SER研究面临着一些挑战。首先，由于阿姆哈拉语方言众多，不同方言间的语音特征差异较大，如何有效地处理方言差异成为了一个挑战。其次，阿姆哈拉语的语音情感表达方式与其他语言存在差异，例如，阿姆哈拉语的重音主要表现为音节的长短，而非音量的大小。因此，如何提取能够准确反映阿姆哈拉语音情感的语音特征成为一个挑战。最后，尽管ASED数据集提供了大量的语音样本，但在实际应用中，如何将SER系统扩展到更多的情感类别和更复杂的场景仍然是一个挑战。为了应对这些挑战，研究团队在ASED的基础上进行了深入的实验，比较了Mel谱图特征和Mel频率倒谱系数（MFCC）特征在阿姆哈拉语音情感识别中的性能，并开发了一种基于VGG模型的SER模型，取得了良好的识别效果。这些研究成果为阿姆哈拉语音情感识别研究提供了新的思路和方法，也为多语言SER研究提供了有价值的参考。

常用场景

经典使用场景

在语音情感识别领域，ASED数据集被广泛应用于训练和测试语音情感识别系统。该数据集包含了四种方言（戈贾姆、沃洛、谢瓦和贡德）和五种不同的情感（中性、恐惧、快乐、悲伤和愤怒）。这些音频样本被用来训练各种语音情感识别模型，以便更好地理解和识别语音中的情感信息。

解决学术问题

ASED数据集解决了埃塞俄比亚语语音情感识别领域中缺乏数据集的问题。由于埃塞俄比亚语是世界上最复杂的语言之一，其语音情感识别具有挑战性。ASED数据集提供了大量的音频样本，为研究人员提供了训练和测试语音情感识别模型的机会，从而推动了埃塞俄比亚语语音情感识别领域的研究。

实际应用

ASED数据集在实际应用中具有广泛的应用前景。例如，在呼叫中心、在线学习、临床研究等领域，语音情感识别技术可以帮助识别和回应客户或用户的情感需求。此外，ASED数据集还可以用于开发语音合成系统，使机器能够更自然地表达情感。

数据集最近研究