five

Amharic Speech Emotion Dataset (ASED)|语音情感识别数据集|跨语言研究数据集

收藏
arXiv2023-07-20 更新2024-06-21 收录
语音情感识别
跨语言研究
下载链接:
https://github.com/Ethio2021/ASED_V1
下载链接
链接失效反馈
资源简介:
Amharic Speech Emotion Dataset (ASED) 是由西北大学信息科学与技术学院创建的公开可用数据集,包含2,474个录音,由65名说话者(25名男性,40名女性)参与,涵盖五种情绪:恐惧、中性、快乐、悲伤和愤怒。ASED数据集的创建旨在支持跨语言和多语言的语音情感识别研究,特别是在资源稀缺的语言如阿姆哈拉语中。该数据集的应用领域包括工业和医疗领域的实时语音情感识别系统,以及增强语音情感识别系统的鲁棒性。
提供机构:
西北大学信息科学与技术学院
创建时间:
2023-07-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
Amharic Speech Emotion Dataset (ASED) 的构建涉及了四个主要方言(Gojjam、Wollo、Shewa 和 Gonder)以及五种不同的情感(中性、恐惧、快乐、悲伤和愤怒)。该数据集的构建过程包括收集65名阿姆哈拉语母语者的语音样本,他们记录了2,474个时长为2到4秒的语音样本。然后,八位评审员(每个方言两位)对样本进行了情感标注,并且具有高水平的共识(Fleiss kappa = 0.8)。最终,该数据集免费提供给公众下载。
使用方法
ASED数据集的使用方法包括:下载数据集;提取语音样本的特征,如MFCC;使用深度学习模型,如VGGb,对提取的特征进行情感识别;对模型进行训练和测试,以评估其性能;使用ASED数据集与其他语言的情感识别数据集进行比较,以评估其性能;将ASED数据集与其他数据集结合使用,以进行跨语言情感识别研究。
背景与挑战
背景概述
语音情感识别(SER)作为人工智能领域的一个研究热点,旨在通过语音信号自动识别说话人的情感状态。在众多语言中,阿姆哈拉语作为世界上第二大的闪米特语,在埃塞俄比亚等国家具有重要的政治、历史和文化意义。然而,由于语言资源的匮乏,阿姆哈拉语在语音情感识别领域的研究相对滞后。为了填补这一空白,西北大学信息科学与技术学院的研究团队创建了阿姆哈拉语音情感数据集(ASED)。该数据集包含了来自四个主要方言(戈贾姆、沃洛、绍瓦和贡德尔)的65位志愿者录制的2474个声音样本,涵盖了五种不同的情感(中性、恐惧、快乐、悲伤和愤怒)。此外,该数据集还经过8位评委的高水平评估,确保了数据质量。ASED的创建不仅为阿姆哈拉语音情感识别研究提供了宝贵资源,也为多语言SER研究提供了新的视角。
当前挑战
ASED数据集的创建和SER研究面临着一些挑战。首先,由于阿姆哈拉语方言众多,不同方言间的语音特征差异较大,如何有效地处理方言差异成为了一个挑战。其次,阿姆哈拉语的语音情感表达方式与其他语言存在差异,例如,阿姆哈拉语的重音主要表现为音节的长短,而非音量的大小。因此,如何提取能够准确反映阿姆哈拉语音情感的语音特征成为一个挑战。最后,尽管ASED数据集提供了大量的语音样本,但在实际应用中,如何将SER系统扩展到更多的情感类别和更复杂的场景仍然是一个挑战。为了应对这些挑战,研究团队在ASED的基础上进行了深入的实验,比较了Mel谱图特征和Mel频率倒谱系数(MFCC)特征在阿姆哈拉语音情感识别中的性能,并开发了一种基于VGG模型的SER模型,取得了良好的识别效果。这些研究成果为阿姆哈拉语音情感识别研究提供了新的思路和方法,也为多语言SER研究提供了有价值的参考。
常用场景
经典使用场景
在语音情感识别领域,ASED数据集被广泛应用于训练和测试语音情感识别系统。该数据集包含了四种方言(戈贾姆、沃洛、谢瓦和贡德)和五种不同的情感(中性、恐惧、快乐、悲伤和愤怒)。这些音频样本被用来训练各种语音情感识别模型,以便更好地理解和识别语音中的情感信息。
解决学术问题
ASED数据集解决了埃塞俄比亚语语音情感识别领域中缺乏数据集的问题。由于埃塞俄比亚语是世界上最复杂的语言之一,其语音情感识别具有挑战性。ASED数据集提供了大量的音频样本,为研究人员提供了训练和测试语音情感识别模型的机会,从而推动了埃塞俄比亚语语音情感识别领域的研究。
实际应用
ASED数据集在实际应用中具有广泛的应用前景。例如,在呼叫中心、在线学习、临床研究等领域,语音情感识别技术可以帮助识别和回应客户或用户的情感需求。此外,ASED数据集还可以用于开发语音合成系统,使机器能够更自然地表达情感。
数据集最近研究
最新研究方向
在语音情感识别(SER)领域,Amharic Speech Emotion Dataset (ASED) 的提出填补了阿姆哈拉语语音情感识别数据集的空白。ASED 数据集覆盖了阿姆哈拉语的四个方言和五种不同的情感,为 SER 研究提供了宝贵的资源。研究人员使用 ASED 数据集,结合 VGGb 模型,通过实验验证了 MFCC 特征在阿姆哈拉语语音情感识别中的有效性,并与其他模型如 RESNet50、Alex-Net 和 LSTM 进行了比较。实验结果表明,MFCC 特征在阿姆哈拉语语音情感识别中具有更高的准确性和更快的训练时间。此外,实验还表明 VGGb 模型在不同语言(阿姆哈拉语、英语和德语)的语音情感识别任务中表现良好,证明了其在跨语言应用中的潜力。ASED 数据集的发布和 VGGb 模型的开发,为阿姆哈拉语语音情感识别研究提供了新的方向和工具,有助于推动该领域的发展。
相关研究论文
  • 1
    A New Amharic Speech Emotion Dataset and Classification Benchmark西北大学 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录