five

EmoBox

收藏
github2024-06-11 更新2024-06-12 收录
下载链接:
https://github.com/emo-box/EmoBox
下载链接
链接失效反馈
官方服务:
资源简介:
EmoBox是一个包含32个语音情感数据集的多语言多语料库语音情感识别工具包和基准,涵盖14种不同语言。

EmoBox is a multilingual and multi-corpus speech emotion recognition toolkit and benchmark, encompassing 32 speech emotion datasets across 14 different languages.
创建时间:
2024-06-03
原始信息汇总

数据集概述

EmoBox 包含32个语音情感数据集,涵盖14种不同的语言。以下是部分数据集的详细信息:

Dataset Source Language Emotions Speakers Utterances Hours
AESDD Act Greek 5 5 604 0.7
ASED Act Amharic 5 65 2474 2.1
ASVP-ESD Media Mix 12 131 13964 18.0
CaFE Act French 7 12 936 1.2
CASIA Act Mandarin 6 4 1200 0.6
CREMA-D Act English 6 91 7442 5.3
EMNS Act English 8 1 1181 1.9
EmoDB Act German 7 10 535 0.4
EmoV-DB Act English 5 4 6887 9.5
EMOVO Act Italian 7 6 588 0.5
Emozionalmente Act Italian 7 431 6902 6.3
eNTERFACE Act English 6 44 1263 1.1
ESD Act Mix 5 20 35000 29.1
IEMOCAP Act English 5 10 5531 7.0
JL-Corpus Act English 5 4 2400 1.4
M3ED TV Mandarin 7 626 24437 9.8
MEAD Act English 8 48 31729 37.3
MELD TV English 7 304 13706 12.1
MER2023 TV Mandarin 6 / 5030 5.9
MESD Act Spanish 6 11 862 0.2
MSP-Podcast Podcast English 8 1273 73042 113.6
Oreau Act French 7 32 434 0.3
PAVOQUE Act German 5 1 7334 12.2
Polish Act Polish 3 5 450 0.1
RAVDESS Act English 8 24 1440 1.5
RESD Act Russian 7 200 1396 2.3
SAVEE Act English 7 4 480 0.5
ShEMO Act Persian 6 87 2838 3.3
SUBESCO Act Bangla 7 20 7000 7.8
TESS Act English 7 2 2800 1.6
TurEV-DB Act Turkish 4 6 1735 0.5
URDU Talk show Urdu 4 29 400 0.3

数据集准备与处理

数据集的准备包括下载和放置到指定的downloads文件夹中,确保音频文件的路径与data/中的jsonl文件中的音频路径一致。此外,每个数据集都提供了元数据文件,包括多种格式如json, jsonl等,以及用于合并标签的label_map.json文件。

快速开始

EmoBox提供了EmoDatasetEmoEval类,用于训练和评估模型。用户可以使用任何配方或工具包训练自己的模型,并通过这些类比较结果,提交到基准测试。

示例配方

EmoBox提供了一个使用speechbrain框架的示例配方,包括特征提取、训练和评估的步骤。

提交到基准

用户可以根据基准测试的评估设置训练自己的模型,并通过电子邮件提交测试集结果。

搜集汇总
数据集介绍
main_image_url
构建方式
EmoBox数据集的构建基于32个涵盖14种不同语言的语音情感识别数据集。这些数据集通过严格的预处理和分区步骤进行整合,确保了数据的一致性和可用性。每个数据集的元数据以多种格式(如json和jsonl)提供,便于不同研究需求的使用。此外,数据集的标签经过合并处理,通过`label_map.json`文件确保标签的统一映射,从而提高了数据处理的效率和准确性。
特点
EmoBox数据集的显著特点在于其多语言和多数据集的整合,提供了丰富的语音情感识别资源。数据集不仅包含了多种语言的情感标注,还涵盖了从不同来源(如电视、播客和实际表演)收集的数据,确保了情感识别任务的多样性和挑战性。此外,EmoBox还提供了详细的元数据和预处理脚本,便于研究人员快速上手和进行实验。
使用方法
使用EmoBox数据集时,首先需要下载相关数据并将其放置在指定的`downloads`文件夹中,确保音频文件路径与元数据中的路径一致。随后,用户可以通过提供的`EmoDataset`和`EmoEval`类进行数据加载和模型评估。EmoBox还提供了基于speechbrain框架的示例代码,帮助用户快速开始训练和评估模型。最终,用户可以将测试结果提交至EmoBox的基准测试,以评估其模型的性能。
背景与挑战
背景概述
EmoBox数据集是由Ziyang Ma等研究人员于2024年创建的多语言多语料库语音情感识别工具包和基准。该数据集涵盖了32个情感数据集,跨越14种不同的语言,旨在为语音情感识别(SER)领域的研究提供一个全面的资源。EmoBox不仅提供了数据集的下载链接和预处理脚本,还包含了一个基准测试,用于评估在不同语料库和跨语料库设置下的情感识别性能。这一工具包的推出,极大地促进了多语言环境下语音情感识别技术的发展,为相关领域的研究者提供了一个标准化的评估平台。
当前挑战
EmoBox数据集在构建过程中面临了多重挑战。首先,整合来自不同语言和来源的32个数据集,确保数据质量和一致性是一个巨大的挑战。其次,跨语料库的情感识别任务由于数据分布和情感标签的差异,导致模型泛化能力受限。此外,数据集的多样性也带来了数据预处理和标注的复杂性,特别是对于需要合并标签的数据集。最后,构建一个能够公平比较不同模型性能的基准测试,需要精确的数据划分和评估方法,这也是一个技术上的挑战。
常用场景
经典使用场景
EmoBox数据集在多语言多语料库的语音情感识别(SER)领域中具有经典应用场景。它通过整合32个涵盖14种不同语言的情感语音数据集,为研究人员提供了一个全面的工具包和基准测试平台。EmoBox不仅支持单语料库内的情感识别,还特别适用于跨语料库的情感识别任务,这对于评估模型在不同语言和文化背景下的泛化能力至关重要。
衍生相关工作
EmoBox数据集的发布催生了多项相关研究工作。许多研究者基于EmoBox开发了新的语音情感识别模型,这些模型在多语言环境下的表现得到了显著提升。此外,EmoBox还激发了关于跨文化情感表达差异的研究,推动了情感计算领域的发展。EmoBox的基准测试平台也被广泛应用于评估和比较不同情感识别模型的性能,促进了该领域的标准化和规范化。
数据集最近研究
最新研究方向
在多语言和多语料库的语音情感识别(SER)领域,EmoBox数据集的最新研究方向主要集中在跨语言和跨语料库的情感识别性能提升。研究者们致力于通过整合和标准化多语言数据集,探索预训练模型在不同语言和文化背景下的泛化能力。此外,研究还关注于开发更高效的特征提取方法和模型架构,以提高情感识别的准确性和鲁棒性。这些研究不仅推动了SER技术的发展,也为跨文化交流和情感计算的应用提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作