EmoBox

github2024-06-11 更新2024-06-12 收录

下载链接：

https://github.com/emo-box/EmoBox

下载链接

链接失效反馈

官方服务：

资源简介：

EmoBox是一个包含32个语音情感数据集的多语言多语料库语音情感识别工具包和基准，涵盖14种不同语言。

EmoBox is a multilingual and multi-corpus speech emotion recognition toolkit and benchmark, encompassing 32 speech emotion datasets across 14 different languages.

创建时间：

2024-06-03

原始信息汇总

数据集概述

EmoBox 包含32个语音情感数据集，涵盖14种不同的语言。以下是部分数据集的详细信息：

Dataset	Source	Language	Emotions	Speakers	Utterances	Hours
AESDD	Act	Greek	5	5	604	0.7
ASED	Act	Amharic	5	65	2474	2.1
ASVP-ESD	Media	Mix	12	131	13964	18.0
CaFE	Act	French	7	12	936	1.2
CASIA	Act	Mandarin	6	4	1200	0.6
CREMA-D	Act	English	6	91	7442	5.3
EMNS	Act	English	8	1	1181	1.9
EmoDB	Act	German	7	10	535	0.4
EmoV-DB	Act	English	5	4	6887	9.5
EMOVO	Act	Italian	7	6	588	0.5
Emozionalmente	Act	Italian	7	431	6902	6.3
eNTERFACE	Act	English	6	44	1263	1.1
ESD	Act	Mix	5	20	35000	29.1
IEMOCAP	Act	English	5	10	5531	7.0
JL-Corpus	Act	English	5	4	2400	1.4
M3ED	TV	Mandarin	7	626	24437	9.8
MEAD	Act	English	8	48	31729	37.3
MELD	TV	English	7	304	13706	12.1
MER2023	TV	Mandarin	6	/	5030	5.9
MESD	Act	Spanish	6	11	862	0.2
MSP-Podcast	Podcast	English	8	1273	73042	113.6
Oreau	Act	French	7	32	434	0.3
PAVOQUE	Act	German	5	1	7334	12.2
Polish	Act	Polish	3	5	450	0.1
RAVDESS	Act	English	8	24	1440	1.5
RESD	Act	Russian	7	200	1396	2.3
SAVEE	Act	English	7	4	480	0.5
ShEMO	Act	Persian	6	87	2838	3.3
SUBESCO	Act	Bangla	7	20	7000	7.8
TESS	Act	English	7	2	2800	1.6
TurEV-DB	Act	Turkish	4	6	1735	0.5
URDU	Talk show	Urdu	4	29	400	0.3

数据集准备与处理

数据集的准备包括下载和放置到指定的downloads文件夹中，确保音频文件的路径与data/中的jsonl文件中的音频路径一致。此外，每个数据集都提供了元数据文件，包括多种格式如json, jsonl等，以及用于合并标签的label_map.json文件。

快速开始

EmoBox提供了EmoDataset和EmoEval类，用于训练和评估模型。用户可以使用任何配方或工具包训练自己的模型，并通过这些类比较结果，提交到基准测试。

示例配方

EmoBox提供了一个使用speechbrain框架的示例配方，包括特征提取、训练和评估的步骤。

提交到基准

用户可以根据基准测试的评估设置训练自己的模型，并通过电子邮件提交测试集结果。

搜集汇总

数据集介绍

构建方式

EmoBox数据集的构建基于32个涵盖14种不同语言的语音情感识别数据集。这些数据集通过严格的预处理和分区步骤进行整合，确保了数据的一致性和可用性。每个数据集的元数据以多种格式（如json和jsonl）提供，便于不同研究需求的使用。此外，数据集的标签经过合并处理，通过`label_map.json`文件确保标签的统一映射，从而提高了数据处理的效率和准确性。

特点

EmoBox数据集的显著特点在于其多语言和多数据集的整合，提供了丰富的语音情感识别资源。数据集不仅包含了多种语言的情感标注，还涵盖了从不同来源（如电视、播客和实际表演）收集的数据，确保了情感识别任务的多样性和挑战性。此外，EmoBox还提供了详细的元数据和预处理脚本，便于研究人员快速上手和进行实验。

使用方法

使用EmoBox数据集时，首先需要下载相关数据并将其放置在指定的`downloads`文件夹中，确保音频文件路径与元数据中的路径一致。随后，用户可以通过提供的`EmoDataset`和`EmoEval`类进行数据加载和模型评估。EmoBox还提供了基于speechbrain框架的示例代码，帮助用户快速开始训练和评估模型。最终，用户可以将测试结果提交至EmoBox的基准测试，以评估其模型的性能。

背景与挑战

背景概述

EmoBox数据集是由Ziyang Ma等研究人员于2024年创建的多语言多语料库语音情感识别工具包和基准。该数据集涵盖了32个情感数据集，跨越14种不同的语言，旨在为语音情感识别（SER）领域的研究提供一个全面的资源。EmoBox不仅提供了数据集的下载链接和预处理脚本，还包含了一个基准测试，用于评估在不同语料库和跨语料库设置下的情感识别性能。这一工具包的推出，极大地促进了多语言环境下语音情感识别技术的发展，为相关领域的研究者提供了一个标准化的评估平台。

当前挑战

EmoBox数据集在构建过程中面临了多重挑战。首先，整合来自不同语言和来源的32个数据集，确保数据质量和一致性是一个巨大的挑战。其次，跨语料库的情感识别任务由于数据分布和情感标签的差异，导致模型泛化能力受限。此外，数据集的多样性也带来了数据预处理和标注的复杂性，特别是对于需要合并标签的数据集。最后，构建一个能够公平比较不同模型性能的基准测试，需要精确的数据划分和评估方法，这也是一个技术上的挑战。

常用场景

经典使用场景

EmoBox数据集在多语言多语料库的语音情感识别（SER）领域中具有经典应用场景。它通过整合32个涵盖14种不同语言的情感语音数据集，为研究人员提供了一个全面的工具包和基准测试平台。EmoBox不仅支持单语料库内的情感识别，还特别适用于跨语料库的情感识别任务，这对于评估模型在不同语言和文化背景下的泛化能力至关重要。

衍生相关工作

EmoBox数据集的发布催生了多项相关研究工作。许多研究者基于EmoBox开发了新的语音情感识别模型，这些模型在多语言环境下的表现得到了显著提升。此外，EmoBox还激发了关于跨文化情感表达差异的研究，推动了情感计算领域的发展。EmoBox的基准测试平台也被广泛应用于评估和比较不同情感识别模型的性能，促进了该领域的标准化和规范化。

数据集最近研究