EmoGator
收藏arXiv2023-04-06 更新2024-06-21 收录
下载链接:
https://github.com/fredbuhl/EmoGator
下载链接
链接失效反馈官方服务:
资源简介:
EmoGator数据集由佛罗里达大学的Fred W. Buhl创建,包含32,130个来自357位发言者的非言语情感发声样本,总时长16.9654小时。每个样本被分类到30个不同的情感类别中。数据集通过志愿者和众包工作者收集,使用文本提示帮助引发情感反应。EmoGator旨在解决语音情感识别中的数据稀缺问题,特别是在非言语情感发声方面,为机器学习分类方法提供基准。该数据集的应用领域包括视频游戏中的非玩家角色响应、早期儿童教育、社交机器人交互等,旨在提高计算机对人类情感表达的理解和响应能力。
The EmoGator dataset was developed by Fred W. Buhl of the University of Florida. It comprises 32,130 nonverbal emotional vocal samples from 357 speakers, with a total duration of 16.9654 hours. Each sample is classified into 30 distinct emotional categories. The dataset was collected through volunteers and crowd workers, utilizing text prompts to elicit emotional reactions from participants. EmoGator is designed to address the problem of data scarcity in speech emotion recognition, particularly for nonverbal emotional vocalizations, and serves as a benchmark for machine learning-based classification approaches. Its potential application domains include non-player character responses in video games, early childhood education, social robot interaction, and other fields, with the overarching goal of improving computers' capacity to comprehend and respond to human emotional expressions.
提供机构:
佛罗里达大学
创建时间:
2023-01-02
搜集汇总
数据集介绍

构建方式
EmoGator数据集的构建基于对人类非言语声音表达的研究,特别是对情感爆发(vocal bursts)的收集和分类。该数据集由来自357位演讲者的32,130个样本组成,总时长为16.9654小时。每位演讲者针对30个不同的情感类别分别录制了三个样本,确保了每个类别和每位演讲者都有相同数量的样本。这些样本通过文本提示的方式收集,以激发特定的情感反应。数据采集过程中,对音频质量进行了严格的保证,对不符合要求的样本进行了剔除。最终,数据集以mp3格式存储,并按照演讲者ID、情感类别ID和录音编号进行命名,方便研究者进行数据集分割。
特点
EmoGator数据集的特点在于其规模和情感的多样性。它包含了30个不同的情感类别,每个类别都有1071个样本,保证了类别的平衡。此外,该数据集采用了开放源代码的许可方式,允许研究人员自由下载和使用。与现有的情感爆发数据集相比,EmoGator在样本数量和情感类别上都有显著的优势。同时,该数据集的构建方式也保证了样本的多样性和代表性,有助于提高机器学习模型的泛化能力。
使用方法
使用EmoGator数据集时,首先需要从https://github.com/fredbuhl/EmoGator下载数据集。数据集以mp3格式存储,并按照演讲者ID、情感类别ID和录音编号进行命名。研究者可以根据需要将数据集划分为训练集、验证集和测试集。由于数据集规模较大,建议在具备较高计算能力的硬件平台上进行处理。数据预处理包括音频归一化、降噪和静音去除等步骤。对于机器学习模型的选择,可以根据研究需求选择1D CNN、随机森林、预训练语音模型等方法。在使用预训练语音模型时,可以利用HuggingFace transformer库进行操作。此外,还可以采用集成学习方法来提高模型的性能。
背景与挑战
背景概述
情感识别是人类交流的重要方面,而在语音情感识别领域,非言语的语音爆发(如笑声、哭泣、叹息等)往往被忽视。EmoGator数据集旨在填补这一空白,它由来自357位说话者的32,130个样本组成,总时长为16.9654小时。每个样本都被说话者归类到30个不同的情感类别之一。EmoGator数据集由佛罗里达大学的Fred W. Buhl创建,并于2023年4月7日发布。该数据集旨在促进对非言语语音爆发的情感识别研究,并探讨机器学习分类方法的性能。EmoGator数据集的创建对相关领域产生了重要影响,为研究人员提供了一个大规模、均衡的数据集,以评估和改进语音情感识别技术。
当前挑战
尽管EmoGator数据集为语音情感识别研究提供了宝贵资源,但仍面临一些挑战。首先,尽管人类能够从这些语音爆发中区分出24种情感状态,但机器的识别能力尚未达到人类的水平。其次,数据集虽然是目前公开可用的最大数据集,但在机器学习的标准下仍相对较小,限制了模型的训练和性能。此外,不同情感类别的样本数量可能存在不平衡,这可能会影响模型的泛化能力。最后,如何有效地处理和利用音频数据,以及如何结合其他模态(如视频、文本等)来提高情感识别的准确性,仍然是需要进一步研究的挑战。
常用场景
经典使用场景
EmoGator 数据集是一个包含32,130个样本,来自357位说话者,共计16.9654小时音频的数据集,每个样本都被说话者分类到30个不同的情感类别中。这个数据集的经典使用场景是在语音情感识别领域,通过构建分类器来识别情感类别。例如,可以使用这个数据集来训练机器学习模型,使其能够从非言语的语音爆发中识别出不同的情感状态,如笑声、哭泣、叹息、呻吟和呻吟等。这些模型可以应用于各种场景,如更逼真的游戏角色反应、评估儿童的情感智力、检测孤独、焦虑或抑郁的迹象等。
解决学术问题
EmoGator 数据集解决了语音情感识别领域中一个长期存在的问题,即缺乏大型数据集。该数据集提供了大量的非言语语音爆发样本,为研究这些有趣的声音提供了宝贵的资源。此外,该数据集还解决了情感类别不平衡的问题,每个情感类别都有相同数量的样本,确保了在模型训练过程中的公平性和准确性。通过使用EmoGator数据集,研究人员可以探索不同的机器学习方法,以识别和分类语音爆发中的情感状态,从而推动语音情感识别领域的发展。
衍生相关工作
EmoGator 数据集衍生了多个相关的工作。首先,该数据集的发布促进了语音情感识别领域的研究,激发了更多学者对这个领域的兴趣。其次,该数据集为研究人员提供了大量的非言语语音爆发样本,使得他们可以探索不同的机器学习方法,以识别和分类语音爆发中的情感状态。此外,EmoGator 数据集还启发了其他相关数据集的创建,如Hume-VB数据集,为语音情感识别领域的研究提供了更多的资源。
以上内容由遇见数据集搜集并总结生成



