myleslinder/crema-d

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/myleslinder/crema-d

下载链接

链接失效反馈

资源简介：

CREMA-D数据集包含7,442个原始音频片段，来自91名演员，其中包括48名男性和43名女性，年龄在20至74岁之间，涵盖了不同的种族和民族（非洲裔美国人、亚洲人、白人、西班牙裔和未指定）。演员们用六种不同的情感（愤怒、厌恶、恐惧、快乐、中性和悲伤）和四种情感强度（低、中、高和未指定）朗读了12个句子。参与者根据音频、视频和音频视频的组合对情感和情感强度进行了评分，共有2443名参与者，每人对90个独特的片段进行了评分，95%的片段有超过7个评分。

提供机构：

myleslinder

原始信息汇总

数据集卡片 for CREMA-D (Crowd-sourced Emotional Multimodal Actors Dataset)

数据集描述

数据集概述

CREMA-D 是一个包含 7,442 个原始片段的数据集，由 91 名演员录制。这些片段来自 48 名男性和 43 名女性演员，年龄介于 20 至 74 岁之间，来自多种种族和族裔（非洲裔美国人、亚洲人、高加索人、西班牙裔和未指定）。

演员们从 12 个句子中选择进行朗读。这些句子使用六种不同的情绪（愤怒、厌恶、恐惧、快乐、中性、悲伤）和四种不同的情绪强度（低、中、高和未指定）进行表达。

参与者根据视听结合、仅视频和仅音频的方式对情绪和情绪强度进行评分。由于需要大量评分，这一工作是通过众包完成的，共有 2443 名参与者，每人评定了 90 个独特的片段，包括 30 个音频、30 个视频和 30 个视听片段。95% 的片段获得了超过 7 次评分。

语言

英语

数据集结构

数据实例

json { path: .../.cache/huggingface/datasets/downloads/extracted/.../data/AudioWAV/1001_DFA_ANG_XX.wav, audio: { path: .../.cache/huggingface/datasets/downloads/extracted/.../data/AudioWAV/1001_DFA_ANG_XX.wav, array: array([ -1.35336370e-06, -1.84488497e-04, -2.73496640e-04, 1.40174336e-04, 8.33026352e-05, 0.00000000e+00 ]), sampling_rate: 16000 }, actor_id: 1001, sentence: "Dont forget a jacket", emotion_intensity: Unspecified, label: 0 }

附加信息

引用信息

BibTex @article{cao2014crema, title={CREMA-D: Crowd-sourced Emotional Multimodal Actors Dataset}, author={Cao, H. and Cooper, D. G. and Keutmann, M. K. and Gur, R. C. and Nenkova, A. and Verma, R.}, journal={IEEE transactions on affective computing}, volume={5}, number={4}, pages={377--390}, year={2014}, doi={10.1109/TAFFC.2014.2336244}, url={https://doi.org/10.1109/TAFFC.2014.2336244} }

AI搜集汇总

数据集介绍

构建方式

CREMA-D数据集通过精心设计的实验流程构建，汇集了来自91名演员的7,442个原始音频片段。这些演员包括48名男性和43名女性，年龄跨度从20岁到74岁，涵盖了多种种族和民族背景。每位演员从12个预选句子中选择，并以六种情感（愤怒、厌恶、恐惧、快乐、中性、悲伤）和四种情感强度（低、中、高、未指定）进行表达。通过众包方式，2,443名参与者对这些音频片段进行了情感和情感强度的评估，确保了数据的高质量和多样性。

特点

CREMA-D数据集的显著特点在于其多模态和众包评估的结合。该数据集不仅包含了丰富的音频数据，还结合了视频和纯音频的评估结果，提供了多维度的情感分析视角。此外，数据集的高覆盖率和多样性，包括不同年龄、性别和种族的演员，使得其在情感识别和分析领域具有广泛的应用潜力。

使用方法

使用CREMA-D数据集时，研究者可以利用其丰富的音频和情感标签进行情感识别模型的训练和评估。数据集提供了详细的情感类别和强度信息，适用于开发和测试情感分析算法。通过访问HuggingFace平台，用户可以轻松下载和加载数据集，利用其提供的API进行数据处理和模型训练，从而推动情感计算和相关领域的研究进展。

背景与挑战

背景概述

CREMA-D（Crowd-sourced Emotional Multimodal Actors Dataset）是由Cheyney大学计算机科学系的研究团队于2014年创建的一个情感多模态数据集。该数据集包含了7,442个原始音频片段，由91名年龄在20至74岁之间的演员录制，涵盖了多种种族和民族背景。这些音频片段涉及12个不同的句子，每个句子都以六种情感（愤怒、厌恶、恐惧、快乐、中性、悲伤）之一和四种情感强度（低、中、高、未指定）之一进行表达。CREMA-D的创建旨在通过众包方式收集大量情感和情感强度的评级，以支持情感识别和分析的研究，特别是在音频和视频多模态情感分析领域。

当前挑战

CREMA-D数据集在构建过程中面临了多个挑战。首先，情感和情感强度的多维度评级需要大量的参与者，这导致了众包过程中的管理和协调难题。其次，不同演员的情感表达能力和多样性差异，增加了情感识别的复杂性。此外，音频和视频的多模态数据处理要求高精度的同步和分析技术，以确保情感评级的准确性。最后，数据集的多样性和规模也带来了存储和处理上的技术挑战，特别是在确保数据质量和一致性方面。

常用场景

经典使用场景

在情感识别领域，CREMA-D数据集被广泛用于训练和验证情感分类模型。通过分析音频信号中的情感特征，研究人员能够构建能够识别和区分愤怒、厌恶、恐惧、快乐、中性及悲伤等六种基本情感的算法。这种基于音频的情感识别技术在人机交互、心理健康监测和情感计算等多个领域展现出巨大的应用潜力。

解决学术问题

CREMA-D数据集通过提供多样化的情感表达样本，解决了情感识别研究中数据稀缺和多样性不足的问题。其丰富的情感标签和多层次的情感强度标注，使得研究人员能够更精确地评估和改进情感识别算法的性能。这一数据集的引入，极大地推动了情感计算领域的发展，为后续研究提供了坚实的基础。

衍生相关工作

基于CREMA-D数据集，许多研究工作在情感识别和情感计算领域取得了显著进展。例如，有研究利用该数据集开发了基于深度学习的情感分类模型，显著提升了情感识别的准确率。此外，还有研究探讨了情感强度对情感识别的影响，进一步深化了对情感表达复杂性的理解。这些工作不仅丰富了情感计算的理论基础，也为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集