mirix/messaih
收藏Hugging Face2023-08-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mirix/messaih
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- audio-classification
language:
- en
tags:
- SER
- Speech Emotion Recognition
- Speech Emotion Classification
- Audio Classification
- Audio
- Emotion
- Emo
- Speech
- Mosei
pretty_name: messAIh
size_categories:
- 10K<n<100K
---
DATASET DESCRIPTION
The messAIh dataset is a fork of [CMU MOSEI](http://multicomp.cs.cmu.edu/resources/cmu-mosei-dataset/).
Unlike its parent, MESSAIH is indended for unimodal model development and focusses exclusively on audio classification, more specifically, Speech Emotion Recognition (SER).
Of course, it can be used for bimodal classification by transcribing each audio track.
MESSAIH currently contains 13,234 speech samples annotated according to the [CMU MOSEI](https://aclanthology.org/P18-1208/) scheme:
> Each sentence is annotated for sentiment on a [-3,3] Likert scale of:
> [−3: highly negative, −2 negative, −1 weakly negative, 0 neutral, +1 weakly positive, +2 positive, +3 highly positive].
> Ekman emotions of {happiness, sadness, anger, fear, disgust, surprise}
> are annotated on a [0,3] Likert scale for presence of emotion
> x: [0: no evidence of x, 1: weakly x, 2: x, 3: highly x].
The dataset is provided as a [parquet file](https://drive.google.com/file/d/17qOa2cFDNCH2j2mL5gCNUOwLxpgnzPmB/view?usp=drive_link).
Provisionally, the file is stored on a [cloud drive](https://drive.google.com/file/d/17qOa2cFDNCH2j2mL5gCNUOwLxpgnzPmB/view?usp=drive_link) as it is too big for GitHub. Note that the original parquet file from August 10th 2023 was buggy and so was the Python script.
To facilitate inspection, a truncated csv sample file is also provided, but it does not contain the audio arrays.
If you train a model on this dataset, you would make us very happy by letting us know.
UNPACKING THE DATASET
A sample Python script (check the top of the script for the requirements) is also provided for illustrative purposes.
The script reads the parquet file and produces the following:
1. A csv file with file names and MOSEI values (columns names are self-explanatory).
2. A folder named "wavs" containing the audio samples.
LEGAL CONSIDERATIONS
Note that producing the wav files might (or might not) constitute copyright infringement as well as a violation of Google's Terms of Service.
Instead, researchers are encouraged to use the numpy arrays contained in the last column of the dataset ("wav2numpy") directly, without actually extracting any playable audio.
That, I believe, may keep us in the grey zone.
CAVEATS
As one can appreciate from the charts contained in the "charts" folder, the dataset is biased towards "positive" emotions, namely happiness.
Certain emotions such as fear may be underrepresented, not only in terms of number of occurences, but, more problematically, in terms of "intensity".
MOSEI is considered a natural or spontaneous emotion dataset (as opposed to an actored or scripted one) showcasing "genuine" emotions.
However, keep in mind that MOSEI was curated from a popular social network and social networks are notoriously abundant in fake emotions.
Moreover, certain emotions may be intrinsically more difficult to detect than others, even from a human perspective.
Yet, MOSEI is possibly one of the best datasets of its kind currently in the public domain.
Also note that the original [MOSEI](http://immortal.multicomp.cs.cmu.edu/CMU-MOSEI/labels/) contains nearly twice as many entries as MESSAIH does.
### 数据集元数据
许可证:MIT许可证
任务类别:音频分类
语言:英语
标签:SER(Speech Emotion Recognition,语音情感识别)、语音情感分类、音频分类、音频、情感、Emo、语音、Mosei
美观名称:messAIh
规模类别:10K<n<100K
---
## 数据集描述
本messAIh数据集是[CMU MOSEI](http://multicomp.cs.cmu.edu/resources/cmu-mosei-dataset/)的衍生分支。
与原始数据集不同,messAIh专为单模态模型开发设计,仅聚焦于音频分类任务,更具体地说,是语音情感识别(Speech Emotion Recognition, SER)。
当然,通过对每条音频轨道进行转录,该数据集也可用于双模态分类任务。
目前,messAIh共包含13234条语音样本,其标注遵循[CMU MOSEI](https://aclanthology.org/P18-1208/)的标注规范:
> 每条语句的情感极性采用[-3, 3]李克特量表进行标注:
> [-3:极强负面,-2:负面,-1:偏弱负面,0:中性,+1:偏弱正面,+2:正面,+3:极强正面]。
> 对于埃克曼六大基本情感(快乐、悲伤、愤怒、恐惧、厌恶、惊讶),采用[0, 3]李克特量表标注该情感的存在程度:
> x: [0:无x情感迹象,1:偏弱x,2:x情感,3:极强x]。
本数据集以[Parquet文件](https://drive.google.com/file/d/17qOa2cFDNCH2j2mL5gCNUOwLxpgnzPmB/view?usp=drive_link)形式提供。
由于文件体积过大无法上传至GitHub,该文件暂存于[云端驱动器](https://drive.google.com/file/d/17qOa2cFDNCH2j2mL5gCNUOwLxpgnzPmB/view?usp=drive_link)。需注意,2023年8月10日发布的原始Parquet文件存在程序漏洞,配套的Python脚本亦存在相同问题。
为便于预览,本项目同时提供了一份截断后的CSV示例文件,但该文件不包含音频数组。
若您基于本数据集训练模型,烦请告知我们,我们将不胜欣喜。
## 数据集解压说明
附带提供了一份示例Python脚本(请查看脚本顶部的依赖要求)以作演示。该脚本可读取Parquet文件并生成以下内容:
1. 一份包含文件名与MOSEI标注值的CSV文件(列名含义直观明确)。
2. 一个名为"wavs"的文件夹,内含所有音频样本。
## 法律合规说明
请注意,提取WAV音频文件可能(或可能不会)构成版权侵权行为,同时可能违反谷歌服务条款。
因此,我们建议研究人员直接使用数据集中最后一列的numpy数组(列名为"wav2numpy"),无需提取可播放的音频文件。
我们认为,此方式可使我们的操作处于法律灰色地带。
## 数据集局限性说明
从"charts"文件夹中的图表可看出,本数据集存在情感偏向性,主要偏向于"积极"情感,即快乐。
部分情感如恐惧的样本占比偏低,不仅体现在样本数量上,更严重的是其情感强度标注也相对不足。
MOSEI数据集被认为是自然或自发情感数据集(区别于演员演绎或脚本编写的数据集),展现的是"真实"情感。
但需注意,MOSEI数据集源自某热门社交网络,而社交网络中虚假情感泛滥已是公认事实。
此外,从人类视角来看,部分情感本身就比其他情感更难识别。
尽管如此,MOSEI仍是目前公共领域中同类最优的数据集之一。
另需注意,原始[MOSEI](http://immortal.multicomp.cs.cmu.edu/CMU-MOSEI/labels/)数据集的条目数量几乎是messAIh的两倍。
提供机构:
mirix
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 音频分类
- 语言: 英语
- 标签: SER, Speech Emotion Recognition, Speech Emotion Classification, Audio Classification, Audio, Emotion, Emo, Speech, Mosei
- 数据集名称: messAIh
- 大小: 10K<n<100K
数据集描述
- 来源: 基于CMU MOSEI数据集的分支
- 目的: 专注于单模态模型开发,特别是语音情感识别(SER)
- 数据内容: 包含13,234个语音样本,按照CMU MOSEI方案进行标注
- 情感标注: 使用[-3,3] Likert量表标注情感倾向
- 情绪标注: 使用[0,3] Likert量表标注Ekman情绪(幸福、悲伤、愤怒、恐惧、厌恶、惊讶)的存在
- 数据格式: 提供为parquet文件,存储在云端
数据使用
- 建议使用方式: 推荐使用numpy数组("wav2numpy")进行研究,避免提取可播放音频以规避版权和法律问题
- 数据偏差: 数据集偏向于“积极”情绪,特别是幸福,某些情绪如恐惧可能存在代表性不足的问题
数据集局限性
- 情绪真实性: 尽管MOSEI展示的是“真实”情感,但考虑到数据来源于社交网络,可能存在虚假情感
- 数据量: MESSAIH包含的条目数量约为原始MOSEI的一半
数据集下载与处理
- 下载: 数据集文件可通过提供的链接从云端驱动下载
- 处理工具: 提供Python脚本用于读取parquet文件并生成csv文件和音频样本文件夹
法律与伦理考虑
- 版权与服务条款: 提取wav文件可能涉及版权侵犯和违反Google服务条款,建议直接使用numpy数组进行研究
搜集汇总
数据集介绍

构建方式
在语音情感识别领域,数据集的构建往往依赖于多模态资源的转化与精炼。messAIh数据集作为CMU MOSEI数据集的分支,专注于单模态音频分类任务,其构建过程体现了对原始多模态数据的深度重构。该数据集从MOSEI中提取了13,234个语音样本,摒弃了视频与文本模态,仅保留音频部分,并沿用了MOSEI的情感标注体系。标注包括基于[-3,3]李克特量表的情感极性评分,以及针对六种埃克曼情绪(快乐、悲伤、愤怒、恐惧、厌恶、惊讶)在[0,3]量表上的强度标注。数据集以Parquet文件格式提供,内含音频的NumPy数组表示,旨在规避直接提取可播放音频文件可能引发的法律风险。
特点
messAIh数据集的核心特点在于其专注于语音情感识别的单模态研究需求。作为源自CMU MOSEI的自然情感语音数据集,它捕捉了社交媒体语境中相对自发的情绪表达,为模型提供了接近真实世界的训练环境。然而,数据集在情感分布上存在显著偏差,快乐等积极情绪样本占据主导,而恐惧等情绪则无论在出现频率还是标注强度上都相对不足。这种不平衡性反映了原始数据源的固有特性,也提示研究者在模型开发时需关注类别不平衡问题。尽管规模约为原始MOSEI的一半,且情感真实性受社交媒体环境潜在影响,但该数据集仍是当前公开领域中颇具价值的语音情感资源之一。
使用方法
为便于研究者使用,数据集提供了配套的Python脚本以辅助数据加载与处理。推荐的使用方法是直接读取Parquet文件,利用其中预处理的‘wav2numpy’列所包含的音频NumPy数组,从而避免生成可能涉及版权问题的WAV文件。脚本能够将数据解析为包含文件名和所有MOSEI标注值的CSV文件,并可按需重构音频文件夹。鉴于数据集的情感分布偏差,在使用时建议采用适当的采样策略或损失函数以应对类别不平衡。该数据集主要适用于单模态语音情感分类模型的训练与评估,亦可通过音频转录扩展用于双模态情感分析研究。
背景与挑战
背景概述
在语音情感识别领域,高质量数据集的构建是推动模型性能提升的关键。messAIh数据集作为CMU MOSEI数据集的分支,由研究团队于2023年推出,专注于单模态音频分类任务,特别是语音情感识别。该数据集包含13,234个语音样本,采用CMU MOSEI的标注方案,涵盖情感极性及六种基本情绪。其设计旨在支持自然情感分析,为语音处理领域提供了重要的研究资源,促进了情感计算模型的开发与优化。
当前挑战
messAIh数据集面临的挑战主要体现在两个方面:在领域问题层面,语音情感识别本身存在情绪类别不平衡的难题,例如快乐情绪样本过多,而恐惧等情绪样本稀缺且强度不足,这影响了模型的泛化能力;同时,自然情感数据中可能混杂虚假情绪,增加了识别难度。在构建过程中,数据集需处理原始MOSEI数据的版权与合规性问题,避免音频提取带来的法律风险,且数据规模缩减至原数据集的一半左右,可能限制了其覆盖范围。
常用场景
经典使用场景
在语音情感识别领域,messAIh数据集作为CMU MOSEI的音频分支,专注于单模态模型开发,为研究者提供了丰富的自然语音样本。其经典使用场景在于训练和评估基于深度学习的语音情感分类模型,通过13,234条标注精细的语音片段,支持从高度负面到高度正面的情感连续体分析,以及六种基本情绪的强度检测。该数据集尤其适用于探索音频特征提取与情感映射之间的复杂关系,为语音处理算法的优化提供了坚实基础。
实际应用
在实际应用层面,messAIh数据集推动了智能客服、心理健康监测及人机交互系统的情感感知能力发展。基于该数据集训练的模型可集成于呼叫中心系统,实时分析客户语音中的情绪波动以优化服务策略;在医疗领域,辅助诊断工具通过识别语音中的抑郁或焦虑线索,为早期心理干预提供参考。此外,该数据支持教育科技中的情感自适应学习环境构建,提升个性化交互体验。
衍生相关工作
围绕messAIh数据集,已衍生出多项经典研究工作,包括基于Transformer的端到端语音情感识别框架、多任务学习模型联合预测情感维度与情绪类别,以及针对数据不平衡问题的生成对抗网络数据增强方法。这些工作显著提升了语音情感识别的鲁棒性与泛化能力,部分成果已扩展至跨语言情感迁移学习领域,为后续融合视觉与文本的多模态情感分析研究提供了重要启示。
以上内容由遇见数据集搜集并总结生成



