ajyy/MELD_audio

Name: ajyy/MELD_audio
Creator: ajyy
Published: 2024-03-16 06:12:02
License: 暂无描述

Hugging Face2024-03-16 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ajyy/MELD_audio

下载链接

链接失效反馈

官方服务：

资源简介：

多模态情感线数据集（MELD）是通过增强和扩展情感线数据集创建的。MELD包含了与情感线数据集中相同的对话实例，但还包含了音频和视觉模态以及文本。MELD包含了来自《Friends》电视剧的1400多个对话和13000多个话语。多个参与者参与了这些对话。每个话语在对话中都被标注了七种情感之一——愤怒、厌恶、悲伤、快乐、中性、惊讶和恐惧。MELD还为每个话语标注了情感极性（正面、负面和中性）。音频是从MELD的mp4文件中提取的，采样率为16kHz。

提供机构：

ajyy

原始信息汇总

数据集概述

数据集名称

名称: MELD_Audio
别名: MELD

数据集特征

文本 (text): 数据类型为字符串。
路径 (path): 数据类型为字符串。
音频 (audio): 数据类型为音频，采样率为16000 Hz。
情绪 (emotion): 数据类型为类别标签，包含以下情绪：
- 0: 中性
- 1: 喜悦
- 2: 悲伤
- 3: 愤怒
- 4: 恐惧
- 5: 厌恶
- 6: 惊讶
情感 (sentiment): 数据类型为类别标签，包含以下情感：
- 0: 中性
- 1: 积极
- 2: 消极

数据集分割

训练集 (train): 包含9988个样本，总大小为3629722字节。
验证集 (validation): 包含1108个样本，总大小为411341字节。
测试集 (test): 包含2610个样本，总大小为945283字节。

数据集大小

下载大小: 7840135137字节
数据集大小: 4986346字节

许可证

许可证: GPL-3.0

语言

语言: 英语

大小类别

大小类别: 10K<n<100K

在情感计算领域，多模态情感分析数据集MELD_audio的构建体现了对现有资源的深化拓展。该数据集源自经典的多模态情感线数据集，通过技术手段从原始视频文件中提取音频流，并统一处理为单声道、16kHz采样率的格式，确保了音频数据的标准化与一致性。构建过程中，研究者保留了原始对话的文本内容及情感标签，同时整合了音频模态，形成了涵盖文本、音频、情感与情感倾向的多维数据架构，为跨模态研究提供了坚实基础。

特点

MELD_audio数据集的特点在于其丰富的多模态结构与精细的情感标注体系。数据集包含超过1400段对话和13000条话语，均来源于《老友记》剧集，涵盖了多位说话者的自然交互场景。每条话语均标注了七种基本情绪——愤怒、厌恶、悲伤、喜悦、中性、惊讶与恐惧，并辅以积极、消极、中性三种情感倾向标签，实现了情感层次的细粒度划分。音频数据以标准化格式呈现，与文本及视觉模态相互对应，支持跨模态对齐与融合研究，为情感识别任务提供了全面而多样的数据支持。

使用方法

该数据集适用于语音情感识别、多模态情感分析等研究任务。使用者可通过加载数据集获取文本、音频路径、音频数组及对应的情感与情感倾向标签，利用训练集、验证集和测试集进行模型训练与评估。在应用时，可结合音频特征提取技术（如梅尔频谱）与文本嵌入方法，构建跨模态神经网络模型，探索音文融合的情感分类性能。数据集结构清晰，支持直接用于端到端学习或特征级融合实验，助力于提升情感计算系统的鲁棒性与泛化能力。

背景与挑战

背景概述

在情感计算与多模态人机交互研究领域，对话情感识别一直是核心议题之一。MELD数据集由音频、语音与视觉处理实验室（ASVP-ESD）构建，作为对EmotionLines数据集的扩展与增强，于近年推出。该数据集聚焦于从多模态角度解析对话中的情感表达，涵盖了超过1400个对话和13000条话语，均源自《老友记》剧集。其核心研究问题在于如何整合文本、音频及视觉信息，以实现对七种基本情感（愤怒、厌恶、悲伤、喜悦、中性、惊讶、恐惧）及三种情感倾向（积极、消极、中性）的精准识别。MELD的创建推动了多模态情感分析的发展，为对话系统、情感智能等应用提供了关键数据支撑，显著提升了相关模型的泛化能力与鲁棒性。

当前挑战

MELD数据集所针对的领域问题——多模态对话情感识别，面临多重挑战。情感表达的复杂性与语境依赖性使得单一模态信息往往不足以准确捕捉细微情感变化，需融合文本、音频及视觉特征以克服模态间的不一致性与信息冗余。在构建过程中，挑战同样显著：原始多模态数据的对齐与同步需精细处理，以确保各模态间的时间一致性；情感标注依赖于人工判断，易受主观偏差影响，需通过多标注者协议与验证流程来保障标签的可靠性；此外，数据源自影视剧集，其表演性质可能引入夸张的情感表达，与真实场景存在差异，限制了模型的泛化性能。

常用场景

经典使用场景

在情感计算与多模态交互研究领域，MELD_audio数据集以其丰富的音频与文本多模态标注，成为对话情感识别任务中的经典基准。该数据集源自《老友记》剧集，涵盖超过13000条带有七种基本情绪和三种情感极性的对话语句，为研究者提供了真实场景下的多说话人情感表达样本。其经典使用场景集中于训练和评估语音情感识别模型，通过融合音频频谱特征与文本语义信息，实现对对话中细微情感变化的精准捕捉，推动了多模态情感分析技术的发展。

解决学术问题

MELD_audio数据集有效解决了多模态情感识别中数据稀缺与标注不一致的学术难题。传统情感识别研究常受限于单一模态或人工合成数据，难以反映真实对话的复杂性。该数据集通过提供同步的音频、文本及精细的情感标签，支持了端到端的多模态融合模型研究，促进了跨模态特征对齐、上下文情感建模等关键问题的探索。其意义在于为情感计算领域建立了可重复的实验基准，显著提升了模型在复杂对话场景中的泛化能力与鲁棒性。

衍生相关工作

围绕MELD_audio数据集，学术界衍生出一系列经典研究工作。例如，多模态融合网络如MulT（Multimodal Transformer）利用其音频-文本对偶特征，实现了跨模态注意力机制的情感分类；图神经网络模型则基于对话结构建模说话人间的情绪传播动态。这些工作不仅优化了情感识别精度，还拓展至情感原因分析、情绪转移预测等子任务。同时，该数据集也催生了如EmotionNet等通用框架，为后续多模态学习研究提供了重要范式与灵感源泉。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集