zrr1999/MELD_Text
收藏Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zrr1999/MELD_Text
下载链接
链接失效反馈官方服务:
资源简介:
MELD_Text数据集包含文本、情感和情绪特征。情感标签包括中性、喜悦、悲伤、愤怒、恐惧、厌恶和惊讶。情绪标签包括中性、积极和消极。数据集分为训练集、验证集和测试集,分别包含9989、1109和2610个样本。
MELD_Text数据集包含文本、情感和情绪特征。情感标签包括中性、喜悦、悲伤、愤怒、恐惧、厌恶和惊讶。情绪标签包括中性、积极和消极。数据集分为训练集、验证集和测试集,分别包含9989、1109和2610个样本。
提供机构:
zrr1999
原始信息汇总
数据集概述
数据集信息
- 配置名称: MELD_Text
特征信息
- 文本:
- 名称: text
- 数据类型: string
- 情感:
- 名称: emotion
- 数据类型: class_label
- 类别名称:
- 0: neutral
- 1: joy
- 2: sadness
- 3: anger
- 4: fear
- 5: disgust
- 6: surprise
- 情绪:
- 名称: sentiment
- 数据类型: class_label
- 类别名称:
- 0: neutral
- 1: positive
- 2: negative
数据分割
- 训练集:
- 名称: train
- 字节数: 608623
- 样本数: 9989
- 验证集:
- 名称: validation
- 字节数: 67287
- 样本数: 1109
- 测试集:
- 名称: test
- 字节数: 162746
- 样本数: 2610
数据集大小
- 下载大小: 1516414 字节
- 数据集大小: 838656 字节
搜集汇总
数据集介绍

构建方式
在情感计算与自然语言处理交叉领域,多模态情感分析数据集MELD(Multimodal EmotionLines Dataset)的纯文本子集MELD_Text应运而生。该数据集从原始多模态对话语料中提取文本模态,保留了Friends剧集中角色对话的时序结构,每个话语被标注为七种基础情感类别(中立、喜悦、悲伤、愤怒、恐惧、厌恶、惊讶)与三种情感极性(积极、消极、中立)。构建过程中,研究者将原始音频与视频特征剥离,仅保留纯净文本内容,形成标准化JSON结构,每个样本包含text字段与对应的emotion及sentiment标签。数据划分遵循原始MELD的三分方式,训练集包含9989条样本,验证集1109条,测试集2610条,总规模达83.8万字节。
特点
该数据集的核心价值在于其对话语境下的情感标注体系,每个话语的情感标签并非孤立存在,而是基于对话历史与社交互动的动态情感演化。七类细粒度情感与三类情感极性的双重标注架构,为从粗粒度到细粒度的情感分析研究提供了灵活选择。数据来源为情景喜剧《老友记》的剧本对话,具有自然口语化、情感表达丰富且贴近日常交流的特点,避免了人工构造语料的生硬感。此外,作为纯文本版本,MELD_Text消除了多模态特征对齐的复杂性,特别适用于基于Transformer架构的文本情感分析模型训练与评估。
使用方法
研究者可通过HuggingFace Datasets库直接加载该数据集,使用`load_dataset('zrr1999/MELD_Text')`命令即可获取完整数据。每个样本以字典形式呈现,包含'text'、'emotion'和'sentiment'三个键值对,其中情感标签以整数形式编码,对应预定义的类别名称。典型应用场景包括基于对话上下文的序列情感分类、情感极性分析以及对话情感动态建模。建议在使用时结合滑动窗口机制捕获局部对话语境,或采用BERT等预训练模型进行微调,以充分挖掘对话历史中的情感线索。数据集支持PyTorch和TensorFlow框架的标准DataLoader构建,便于集成到现有NLP流程中。
背景与挑战
背景概述
在情感计算与人机交互领域,多模态情感识别一直是研究的热点,然而文本模态作为情感表达的核心载体,其独立的情感分析能力仍面临诸多挑战。MELD_Text数据集由研究者从经典的MELD(Multimodal EmotionLines Dataset)多模态对话数据集中提取文本部分构建而成,旨在聚焦于纯文本环境下的情感与情绪识别任务。该数据集创建于近年,依托于对多模态情感分析研究的深入拓展,核心研究问题在于如何从对话文本中准确识别出七种基本情绪(如愤怒、喜悦、悲伤等)以及三种情感倾向(正面、负面、中性)。MELD_Text的发布为自然语言处理领域的情感分析研究提供了标准化的基准,尤其推动了对话系统中细粒度情绪理解的发展,对情感识别模型的评估与对比具有重要影响力。
当前挑战
MELD_Text数据集面临的核心挑战首先体现在领域问题的复杂性上:对话文本中情感的表达常依赖于上下文语境、说话人关系及非语言线索,仅凭文本内容难以捕捉讽刺、隐含情绪或跨句情感演变,导致多类别情绪分类的准确率受限。其次,在构建过程中,原始MELD数据集的文本提取需处理多模态对齐问题,如去除视频与音频特征后可能丢失的情感强化信息,同时需确保文本分段与情绪标签的一致性,避免因上下文截断引发的标签歧义。此外,数据集样本分布不均衡(如中性情绪占比过高)也加剧了模型训练的难度,使得少数类别的识别性能成为提升情感分析鲁棒性的关键瓶颈。
常用场景
经典使用场景
MELD_Text数据集作为多模态情感分析领域中的纯文本子集,其经典使用场景聚焦于对话系统中的单模态情感识别与情绪分类任务。该数据集源自《Friends》剧集对话,包含约1.37万条标注文本样本,每条样本同时携带七类细粒度情感标签(neutral、joy、sadness、anger、fear、disgust、surprise)与三类粗粒度情感倾向标签(neutral、positive、negative)。研究者常利用其丰富的标注层级,在对话上下文中训练文本情感分类模型,探索情感动态演变的规律,亦作为多模态融合研究中的文本基准分支。
解决学术问题
在学术研究中,MELD_Text有效解决了对话情感分析领域缺乏高质量纯文本标注语料的瓶颈问题。以往情感数据集多局限于单句或短文本,难以捕捉对话语境下情感流转的复杂性。该数据集通过提供多轮对话片段与情感标签的对应关系,使得研究者能够深入探究情感在对话交互中的触发、延续与转换机制。其双层级标注体系(情感与情绪倾向)更助力于细粒度情感识别与粗粒度情感分类之间的映射关系建模,推动了对话情感计算理论的发展。
衍生相关工作
MELD_Text衍生了一系列具有影响力的经典工作,包括基于Transformer架构的情感对话模型(如DialogueGCN、COSMIC),这些工作利用该数据集验证了图神经网络在对话情感推理中的有效性;此外,跨模态对齐研究也常以MELD为基准,将文本分支作为多模态融合的对照基线。在情绪标签分布不平衡问题方面,基于MELD_Text的类别平衡采样与对抗训练策略亦成为相关研究的重要参照,推动了对话情感识别鲁棒性的提升。
以上内容由遇见数据集搜集并总结生成



