five

NUSTM/ECF

收藏
Hugging Face2025-04-26 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/NUSTM/ECF
下载链接
链接失效反馈
官方服务:
资源简介:
《Friends》电视剧对话中的多模态情感-原因对数据集,包含9,794个情感-原因对,分布在13,619个话语中,适用于多模态情感-原因对提取任务。

A multimodal emotion-cause pair dataset in the Friends sitcom conversations, containing 9,794 emotion-cause pairs distributed across 13,619 utterances, suitable for the task of multimodal emotion-cause pair extraction.
提供机构:
NUSTM
搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算与对话分析领域,Emotion-Cause-in-Friends (ECF) 数据集的构建体现了多模态融合与精细标注的学术追求。该数据集基于经典电视剧《老友记》的对话内容,从 MELD 数据集中衍生而来,并通过人工标注进行了深度扩展与修正。构建过程中,研究团队不仅对原始文本进行了编辑与调整,还重新校准了时间戳,并新增了部分话语,以确保情感与原因对标注的准确性与一致性。最终形成了包含 1,374 段对话、13,619 条话语的语料库,其中情感-原因对标注达 9,794 组,为多模态情感原因分析提供了扎实的数据基础。
特点
ECF 数据集的核心特点在于其多模态性与任务导向的丰富标注。该数据集不仅提供文本对话,还融合了语音与视觉特征,其中语音特征通过 openSMILE 提取为 6373 维向量,视觉特征则经由 3D-CNN 编码为 4096 维表示,共同支撑跨模态情感分析。数据标注涵盖了情感识别、原因跨度抽取及情感-原因对提取等多重任务,尤其为 SemEval 2024 任务 3 提供了扩展测试集。值得注意的是,数据集在构建时对原始内容进行了时序修正与内容增删,确保了标注质量与时效性,使其成为当前对话情感原因分析领域的重要资源。
使用方法
为有效利用 ECF 数据集,研究者可根据需求选择不同的数据模态与处理方式。若侧重特征分析,可直接使用官方提供的预提取语音与视觉嵌入向量,快速构建多模态模型。如需原始多模态数据,可参照数据集与 MELD 的对应关系获取视频片段,或依据提供的时间戳使用 FFmpeg 工具从《老友记》原片中提取音视剪辑。在任务应用上,该数据集支持情感识别、原因抽取及情感-原因对提取等系列任务,用户可依据标准划分的训练、开发与测试集进行模型训练与评估,并通过公开的 GitHub 仓库获取详细代码与数据对应指南。
背景与挑战
背景概述
情感计算领域长期致力于理解人类交互中的情感动态,其中对话情境下的情感归因分析尤为关键。南京理工大学智能计算实验室于2023年发布了Emotion-Cause-in-Friends(ECF)数据集,旨在推动多模态情感-原因对抽取任务的研究。该数据集基于经典情景喜剧《老友记》构建,包含1,374段对话、13,619条话语及9,794对情感-原因标注,为探究多模态信息在情感因果推理中的作用提供了重要资源。ECF不仅支持情感识别、原因跨度抽取等传统任务,更通过融合文本、音频与视觉特征,促进了跨模态因果关联建模的深入探索,对对话情感分析领域产生了显著影响。
当前挑战
ECF数据集致力于解决多模态对话中情感原因联合抽取的复杂问题,其核心挑战在于如何精准建模跨模态的因果依赖关系。情感表达常通过语调变化或面部表情传递,而原因可能隐含于对话上下文的语义转折中,这要求模型具备跨模态对齐与推理能力。在构建过程中,研究者面临多重困难:原始视频材料因版权限制无法直接分发,需依赖特征提取或用户自行处理;数据标注需协调情感类别与原因片段的精细对应,且部分话语经过文本修正与时间戳调整,增加了与基础数据集MELD的映射复杂度。此外,多模态特征的高维异构性也为模型融合带来了技术挑战。
常用场景
经典使用场景
在情感计算与自然语言处理领域,ECF数据集为多模态情感-原因对提取任务提供了关键支持。该数据集基于经典电视剧《老友记》构建,涵盖文本、音频和视觉模态,旨在从对话中识别情感表达并定位其触发原因。经典使用场景包括训练模型以分析对话中的情感动态,通过多模态特征融合,精准捕捉情感与原因之间的复杂关联,为情感理解研究奠定数据基础。
衍生相关工作
围绕ECF数据集,已衍生出多项经典研究工作,如基于多模态融合的情感-原因对提取模型MECPE,该工作首次将文本、音频和视觉特征整合用于对话情感分析。此外,SemEval-2024竞赛以ECF为基础设立了多模态情感原因分析任务,吸引了全球团队参与,推动了注意力机制、图神经网络等先进方法在情感因果推理中的创新应用,进一步丰富了该领域的研究生态。
数据集最近研究
最新研究方向
在情感计算领域,ECF数据集作为首个多模态对话情感-原因对提取基准,正推动着前沿研究向跨模态因果推理深化。其构建基于经典剧集《Friends》,融合文本、音频与视觉特征,为探究对话中情感触发机制提供了丰富资源。当前热点聚焦于多模态融合与因果建模,研究者借助深度学习模型,如注意力机制与图神经网络,以精准识别并配对情感表达及其潜在原因。该数据集支撑的SemEval 2024竞赛任务,进一步促进了全球学者在情感原因分析方向的协作创新,对提升人机交互系统的共情能力具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作