MECAD
收藏arXiv2025-08-26 更新2025-08-28 收录
下载链接:
https://arxiv.org/abs/2508.18740
下载链接
链接失效反馈官方服务:
资源简介:
MECAD是一个包含56部电视剧中989个对话的MECTEC数据集,涵盖了广泛的对话场景。该数据集为每个话语标注了情感标签、原因及其类型,以及标注的模态。MECAD为评估MECTEC模型的性能和泛化能力提供了有力支持。
MECAD is a MECTEC dataset containing 989 dialogues from 56 television series, covering a wide range of conversational scenarios. Each utterance in this dataset is annotated with emotional labels, their underlying causes and corresponding types, as well as the annotation modalities. MECAD provides robust support for evaluating the performance and generalization ability of MECTEC models.
提供机构:
同济大学,上海,中国
创建时间:
2025-08-26
原始信息汇总
M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations
数据集概述
- 数据集名称: MECAD
- 研究任务: 多模态对话中的情绪原因三元组提取(MECTEC)
- 主要贡献: 首个多模态、多场景的MECTEC数据集
数据集详情
- 数据规模: 989个对话
- 数据来源: 56部电视剧
- 场景特点: 涵盖广泛的对话语境
技术方法
- 模型名称: M3HG
- 核心创新:
- 显式建模情绪和因果语境
- 通过多模态异构图融合 utterance 间和 utterance 内的上下文信息
- 有效融合不同层次的语义信息
实验结果
- 通过大量实验证明M3HG相比现有最先进方法的有效性
资源获取
- 代码和数据集: https://arxiv.org/abs/2508.18740
- 论文: 被ACL 2025 Findings接收(16页,8图)
出版信息
- arXiv ID: 2508.18740
- 学科分类: 计算语言学(cs.CL)、人工智能(cs.AI)
- 提交日期: 2025年8月26日
- 期刊引用: Findings of ACL 2025, 11416-11431页
搜集汇总
数据集介绍

构建方式
MECAD数据集构建过程严谨,基于56部中国电视剧的989个对话片段,涵盖多样化场景。数据源自公开的M3ED数据集,通过时间戳匹配收集对应视频片段,形成包含文本、音频和视频的多模态对话。标注工作由10名心理学专业研究生完成,采用多数投票和一致性校验机制确保质量,科恩卡帕系数达到0.6932,统计可靠性显著。
特点
该数据集具备多模态、多场景和细粒度标注特点,包含10,519个语句,标注情感类别、原因语句及原因类型(如事件、表达)。情感原因36.1%依赖音频和视频模态,突显多模态研究的必要性。对话场景覆盖家庭、职场等多元语境,支持跨文化情感分析,为模型泛化性提供坚实基础。
使用方法
MECAD专为多模态情感原因三元组提取任务设计,支持端到端模型训练与评估。研究者可提取文本、音频和视频特征,构建异质图网络建模语句间情感-原因关联。数据集提供标准训练、验证和测试划分,适用于情感分类、原因抽取及三元组联合提取任务,推动社交媒体情感分析的发展。
背景与挑战
背景概述
MECAD数据集由同济大学研究团队于2025年构建,是首个面向多模态对话场景的中文情感原因三元组抽取数据集。该数据集涵盖56部电视剧的989段对话,包含10,519条多模态话语标注,突破了现有数据集场景单一性的局限。其核心研究在于解决多模态情感原因分析中的语义融合与上下文建模问题,为社交媒体情感计算提供了重要的基准资源。
当前挑战
领域挑战体现在多模态情感原因三元组抽取需同时处理文本、音频和视频的异构信息融合,以及跨话语的因果推理。构建挑战包括多模态数据对齐困难、标注一致性保障(Fleiss‘s Kappa=0.6932),以及后置原因话语的标注复杂性(数据中14.3%的因果对存在时间逆序)。
常用场景
经典使用场景
在社交媒体情感分析领域,MECAD数据集被广泛应用于多模态对话中的情感原因三元组提取任务。该数据集通过整合文本、音频和视频模态信息,支持模型同时识别情感表达语句、原因语句及情感类别,为复杂对话场景中的情感归因机制研究提供了重要数据基础。
衍生相关工作
基于MECAD衍生的经典工作包括多模态异质图神经网络M3HG,其通过显式建模情感与原因上下文关系推动了端到端三元组提取框架的发展。后续研究进一步扩展了跨模态注意力机制和对话级语义融合技术,促进了多尺度情感计算模型的创新。
数据集最近研究
最新研究方向
在对话情感分析领域,MECAD数据集的推出显著推动了多模态情感原因三元组提取任务的发展。该数据集涵盖56部电视剧的989个对话,突破了以往数据在场景单一性上的局限,为模型提供了更丰富的跨模态上下文信息。当前研究聚焦于构建多尺度异质图神经网络,通过显式建模情感与因果上下文关系,整合语句内与语句间的多粒度语义信息。这一方向不仅解决了原因语句滞后于情感语句的识别难题,更通过融合文本、音频与视觉模态的特征,提升了复杂社交对话中情感归因的准确性,为社交媒体情感计算提供了重要的理论基础与技术支撑。
相关研究论文
- 1M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations同济大学,上海,中国 · 2025年
以上内容由遇见数据集搜集并总结生成



