MME-Emotion

github2025-07-02 更新2025-07-03 收录

下载链接：

https://github.com/zfkarl/MME-Emotion

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Emotion是一个系统性的基准测试，用于评估多模态大语言模型（MLLMs）的情感知觉和推理能力，具有可扩展性、多样化设置和统一协议。作为MLLMs最大的情感智力基准，MME-Emotion包含6,500个精选视频剪辑，涵盖广泛场景，形成8个情感任务。

MME-Emotion is a systematic benchmark designed to evaluate the emotional perception and reasoning capabilities of Multimodal Large Language Models (MLLMs), featuring scalability, diverse settings, and a unified protocol. As the largest emotional intelligence benchmark for MLLMs, MME-Emotion encompasses 6,500 carefully selected video clips across a wide range of scenarios, forming eight emotional tasks.

创建时间：

2025-07-02

原始信息汇总

MME-Emotion数据集概述

数据集简介

名称：MME-Emotion
类型：多模态大型语言模型（MLLMs）情感智能评估基准
规模：包含6,500个精选视频片段及任务特定的问答对
任务范围：涵盖8种情感任务，涉及广泛场景

核心特点

评估维度：
- 情感理解能力
- 情感推理能力
评估指标：
- 识别分数（Recognition Score）
- 推理分数（Reasoning Score）
- 思维链分数（CoT Score）
验证方式：通过多智能体系统框架分析，并由五位人类专家验证

技术实现

评估流程：
1. 从MLLM获取响应
2. 提取关键步骤
3. 评估性能
4. 计算最终指标
工具支持：提供完整的Python评估脚本链

模型评估

覆盖范围：系统评估了20个开源和闭源的前沿MLLMs
性能展示：提供整体性能比较和任务级性能比较的可视化结果

应用场景

多模态情感计算研究
MLLMs情感智能基准测试
情感识别与推理算法开发

联系方式

联系邮箱：zfkarl1998@gmail.com
联系事项：排行榜贡献或问题反馈

搜集汇总

数据集介绍

构建方式

在情感计算领域，MME-Emotion数据集的构建采用了系统化的方法，通过精心筛选6,500个视频片段，并结合任务特定的问答对，覆盖了广泛的场景以形成8种情感任务。数据集的构建不仅注重多样性，还特别强调了对多模态大语言模型（MLLMs）情感理解和推理能力的评估。通过多智能体系统框架，数据集进一步整合了识别分数、推理分数和思维链分数三种评价指标，确保了评估的全面性和科学性。

特点

MME-Emotion数据集作为当前最大的情感智能评测基准，具有可扩展性、多样化的设置和统一的评测协议。其独特之处在于能够评估MLLMs在不同情境下的泛化能力，以及识别情感状态触发因素的推理能力。数据集涵盖了丰富的情感任务，并通过多角度的评价指标，为研究者提供了一个全面、系统的评测平台。

使用方法

使用MME-Emotion数据集进行评测时，首先需要获取特定MLLM的答案和预提取的音频线索。随后，通过提取关键步骤和评估性能的脚本，对模型的表现进行量化分析。具体步骤包括运行提取关键步骤的Python脚本，以及使用GPT-4o进行评价的脚本。最终，通过计算各项指标，研究者可以全面了解模型在情感理解和推理方面的表现。

背景与挑战

背景概述

MME-Emotion是由研究团队于2024年提出的一个系统性评测基准，专注于评估多模态大语言模型（MLLMs）在情感智能方面的表现。该数据集由BradyFU等机构的研究人员开发，旨在解决当前情感计算领域中模型泛化能力和情感触发因素推理能力的评测空白。作为目前规模最大的情感智能评测基准，MME-Emotion包含了6,500个精选视频片段及对应的任务特定问答对，覆盖8种情感任务场景。该数据集的建立为多模态情感计算研究提供了标准化评测框架，推动了情感智能领域的发展。

当前挑战

MME-Emotion主要解决多模态情感理解与推理的两大核心挑战：模型在不同场景下的泛化能力评估，以及情感状态触发因素的推理能力评测。在构建过程中，研究团队面临视频数据标注一致性、多模态特征融合、以及复杂情感场景建模等关键技术难题。为确保评测效度，数据集采用三阶段评估体系（识别分数、推理分数和思维链分数），并经过五位领域专家的严格验证。此外，如何平衡数据集的规模与质量，以及设计具有区分度的评测指标，都是构建过程中需要克服的重要挑战。

常用场景

经典使用场景

在情感计算领域，MME-Emotion数据集为多模态大语言模型（MLLMs）的情感理解与推理能力提供了系统化评估框架。其包含6,500个精选视频片段及对应问答对，覆盖8类情感任务，通过视频问答、情感归因等任务设计，成为验证模型跨场景泛化能力和情感触发因素解析能力的黄金标准。数据集特有的多维度评估体系（识别分、推理分、思维链分）为模型性能提供了立体化度量。

实际应用

在实际应用中，MME-Emotion为智能客服、心理健康辅助诊断等场景提供了关键技术验证平台。基于其构建的评估体系能精准量化模型对用户微表情、语音语调等多模态情感线索的捕捉能力，显著提升了人机交互系统的共情水平。医疗领域借助该数据集的归因分析功能，可训练AI识别抑郁症患者的潜在情绪诱因，为数字化诊疗提供决策支持。

衍生相关工作

该数据集已催生多项突破性研究，包括基于多智能体框架的情感协同分析系统、跨模态情感知识蒸馏技术等。在MME-Emotion基准上验证的Gemini-1.5Pro情感推理架构，通过引入时空注意力机制将情绪识别准确率提升12.8%。开源社区据此发展的Qwen-VL-Emotion模型，首次实现了对复合情绪的层次化解析，相关成果发表于ACL等顶级会议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集