MME-Emotion

github2025-08-19 更新2025-08-22 收录

下载链接：

https://github.com/FunAudioLLM/MME-Emotion

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Emotion是一个用于评估多模态大语言模型情感智能的系统性基准测试，包含6,500个精选视频片段和任务特定的问答对，涵盖广泛场景以构建8个情感任务。该基准测试具有可扩展能力、多样化设置和统一协议，是MLLMs领域最大的情感智能基准测试

MME-Emotion is a systematic benchmark for evaluating the emotional intelligence of multimodal large language models. It contains 6,500 curated video clips and task-specific question-answer pairs, covering a wide range of scenarios to establish 8 emotional tasks. This benchmark features scalability, diverse experimental settings and a unified evaluation protocol, making it the largest emotional intelligence benchmark in the MLLMs field.

创建时间：

2025-08-19

原始信息汇总

MME-Emotion 数据集概述

数据集基本信息

数据集名称：MME-Emotion
核心目标：评估多模态大语言模型（MLLMs）在情感智能方面的理解和推理能力
数据规模：6,500个精选视频片段，附带任务特定的问答对
任务范围：涵盖8种情感任务，涉及广泛场景

主要任务类型

视频问答（Video QA）
情感推理（Emotion Reasoning）
情感识别（Emotion Recognition）

评估体系

评估指标：
- 识别分数（Recognition Score）
- 推理分数（Reasoning Score）
- 思维链分数（CoT Score）
评估框架：采用多智能体系统框架进行分析
验证方式：由五位人类专家全面验证评估策略的有效性

数据集特点

可扩展能力：支持大规模评估
多样化设置：覆盖广泛场景
统一协议：采用标准化的评估流程

评估模型

已系统评估20个开源和闭源的前沿多模态大语言模型，包括：

GPT-4
Gemini
Qwen-VL

引用信息

latex @article{zhang2025mme, title={MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models}, author={Zhang, Fan and Cheng, Zebang and Deng, Chong and Li, Haoxuan and Lian, Zheng and Chen, Qian and Liu, Huadai and Wang, Wen and Zhang, Yi-Fan and Zhang, Renrui and others}, journal={arXiv preprint arXiv:2508.09210}, year={2025} }

搜集汇总

数据集介绍

构建方式

在情感计算领域，MME-Emotion数据集的构建体现了系统化的工程思维。该数据集精选了6,500个视频片段，每个片段均配有任务导向的问答对，覆盖八种不同的情感任务场景。构建过程中注重场景多样性与协议统一性，通过多模态数据融合与人工校验确保数据质量，为评估多模态大语言模型的情感智能提供了坚实基础。

特点

MME-Emotion数据集展现出三大核心特征：规模可扩展性、场景多样性及评估统一性。作为当前最大的多模态情感智能基准，它不仅涵盖广泛的情感识别与推理任务，还引入了多智能体评估框架，结合识别分数、推理分数及思维链分数三项指标，全面衡量模型的情感理解深度与逻辑推理能力。

使用方法

该数据集的使用遵循结构化评估流程。用户首先通过指定脚本提取模型响应中的关键步骤，随后调用评估模块结合视频数据与预提取的音频线索进行性能分析。最终通过指标计算脚本输出综合评分，支持对多模态大语言模型在情感识别与推理任务上的系统化评测与比较。

背景与挑战

背景概述

情感计算作为人工智能领域的重要分支，近年来因多模态大语言模型的突破性进展而迎来新的发展机遇。2025年8月，由香港中文大学等机构的研究团队联合发布了MME-Emotion数据集，该数据集致力于系统评估多模态大语言模型在情感理解与推理方面的综合能力。作为当前规模最大的情感智能基准测试集，它包含6,500个精选视频片段及对应的问答对，涵盖八类情感任务，旨在探索模型在不同场景下的泛化能力及其对情感触发因素的推理机制，为情感计算领域的标准化评估提供了重要支撑。

当前挑战

MME-Emotion数据集主要应对多模态情感理解中的两大核心挑战：一是模型在多样化情境下情感识别与推理的泛化能力不足，二是现有基准缺乏对情感触发因素的深层机制解析。在构建过程中，研究团队需克服多模态数据对齐、高质量情感标注的一致性保障，以及复杂场景下视频-音频-文本三元协同表示的技术难题，同时还需设计统一且可扩展的评估协议以确保评测结果的可靠性与可比性。

常用场景

经典使用场景

在情感计算领域，MME-Emotion数据集通过精心设计的视频问答任务，为多模态大语言模型的情感理解能力提供系统性评估框架。该数据集涵盖6500个标注视频片段及其对应的问题-答案对，模型需同时解析视觉、听觉和文本线索来识别复杂情感状态，并推断情感产生的因果关系。这种多模态融合的评估方式能全面检验模型在真实场景中的情感认知泛化能力。

实际应用

在实际应用层面，该数据集支撑的模型评估体系可直接服务于智能心理咨询、人机交互情感适配、沉浸式教育等场景。通过精准评估模型的情感推理能力，能为医疗健康领域开发具有共情能力的数字助手提供技术验证，同时在自动驾驶系统中提升对驾驶员情绪状态的感知精度，增强交通安全系统的预警能力。

衍生相关工作

基于该数据集衍生的研究已推动多模态情感计算向可解释性方向发展，催生了包括情感因果图谱构建、多模态对抗样本检测等一系列创新工作。其在Leaderboard中评估的20个前沿模型（如GPT-4、Gemini和Qwen-VL）的性能对比，为后续研究提供了重要基线，促进了开源模型在情感推理任务上的迭代优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集