EmoBench-M

github2025-07-11 更新2025-07-12 收录

下载链接：

https://github.com/Emo-gml/EmoBench-M

下载链接

链接失效反馈

官方服务：

资源简介：

EmoBench-M是一个基于情感智力（EI）心理学理论的综合基准，旨在评估多模态大型语言模型（MLLMs）在视频、音频和文本中的情感智力能力。它涵盖13种不同的场景，包括基础情感识别、对话情感理解和社会复杂情感分析三个关键维度，包含超过5000个精心策划的样本，涵盖广泛的现实情感背景。

EmoBench-M is a comprehensive benchmark grounded in the psychological theory of emotional intelligence (EI), designed to evaluate the emotional intelligence capabilities of multimodal large language models (MLLMs) across video, audio and text modalities. It encompasses 13 distinct scenarios spanning three core dimensions: basic emotion recognition, conversational emotion understanding, and complex social emotion analysis, with over 5,000 meticulously curated samples covering a broad range of real-world emotional contexts.

创建时间：

2025-07-05

原始信息汇总

EmoBench-M 数据集概述

数据集简介

名称：EmoBench-M
目的：评估多模态大语言模型(MLLMs)在动态多模态环境中理解人类情感的能力
理论基础：基于心理学的情感智能(EI)理论
论文：EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models

数据集维度

基础情感识别(Foundational Emotion Recognition)
对话情感理解(Conversational Emotion Understanding)
社会复杂情感分析(Socially Complex Emotion Analysis)

数据集规模

覆盖13个多样化场景
包含超过5000个精心筛选的样本

任务类型

分类任务
生成任务

数据集结构

bash EmoBench-M/ ├── benchmark_json/ # 包含各数据集的元数据和标注JSON文件 │ ├── FGMSA_test_instruction.json
│ ├── MC-EIU-test_500.json
│ ├── MELD_test_instruction.json
│ ├── MOSEI_test_500.json
│ ├── MOSI_test_500.json
│ ├── MUSTARD_500.json
│ ├── RAVDSS_song_500.json
│ ├── RAVDSS_speech_500.json
│ ├── SIMS_test_500.json
│ ├── ch-simsv2s_test_500.json
│ ├── funny_test_instruction.json
│ ├── mer2023_test1_instruction.json │ └── smile_test_data.json
└── dataset_500/ # 各数据集对应的视频文件 ├── FGMSA_test_instruction/ ├── MC-EIU-test_500/ ├── MELD_test_instruction/ ├── MOSEI_test_500/ ├── MOSI_test_500/ ├── MUSTARD_500/ ├── RAVDSS_song_500/ ├── RAVDSS_speech_500/ ├── SIMS_test_500/ ├── ch-simsv2s_test_500/ ├── funny_test_instruction/ ├── mer2023_test1_instruction/ └── smile_test_data/

评估任务

分类任务
- 命令：python eval.py classification --json results.json --output classification.json
- 适用数据集：除MC-EIU-test_500.json和smile_test_data.json外的所有数据集
联合情感+意图任务
- 命令：python eval.py joint --json emotions.json --output joint.json
- 适用数据集：MC-EIU-test_500.json
生成任务
- 命令：python eval.py generation --json gen.json --output generation.json
- 适用数据集：smile_test_data.json

数据获取

下载地址：Google Drive

引用格式

bibtex @article{hu2025emobench, title={EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models}, author={Hu, He and Zhou, Yucheng and You, Lianzhong and Xu, Hongbo and Wang, Qianning and Lian, Zheng and Yu, Fei Richard and Ma, Fei and Cui, Laizhong}, journal={arXiv preprint arXiv:2502.04424}, year={2025} }

搜集汇总

数据集介绍

构建方式

EmoBench-M数据集的构建基于心理学情感智能理论，通过精心筛选13种多样化场景，覆盖视频、音频和文本三种模态。研究团队从公开的多模态情感数据集中提取样本，并经过严格的人工标注和校验，确保数据质量。数据集包含超过5000个样本，每个样本均配有对话式提示和情感标签，采用JSON格式结构化存储，便于机器解析和处理。视频文件与标注数据通过统一命名规范关联，形成完整的多模态情感分析基准。

使用方法

使用EmoBench-M需先从Google Drive下载原始视频及对应JSON标注文件。数据集提供标准化的评估脚本eval.py，支持分类、联合情感意图识别和生成三种任务的自动化评估。研究人员需根据任务类型准备特定格式的JSON输入文件，包含模型预测结果与真实标签。评估脚本将输出准确率、BLEU等标准化指标，支持单任务独立评估或多任务批量执行。数据集目录结构清晰，按场景分类存储视频文件，配套的元数据文件详细说明各样本的情感维度和评估标准。

背景与挑战

背景概述

EmoBench-M是由Hu等人于2025年提出的多模态大语言模型情感智能评估基准，其研究背景源于心理学领域的情感智能理论。该数据集由13种多样化场景构成，覆盖情感识别的三个核心维度：基础情感识别、对话情感理解和社会复杂情感分析。研究团队通过精心筛选的5000余个多模态样本，系统评估了包括Qwen2.5-VL、Gemini 2.0 Flash等前沿模型在视频、音频和文本模态下的情感理解能力。作为首个基于心理学理论构建的多模态情感评估体系，EmoBench-M为人工智能情感计算领域建立了标准化评估框架，揭示了当前模型在复杂社交情境中情感推理的显著局限性。

当前挑战

EmoBench-M面临的双重挑战体现在问题解决与构建过程两个层面。在领域问题方面，多模态情感理解存在三大核心难题：跨模态情感表征对齐的复杂性、社交语境中隐含情感的细粒度识别、以及对话场景下的动态情感演变建模。构建过程中的技术挑战则包括：心理学理论到计算指标的转化验证、多源异构数据（如MELD、MOSEI等12个子集）的标准化处理、以及视频-文本标注对的情感维度一致性保障。实验数据表明，当前最优模型的平均表现（62.3%）仍显著低于人类基准（73.0%），尤其在社交复杂情感分析维度存在12.7%的性能差距，凸显了该领域的研究难度。

常用场景

经典使用场景

在情感计算与多模态人工智能研究领域，EmoBench-M数据集被广泛用于评估多模态大语言模型（MLLMs）的情感理解能力。该数据集通过视频、音频和文本三种模态，模拟真实场景中的情感交互，为研究者提供了标准化的测试平台。其经典使用场景包括模型在基础情感识别、对话情感理解和社会复杂情感分析三个维度的系统性评测，尤其适合验证模型在跨模态情感融合与细粒度情感推理方面的性能表现。

解决学术问题

EmoBench-M有效解决了多模态情感计算领域的关键学术问题：如何量化评估模型对复杂社会情境中情感线索的捕捉能力。基于心理学的情感智能理论框架，该数据集填补了现有基准在动态多模态情感理解任务上的空白，为探究模型规模与情感推理能力的非线性关系、跨文化情感表达的泛化性等核心问题提供了实证基础。其精心设计的5000余个样本覆盖13种现实场景，显著提升了情感计算研究的可解释性与可比性。

实际应用

在实际应用层面，EmoBench-M为开发具有情感交互能力的AI系统提供了重要支撑。智能客服系统可借助该数据集优化情感响应机制，教育科技领域能据此构建更具共情的虚拟教师，而心理健康应用则可通过基准测试提升情感陪伴机器人的情境理解能力。数据集包含的中英双语样本特别有利于跨文化情感计算研究，在全球化人机交互产品开发中展现出独特价值。

数据集最近研究