five

EEmo-Bench

收藏
arXiv2025-04-23 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16405v1
下载链接
链接失效反馈
官方服务:
资源简介:
EEmo-Bench是由上海交通大学研究团队创建的一个专门用于评估多模态大型语言模型在图像引发的情绪分析能力的基准。该数据集包含1960张涵盖广泛内容类别的图像,经人工标注,具有情绪排名、效价、唤醒度和支配度等情感属性。它旨在通过四项任务——感知、排名、描述和评估,对多模态大型语言模型进行全面的评估,以提升模型在图像引发的情绪感知和理解能力。

EEmo-Bench is a benchmark developed by the research team at Shanghai Jiao Tong University, specifically designed to evaluate the emotion analysis capabilities of multimodal large language models triggered by images. This dataset contains 1,960 images covering a wide range of content categories, which have been manually annotated with emotional attributes including emotion ranking, valence, arousal, and dominance. It aims to comprehensively evaluate multimodal large language models through four tasks: perception, ranking, description and assessment, so as to enhance the models' abilities in image-triggered emotion perception and understanding.
提供机构:
上海交通大学
创建时间:
2025-04-23
搜集汇总
数据集介绍
main_image_url
构建方式
EEmo-Bench数据集构建采用多模态情感分析框架,通过Flickr平台收集1,960张涵盖七种基本情绪类别的图像,并基于Valence-Arousal-Dominance (VAD)模型进行人工标注。标注过程包含两个核心任务:情感强度排序(选取前三种主要情绪并按强度降序排列)和VAD属性评分(采用SAM 9点量表)。为确保数据多样性,图像覆盖动物、自然景观等六类内容主题,并通过15名参与者的多轮标注及冲突消解机制保证标注质量。最终构建的6,773组问答对支持四类评估任务,形成系统性评估体系。
特点
该数据集的核心特征体现在三维度情感建模:1) 采用Ekman基本情绪理论结合中性状态,构建七类情感标签体系;2) 创新性引入情感强度排序策略,捕捉主次情绪层次关系;3) 整合VAD模型量化情感属性,实现效价-激活-支配力的多维度解析。数据分布方面,各情绪类别占比均衡(14%-17%),且通过图像配对设计支持比较分析。区别于传统单模态情感数据集,EEmo-Bench首次实现了对多模态大语言模型在图像诱发情绪理解能力的细粒度评估。
使用方法
使用EEmo-Bench需遵循四阶段评估框架:1) 感知任务通过单选/开放性问题测试模型对单图/图对的情感识别能力;2) 排序任务要求模型输出情绪强度序列,采用加权Kendall Tau系数评估;3) 描述任务通过生成式回答分析情感诱因,基于完整性-准确性-相关性三维度评分;4) 评估任务利用关键词概率映射预测VAD分值。实验需采用Deepseek-V3辅助的5轮一致性验证机制处理输出变异,对于开源模型建议加载transformers架构实现VAD量化预测模块。
背景与挑战
背景概述
EEmo-Bench是由上海交通大学的研究团队于2025年推出的多模态大语言模型(MLLMs)评估基准,专注于图像诱发情感分析领域。该数据集由Lancheng Gao、Xiongkuo Min等学者共同构建,旨在解决当前MLLMs在情感理解任务中存在的粒度粗糙、评估不系统等问题。数据集包含1,960张跨内容类别的图像和6,773个人工标注的问答对,创新性地采用情感排序策略和VAD(Valence-Arousal-Dominance)三维情感模型作为评估框架。作为首个系统评估图像诱发情感理解能力的基准,EEmo-Bench通过感知、排序、描述和评估四类任务,推动了人机交互、广告推荐等应用场景中MLLMs共情能力的发展。
当前挑战
EEmo-Bench主要应对两大核心挑战:在领域问题层面,传统图像情感分析存在情感表征单一(仅关注优势情感)、维度不完整(忽略唤醒度和支配度)的问题,且个体情感反应的差异性导致标注一致性难以保证;在构建过程层面,需解决VAD维度量化中的主观偏差控制、多情感强度排序的标准化标注,以及图像对比较任务中情感属性的细粒度对比等难题。此外,数据收集需平衡七种基本情感类别的样本分布,并确保跨内容类别(如动物、自然景观等)的情感多样性,这对标注流程设计和质量控制提出了极高要求。
常用场景
经典使用场景
EEmo-Bench数据集专注于评估多模态大语言模型(MLLMs)对图像引发情感的理解能力,其经典使用场景包括情感感知、情感排序、情感描述和情感评估。通过精心设计的四个任务,该数据集能够全面评估MLLMs在单张图像和图像对分析中的情感理解能力,特别是在情感多样性及情感强度排序方面的表现。
解决学术问题
EEmo-Bench解决了当前情感分析研究中存在的两个主要问题:一是情感评估的粒度较粗,缺乏对情感多样性和强度的细致分析;二是现有基准主要关注情感效价(valence),而忽略了情感唤醒度(arousal)和支配度(dominance)等关键维度。通过引入情感排序策略和VAD模型,该数据集提供了更全面和系统的情感评估框架,填补了学术研究的空白。
衍生相关工作
EEmo-Bench的推出激发了多个相关研究方向的进展,例如基于情感排序的多模态情感分析、结合VAD模型的情感属性预测,以及针对图像对的情感比较分析。这些衍生工作进一步推动了MLLMs在情感理解领域的应用和发展,为后续研究提供了重要的基准和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作