Human-MME

Name: Human-MME
Creator: 新加坡国立大学、腾讯优图实验室、南京大学
Published: 2025-09-30 20:20:57
License: 暂无描述

arXiv2025-09-30 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/Yuanhou/Human-MME

下载链接

链接失效反馈

官方服务：

资源简介：

Human-MME是一个用于评估多模态大语言模型（MLLMs）在以人为中心的场景理解能力的数据集。该数据集包含了43个细粒度的视觉场景，旨在支持全面的人类场景感知。数据集提供了多样化的评估维度，从以人为中心的细粒度感知到更高级别的多目标和因果推理。此外，数据集还包含了丰富的数据范式，包括选择、简答、排名、定位和判断等问题组件，以及复杂的问答对。数据集的创建过程包括了数据收集、自动标注、人工调整和问答设计等步骤。Human-MME旨在解决现有基准测试在以人为中心的场景理解方面的不足，为未来的MLLMs研究提供指导。

Human-MME is a dataset developed to evaluate the human-centric scene understanding capabilities of multimodal large language models (MLLMs). This dataset comprises 43 fine-grained visual scenes, intended to support comprehensive human scene perception. It offers diverse evaluation dimensions, spanning from human-centric fine-grained perception to high-level multi-objective and causal reasoning. Additionally, the dataset includes rich question paradigms, such as multiple-choice, short-answer, ranking, localization, and judgment question components, alongside complex question-answer pairs. The dataset creation process covers steps including data collection, automatic annotation, manual adjustment, and question design. Human-MME aims to address the limitations of existing benchmarks in human-centric scene understanding, providing guidance for future MLLM research.

提供机构：

新加坡国立大学、腾讯优图实验室、南京大学

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

Human-MME数据集通过多阶段流程构建，首先从Pexels、Pixabay和HICO-DET等来源收集16,765张高质量图像，并利用YOLOv11和图像哈希技术进行人体检测与去重。随后采用五步自动化标注流程：结合DWPose生成人体关键点与边界框，通过Qwen2.5-VL-72B提取人物属性、服饰及人-物交互关系，借助Grounding DINO定位交互对象，运用FaceXFormer分析面部特征，并融合视觉语言模型生成高阶语义标注。最终通过定制化人工审核平台对自动标注结果进行集群去重和实例级修正，确保标注精度并消除模型偏差。

特点

该数据集具备三大核心特征：场景多样性覆盖日常生活、工作、学习与娱乐四大领域下的43个子类视觉场景；评估维度呈现渐进式结构，从人脸理解、身体感知等细粒度任务延伸至多图像理解、因果推理等高层认知维度，包含八类评估方向与19,945对真实图像问答；数据范式丰富多元，突破单图像单人物限制，支持选择、排序、边界框定位等复合问答形式，并通过人工-自动化协同标注实现高质量语义与空间标注的融合。

使用方法

研究者可通过公开代码库加载基准测试工具，将多模态大语言模型与数据集的图像-问答对进行交互。评估时需遵循结构化提示模板，模型输出经正则表达式解析后，按问题类型采用差异化指标：选择题计算准确率，开放题结合BERT分数与嵌入相似度，定位题依据交并比，排序题使用肯德尔系数，判别类任务则综合精确率与召回率。该框架支持对模型在细粒度感知与高层推理能力的系统性诊断，为人类中心场景理解研究提供标准化测评环境。

背景与挑战

背景概述

Human-MME数据集于2025年由新加坡国立大学、腾讯优图实验室及南京大学联合发布，旨在系统评估多模态大语言模型在人本场景理解中的综合能力。该数据集聚焦于解决现有基准在人本细粒度感知与高阶因果推理评估方面的缺失，通过构建涵盖4大视觉领域、15个子领域及43个细粒度场景的多样化图像库，并设计包含19,945个真实图像-问题对的多维度评估体系，填补了人本多模态理解领域的评估空白。其创新性标注流程结合自动化流水线与人工专家修正，显著提升了数据质量与可靠性，为人本多模态研究提供了关键基础设施。

当前挑战

Human-MME面临的核心挑战包括两方面：在领域问题层面，需解决模型对人本场景中细粒度特征（如面部微表情、身体部位左右区分）的感知模糊性，以及高阶抽象推理（如意图推断、因果链分析）的认知鸿沟；在构建过程中，克服了人体物理复杂性导致的标注困难，通过融合多阶段自动标注（如YOLOv11检测、FaceXFormer属性分析）与人工校验平台，有效平衡了标注规模与精度需求，但模型对左右手判别、多条件判断任务的表现仍暴露出现有技术的局限性。

常用场景

经典使用场景

在人类中心多模态大语言模型研究领域，Human-MME数据集作为综合性评估基准，其经典应用场景聚焦于系统化评测模型对人类中心图像的渐进式理解能力。该数据集通过构建涵盖面部理解、身体感知、人机交互、多图像理解等八个维度的评估框架，为研究者提供了从细粒度特征识别到高阶因果推理的全方位测试环境。其精心设计的19,945个真实世界图像问答对，使得模型能够在多样化的人类场景中接受严格检验，成为推动人类中心视觉理解技术发展的关键基础设施。

解决学术问题

Human-MME数据集有效解决了多模态大语言模型在人类中心场景理解中的核心学术难题。通过构建覆盖43个细粒度视觉场景的评估体系，该数据集突破了传统基准在人类导向细粒度和高维因果推理能力评估上的局限。其创新性的渐进式评估维度设计，使得研究者能够系统分析模型从基础感知到复杂推理的能力边界，特别是在左右身体部位区分、意图与情感判别等关键任务上的表现差异，为模型架构优化和训练策略改进提供了重要理论依据。

衍生相关工作

基于Human-MME数据集的研究已催生多项重要衍生工作。在模型架构方面，推动了专门针对人类细粒度理解的视觉编码器设计；在训练策略上，启发了基于人类特征对齐的多任务学习框架；在评估方法领域，衍生出更精细的人类中心能力诊断工具。这些工作共同构建了人类中心多模态理解的研究生态，其中GLM-4.5V在细粒度定位任务上的优异表现，以及Qwen2.5-VL-72B在高阶推理任务上的突破，都体现了该数据集对领域发展的深远影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集