Human-MME

github2025-10-13 更新2025-10-14 收录

下载链接：

https://github.com/Yuan-Hou/Human-MME

下载链接

链接失效反馈

官方服务：

资源简介：

Human-MME是一个全面的评估基准，旨在评估多模态大语言模型在以人为本场景中的能力，涵盖了广泛的任务

Human-MME is a comprehensive evaluation benchmark designed to evaluate the capabilities of multimodal large language models in human-centric scenarios, covering a wide range of tasks.

创建时间：

2025-09-28

原始信息汇总

Human-MME 数据集概述

数据集简介

Human-MME 是一个综合性评估基准，专门用于评估多模态大语言模型在以人为本场景中的能力。该基准涵盖广泛的任务范围。

数据集结构

数据集包含以下主要目录：

final_qa/
final_labeling/
mllm_models/

评估指标

数据集包含8个核心评估维度：

FU（功能理解）
BU（行为理解）
HU（人类理解）
MIU（多模态交互理解）
MPR（多模态模式识别）
ID（身份识别）
CD（上下文理解）
ED（情感理解）

性能排行榜

开源模型性能

模型	FU	BU	HU	MIU	MPR	ID	CD	ED	平均分
GLM-4.5V	61.6	77.4	82.5	79.2	71.5	83.9	85.4	66.6	76.0
Qwen2.5-VL-72B	61.1	70.2	70.6	75.4	65.2	88.1	86.3	65.3	72.8

专有模型性能

模型	FU	BU	HU	MIU	MPR	ID	CD	ED	平均分
Gemini-2.5-Pro	42.4	66.5	70.0	83.6	58.9	79.4	86.1	64.5	68.9
GPT-4o	28.8	58.8	59.8	74.7	41.4	79.2	76.2	52.7	59.0

数据获取

数据集可通过以下链接获取： https://huggingface.co/datasets/Yuanhou/Human-MME/blob/main/Human-MME_data.zip

搜集汇总

数据集介绍

构建方式

在人工智能多模态研究领域，Human-MME基准数据集通过系统化方法构建而成。该数据集整合了人类中心场景下的多样化任务，涵盖功能理解、行为理解、健康理解等八个核心维度。数据采集过程注重真实场景的覆盖度，通过精心设计的评估框架确保任务间的平衡性与代表性。数据预处理阶段采用标准化流程，保证标注质量与格式统一，最终形成结构化的问答对与标注数据集。

特点

Human-MME数据集展现出显著的多维度评估特性，其八个核心指标全面覆盖人类中心场景的关键能力。数据集在任务设计上体现了高度的专业性与系统性，每个维度都针对特定的认知能力进行精准测量。数据集的规模与多样性确保了评估结果的可靠性，同时保持了对不同模型架构的普适性。基准测试结果呈现清晰的性能分布，为模型比较提供了客观依据。

使用方法

使用该数据集进行模型评估需遵循标准化的技术流程。研究人员首先需要克隆项目仓库并配置运行环境，随后下载数据集文件并按照指定目录结构组织。模型集成环节要求开发者基于基类实现预测接口，并在评估脚本中完成注册。基准测试支持并行执行与断点续评功能，通过命令行参数灵活控制评估过程。结果生成后可通过专用命令计算各项指标，最终参与开源社区的排行榜比较。

背景与挑战

背景概述

随着多模态大语言模型在人工智能领域的快速发展，评估其在人类中心场景下的综合能力成为关键研究议题。Human-MME基准由研究团队于2024年通过学术论文正式提出，旨在系统评估模型在人体相关多模态任务中的表现。该数据集覆盖功能理解、行为解析、健康评估等八类核心任务，通过构建标准化测试框架推动模型在医疗辅助、人机交互等领域的实用化进程。

当前挑战

在解决人类中心多模态理解问题时，模型需克服细粒度语义对齐、动态行为时序推理等核心难题。数据集构建过程中面临多源数据融合的异构性挑战，包括医学图像与自然语言的跨模态标注一致性维护，以及隐私保护要求下真实人体数据的合规采集。此外，评估指标需平衡专业领域准确性与通用认知能力，这对标注体系的科学性与可扩展性提出了更高要求。

常用场景

经典使用场景

在人工智能领域，Human-MME作为专门针对以人为中心的多模态大语言模型的评估基准，其经典应用场景集中于系统性地测试模型在理解人类行为、情感及社会互动等方面的综合能力。该数据集通过设计涵盖面部表情识别、身体姿态分析、人际交互理解等多样化任务，为研究者提供了一个标准化的评估框架，用以精确衡量模型在复杂人类场景中的表现。

衍生相关工作

基于Human-MME基准，已衍生出多项创新性研究工作。例如，开源模型GLM-4.5V和专有模型Gemini-2.5-Pro均在数据集评估中展现了领先性能，推动了模型架构优化研究。后续工作进一步探索了多模态融合策略、跨任务迁移学习等方向，持续扩展了人类中心多模态推理的技术边界。

数据集最近研究