Human-MME
收藏github2025-10-13 更新2025-10-14 收录
下载链接:
https://github.com/Yuan-Hou/Human-MME
下载链接
链接失效反馈官方服务:
资源简介:
Human-MME是一个全面的评估基准,旨在评估多模态大语言模型在以人为本场景中的能力,涵盖了广泛的任务
Human-MME is a comprehensive evaluation benchmark designed to evaluate the capabilities of multimodal large language models in human-centric scenarios, covering a wide range of tasks.
创建时间:
2025-09-28
原始信息汇总
Human-MME 数据集概述
数据集简介
Human-MME 是一个综合性评估基准,专门用于评估多模态大语言模型在以人为本场景中的能力。该基准涵盖广泛的任务范围。
数据集结构
数据集包含以下主要目录:
- final_qa/
- final_labeling/
- mllm_models/
评估指标
数据集包含8个核心评估维度:
- FU(功能理解)
- BU(行为理解)
- HU(人类理解)
- MIU(多模态交互理解)
- MPR(多模态模式识别)
- ID(身份识别)
- CD(上下文理解)
- ED(情感理解)
性能排行榜
开源模型性能
| 模型 | FU | BU | HU | MIU | MPR | ID | CD | ED | 平均分 |
|---|---|---|---|---|---|---|---|---|---|
| GLM-4.5V | 61.6 | 77.4 | 82.5 | 79.2 | 71.5 | 83.9 | 85.4 | 66.6 | 76.0 |
| Qwen2.5-VL-72B | 61.1 | 70.2 | 70.6 | 75.4 | 65.2 | 88.1 | 86.3 | 65.3 | 72.8 |
专有模型性能
| 模型 | FU | BU | HU | MIU | MPR | ID | CD | ED | 平均分 |
|---|---|---|---|---|---|---|---|---|---|
| Gemini-2.5-Pro | 42.4 | 66.5 | 70.0 | 83.6 | 58.9 | 79.4 | 86.1 | 64.5 | 68.9 |
| GPT-4o | 28.8 | 58.8 | 59.8 | 74.7 | 41.4 | 79.2 | 76.2 | 52.7 | 59.0 |
数据获取
数据集可通过以下链接获取: https://huggingface.co/datasets/Yuanhou/Human-MME/blob/main/Human-MME_data.zip
搜集汇总
数据集介绍

构建方式
在人工智能多模态研究领域,Human-MME基准数据集通过系统化方法构建而成。该数据集整合了人类中心场景下的多样化任务,涵盖功能理解、行为理解、健康理解等八个核心维度。数据采集过程注重真实场景的覆盖度,通过精心设计的评估框架确保任务间的平衡性与代表性。数据预处理阶段采用标准化流程,保证标注质量与格式统一,最终形成结构化的问答对与标注数据集。
特点
Human-MME数据集展现出显著的多维度评估特性,其八个核心指标全面覆盖人类中心场景的关键能力。数据集在任务设计上体现了高度的专业性与系统性,每个维度都针对特定的认知能力进行精准测量。数据集的规模与多样性确保了评估结果的可靠性,同时保持了对不同模型架构的普适性。基准测试结果呈现清晰的性能分布,为模型比较提供了客观依据。
使用方法
使用该数据集进行模型评估需遵循标准化的技术流程。研究人员首先需要克隆项目仓库并配置运行环境,随后下载数据集文件并按照指定目录结构组织。模型集成环节要求开发者基于基类实现预测接口,并在评估脚本中完成注册。基准测试支持并行执行与断点续评功能,通过命令行参数灵活控制评估过程。结果生成后可通过专用命令计算各项指标,最终参与开源社区的排行榜比较。
背景与挑战
背景概述
随着多模态大语言模型在人工智能领域的快速发展,评估其在人类中心场景下的综合能力成为关键研究议题。Human-MME基准由研究团队于2024年通过学术论文正式提出,旨在系统评估模型在人体相关多模态任务中的表现。该数据集覆盖功能理解、行为解析、健康评估等八类核心任务,通过构建标准化测试框架推动模型在医疗辅助、人机交互等领域的实用化进程。
当前挑战
在解决人类中心多模态理解问题时,模型需克服细粒度语义对齐、动态行为时序推理等核心难题。数据集构建过程中面临多源数据融合的异构性挑战,包括医学图像与自然语言的跨模态标注一致性维护,以及隐私保护要求下真实人体数据的合规采集。此外,评估指标需平衡专业领域准确性与通用认知能力,这对标注体系的科学性与可扩展性提出了更高要求。
常用场景
经典使用场景
在人工智能领域,Human-MME作为专门针对以人为中心的多模态大语言模型的评估基准,其经典应用场景集中于系统性地测试模型在理解人类行为、情感及社会互动等方面的综合能力。该数据集通过设计涵盖面部表情识别、身体姿态分析、人际交互理解等多样化任务,为研究者提供了一个标准化的评估框架,用以精确衡量模型在复杂人类场景中的表现。
衍生相关工作
基于Human-MME基准,已衍生出多项创新性研究工作。例如,开源模型GLM-4.5V和专有模型Gemini-2.5-Pro均在数据集评估中展现了领先性能,推动了模型架构优化研究。后续工作进一步探索了多模态融合策略、跨任务迁移学习等方向,持续扩展了人类中心多模态推理的技术边界。
数据集最近研究
最新研究方向
在人工智能领域,Human-MME作为专注于人本场景的多模态大语言模型评估基准,正推动着模型在人类行为理解方面的深入研究。当前前沿探索聚焦于提升模型对复杂人类活动的多维度解析能力,涵盖功能理解、行为单元识别及情感动态分析等关键方向。随着Gemini-2.5-Pro等先进模型在基准测试中展现的突破性表现,学界正致力于解决多模态语义对齐、时序推理等核心挑战,这些进展对促进具身智能发展和人机交互系统的实际应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



