five

lmms-lab/MME

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/MME
下载链接
链接失效反馈
官方服务:
资源简介:
--- size_categories: - 1K<n<10K configs: - config_name: default data_files: - split: test path: data/test-* dataset_info: features: - name: question_id dtype: string - name: image dtype: image - name: question dtype: string - name: answer dtype: string - name: category dtype: string splits: - name: test num_bytes: 1733070098.024 num_examples: 2374 download_size: 864018279 dataset_size: 1733070098.024 --- # Evaluation Dataset for MME

样本量区间: - 1000 < n < 10000 配置项: - 配置名称:default 数据文件: - 数据集划分:测试集(test) 路径:data/test-* 数据集信息: 特征: - 名称:问题ID(question_id) 数据类型:字符串 - 名称:图像(image) 数据类型:图像 - 名称:问题(question) 数据类型:字符串 - 名称:答案(answer) 数据类型:字符串 - 名称:类别(category) 数据类型:字符串 数据集拆分: - 名称:测试集(test) 字节数:1733070098.024 样本数量:2374 下载大小:864018279 数据集总大小:1733070098.024 # MME 评测数据集
提供机构:
lmms-lab
原始信息汇总

数据集概述

数据集大小

  • 数据集大小分类: 1K<n<10K
  • 下载大小: 864018279 字节
  • 数据集实际大小: 1733070098.024 字节

配置信息

  • 默认配置:
    • 数据文件路径: data/test-*
    • 数据分割: test

数据集信息

  • 特征:

    • question_id: 字符串类型
    • image: 图像类型
    • question: 字符串类型
    • answer: 字符串类型
    • category: 字符串类型
  • 数据分割:

    • test:
      • 样本数量: 2374
      • 字节数: 1733070098.024
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,MME数据集的构建遵循了系统化与多样化的原则。其核心方法在于精心设计了一系列涵盖感知与认知能力的多模态问题,这些问题与对应的图像样本紧密结合。具体而言,构建过程首先确立了包括物体识别、场景理解、文本识别及推理在内的多个关键评估维度,并为每个维度手工筛选或生成了具有代表性的图像-问题对。随后,通过人工标注或基于可靠知识库的验证,为每个问题提供了标准答案,确保了评估基准的准确性与权威性。整个数据集最终整合为一个结构化的测试集,旨在全面、无偏地衡量模型的多模态理解能力。
特点
MME数据集展现出鲜明的专业评估导向特征。其首要特点在于评估维度的全面性与精细化,数据集将测试问题系统性地划分为感知与认知两大范畴,并进一步细分为多个具体子类别,这种分类体系为深入分析模型在不同能力上的表现提供了清晰框架。其次,数据样本具有高度的代表性与挑战性,所选图像与问题设计旨在触及模型理解的边界,能够有效区分不同性能水平的模型。最后,数据集结构简洁而严谨,每个样本均包含唯一的标识符、图像、问题、答案及类别标签,这种标准化格式极大便利了自动化评估流程的实施与结果的可复现性。
使用方法
使用MME数据集进行模型评估,需遵循其预设的标准化流程。用户首先需加载数据集,其结构化的‘test’分割可直接用于评估。核心使用步骤是将待评估的视觉语言模型应用于数据集中的每一个样本,即输入图像和对应问题,获取模型生成的答案。随后,将模型答案与数据集中提供的标准答案进行比对,并依据数据集中预设的类别划分,分别计算模型在各个子类别上的准确率或相关指标。最终,通过汇总各维度得分,即可得到模型在综合多模态理解能力上的量化评估报告,该报告能够清晰揭示模型在不同任务类型上的优势与短板。
背景与挑战
背景概述
随着多模态人工智能技术的蓬勃发展,视觉语言模型(VLMs)的评估成为推动该领域进步的关键环节。在此背景下,由lmms-lab团队创建的MME(Multimodal Model Evaluation)数据集应运而生,旨在系统性地评估模型在感知与认知两大核心维度的综合能力。该数据集精心构建了涵盖图像理解、文本推理、常识问答等多元任务的测试集,通过标准化的评估框架,为研究人员提供了衡量模型性能的可靠基准,显著促进了多模态模型评估方法的规范化与科学化。
当前挑战
MME数据集所针对的核心挑战在于如何设计一个全面且无偏的多模态模型评估体系,以克服传统评估中常存在的任务单一、指标片面或数据泄露等问题。在构建过程中,团队需精心平衡感知型任务(如物体识别)与认知型任务(如逻辑推理)的难度与多样性,确保评估既能反映模型的低级视觉理解能力,又能检验其高级语义推理水平。同时,数据收集与标注需保证高质量与广泛代表性,避免引入领域偏差,这对标注一致性与数据清洗提出了较高要求。
常用场景
经典使用场景
在视觉语言模型评估领域,MME数据集被广泛用于系统性地评测多模态模型的感知与认知能力。该数据集通过涵盖感知和推理两大类别,并细分为十四个子任务,为研究者提供了一个全面且标准化的测试平台。经典使用场景包括在模型训练后,利用MME的多样化视觉问答任务,精确衡量模型在图像理解、文本生成以及跨模态对齐方面的性能表现,从而推动模型优化与比较研究。
解决学术问题
MME数据集有效解决了多模态人工智能研究中模型评估标准不统一、覆盖能力片面的学术难题。它通过精心设计的平衡正负样本和避免数据泄露,确保了评估的公正性与可靠性。该数据集的意义在于为视觉语言模型提供了一个细粒度、多维度的评测基准,帮助学术界准确识别模型在感知细节、常识推理等方面的短板,进而引导研究朝着更鲁棒、更智能的方向发展。
衍生相关工作
围绕MME数据集,学术界已衍生出一系列重要的研究工作。这些工作不仅包括直接利用MME进行模型评测与排名,还催生了针对其评估范式的改进方法,以及受其启发构建的更大规模或更专精的评测基准。相关研究进一步深化了对多模态模型能力边界的探索,促进了评估方法论的发展,并为后续如MME-Pro等数据集的构建奠定了坚实的理论与实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作