MME-Unify

Name: MME-Unify
Creator: 中国科学院自动化研究所, 南京大学, 北京大学, 维沃, M-M-E
Published: 2025-04-08 00:12:54
License: 暂无描述

arXiv2025-04-08 更新2025-04-08 收录

下载链接：

https://mme-unify.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Unify是一个综合性的评估框架，旨在评估统一多模态理解和生成模型的能力。该数据集包含12个现有数据集中的任务，涵盖视觉问答、图像生成、视频理解等多种类型，共包含4104个样本。数据集的任务被分为多模态理解、多模态生成和统一任务三大类，以全面评估模型在不同模态下的理解和生成能力，以及它们如何相互增强。该数据集适用于评估统一多模态大语言模型在多模态理解和生成任务中的性能。

MME-Unify is a comprehensive evaluation framework intended to assess the capabilities of unified multimodal understanding and generation models. This dataset comprises tasks derived from 12 existing datasets, spanning a wide range of modalities including visual question answering, image generation, video understanding, and others, with a total of 4104 samples. The tasks within this dataset are categorized into three broad categories: multimodal understanding, multimodal generation, and unified tasks, enabling a comprehensive evaluation of models' understanding and generation capabilities across diverse modalities, as well as the mutual enhancement between these capabilities. This dataset is applicable for evaluating the performance of unified multimodal large language models (LLMs) on multimodal understanding and generation tasks.

提供机构：

中国科学院自动化研究所, 南京大学, 北京大学, 维沃, M-M-E

创建时间：

2025-04-05

搜集汇总

数据集介绍

构建方式

MME-Unify数据集通过整合12个现有数据集中的任务样本，构建了一个标准化的多模态理解与生成评估框架。在理解任务方面，数据集涵盖了单图像感知、多图像与交错图文理解以及视频理解三大子任务，共收集1,900个样本并统一转化为多选题格式。生成任务则包含细粒度图像重建、文本引导图像编辑等6类子任务，每类任务确保至少200个样本。针对混合模态生成能力，研究团队创新性地设计了图像编辑解释、几何辅助线绘制等5个需要跨模态协同的子任务，通过人工构建50个样本/任务并采用CLIP相似度进行双重评估。

特点

该数据集最显著的特点是实现了多模态评估的三维统一：任务维度覆盖理解、生成及混合模态场景，模态维度整合图像、视频与文本，评估维度采用标准化指标与归一化分数。其创新性地将混合模态生成能力量化为可测量的五项子任务，通过要求模型同步完成文本推理和图像生成的协同任务，揭示了现有模型在跨模态交互方面的瓶颈。数据集中35%的样本来自真实场景的高分辨率挑战性案例，特别设计了包含7步推理的视觉思维链任务以检验复杂推理能力。

使用方法

使用MME-Unify时需遵循其分层评估协议：理解任务通过规则匹配计算多选题准确率；生成任务先按子领域特定指标（如FID、CLIP分数）评估，再标准化为0-100分；混合任务则同步评估文本选项匹配度（CLIP-T）与生成图像质量（CLIP-I）。研究人员可通过任务组合分数分析模型能力短板，例如单独测试文本引导图像编辑可检验指令跟随能力，而视觉思维链任务能揭示多步推理中的错误累积效应。数据集提供统一prompt模板和负样本构建方法，支持不同规模模型的跨模态能力对标。

背景与挑战

背景概述

MME-Unify数据集由中国科学院自动化研究所（CASIA）、南京大学（NJU）、北京大学（PKU）等机构的研究团队于2025年联合推出，旨在解决多模态大语言模型（UMLLMs）在理解与生成任务中缺乏统一评估标准的核心问题。作为首个同时涵盖多模态理解、生成及混合模态生成能力的基准测试，该数据集整合了来自12个现有数据源的1900个样本，构建了包含15个子任务的标准化评估框架。其创新性地设计了图像编辑解释、几何辅助线绘制等5项混合模态任务，推动了多模态交互研究从单向能力评估向协同推理的范式转变，对GPT-4o、Gemini等前沿模型的性能评估产生了重要影响。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态任务评估指标不统一（如理解任务采用准确率而生成任务依赖CLIP分数）、混合模态任务缺乏标准测试框架等难题；在构建过程中，需克服跨数据集样本格式对齐（如将视频理解任务转换为关键帧问答）、生成任务负样本人工标注（如几何题错误辅助线设计）、以及评估体系设计（平衡文本推理与图像生成评分）等工程挑战。实验表明现有UMLLMs在指令跟随一致性（仅38.42%准确率）和跨模态协同（视觉推理任务平均得分低于30%）方面仍存在显著不足。

常用场景

经典使用场景

在跨模态人工智能研究中，MME-Unify数据集被广泛用于评估统一多模态大语言模型（UMLLMs）的综合能力。该数据集通过整合来自12个现有基准的多样化任务，涵盖了从单图像感知到复杂混合模态生成的广泛场景。研究者利用MME-Unify系统性地测试模型在理解、生成及混合模态任务中的表现，特别是在几何问题求解辅助线绘制、常识问答伴随图像生成等典型场景中，为模型能力提供了标准化度量框架。

衍生相关工作

该数据集催生了多项突破性研究，如Janus-Pro采用双视觉编码器架构分别优化理解与生成性能，EMU3探索基于单一标记器的端到端训练范式。其提出的混合模态评估标准直接启发了后续工作如PUMA的专家混合架构设计，而视觉推理链任务则推动Anole等模型在序列决策生成方面的创新。MME-Unify的基准构建方法论也被SEED-Bench2等后续数据集广泛借鉴，形成多模态评估的标准化范式。

数据集最近研究