five

MME-Unify|多模态理解数据集|模型评估数据集

收藏
github2025-04-10 更新2025-04-11 收录
多模态理解
模型评估
下载链接:
https://github.com/MME-Benchmarks/MME-Unify
下载链接
链接失效反馈
资源简介:
MME-Unify是一个综合评估框架,旨在系统评估统一多模态理解和生成模型。它包括标准化传统任务评估和统一任务评估,涵盖12个数据集、10个任务和30个子任务。此外,它还引入了五种新任务,测试多模态推理能力,如图像编辑、常识问答与图像生成以及几何推理。
创建时间:
2025-03-28
原始信息汇总

MME-Unify数据集概述

数据集简介

  • 名称:MME-Unify
  • 类型:多模态理解与生成模型评估基准
  • 目的:系统评估统一多模态大语言模型(U-MLLMs)的能力
  • 特点
    • 包含标准化传统任务评估和统一任务评估
    • 涵盖12个数据集、10个任务、30个子任务
    • 引入5个新颖的多模态推理任务

数据集内容

  • 任务类型

    • 图像编辑
    • 常识问答与图像生成
    • 几何推理
    • 条件图像到视频生成
    • 细粒度图像重建
    • 数学推理
    • 多图像与文本交错
    • 单图像感知与理解
    • 找不同
    • 文本-图像编辑
    • 文本-图像生成
    • 文本到视频生成
    • 视频感知与理解
    • 视觉思维链
  • 数据结构

    MME-Unify ├── CommonSense_Questions ├── Conditional_Image_to_Video_Generation ├── Fine-Grained_Image_Reconstruction ├── Math_Reasoning ├── Multiple_Images_and_Text_Interlaced ├── Single_Image_Perception_and_Understanding ├── Spot_Diff ├── Text-Image_Editing ├── Text-Image_Generation ├── Text-to-Video_Generation ├── Video_Perception_and_Understanding └── Visual_CoT

评估流程

  • 提示模板MME-Unify/Prompt.txt
  • 评估脚本MME-Unify/evaluate
  • 响应格式:JSON模板(output_test_template.json)

许可证

  • 用途限制:仅限学术研究
  • 商业使用:禁止
  • 版权声明:图像版权归原作者所有
  • 分发限制:未经事先批准不得分发、发布、复制、传播或修改

引用信息

bibtex @article{xie2025mme, title={MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models}, author={Xie, Wulin and Zhang, Yi-Fan and Fu, Chaoyou and Shi, Yang and Nie, Bingyan and Chen, Hongkai and Zhang, Zhang and Wang, Liang and Tan, Tieniu}, journal={arXiv preprint arXiv:2504.03641}, year={2025} }

相关资源

  • 数据集下载:https://huggingface.co/datasets/wulin222/MME-Unify
  • 论文链接:https://arxiv.org/abs/2504.03641
  • 项目主页:https://mme-unify.github.io/
AI搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体大语言模型评估领域,MME-Unify采用系统化构建方法,整合了12个权威数据集的精选样本,涵盖10类核心任务及其30个子任务。通过精心设计的五类创新性统一任务(如图像编辑、常识问答与图像生成结合等),该数据集构建了多维评估矩阵。技术实现上采用模块化架构,将数据划分为感知理解、内容生成和统一能力三大类别,并通过标准化提示模板确保评估一致性。
特点
作为多模态评估基准,MME-Unify展现出三大核心特征:其评估维度全面覆盖传统任务与创新统一任务,包含单图像理解、视频生成等12个专项领域;数据质量经过严格把控,所有样本均来自经过学术社区验证的权威数据集;基准设计具有前瞻性,特别针对混合模态推理等前沿研究方向设计了专属评估模块。数据集提供的标准化输出模板和评分脚本,极大提升了跨模型比较研究的可复现性。
使用方法
研究者可通过Hugging Face平台获取结构化存储的数据集,按任务类别目录组织图像与问答对。评估流程需遵循标准化提示模板,将模型响应按指定JSON格式记录。配套提供的评分脚本支持自动化指标计算,涵盖准确率、生成质量等多维评估维度。需特别注意该数据集仅限学术用途,商业应用需额外授权。完整的使用指南和伦理规范详见项目主页与许可证文件。
背景与挑战
背景概述
MME-Unify是由Wulin Xie、Yi-Fan Zhang等研究人员于2025年提出的综合性多模态评估基准,旨在系统评估统一多模态理解与生成模型(U-MLLMs)的性能。该数据集整合了12个来源数据集,涵盖10类核心任务和30个子任务,包括图像编辑、常识问答、几何推理等创新性多模态任务。作为多模态人工智能领域的重要基础设施,MME-Unify通过标准化评估流程,揭示了Janus-Pro、EMU3等12种前沿模型在混合模态任务处理中的显著性能差异,为提升多模态模型的鲁棒性和泛化能力提供了关键研究框架。其创新性的统一能力评估体系,推动了多模态大语言模型从单一理解或生成向协同推理的范式转变。
当前挑战
MME-Unify面临的领域挑战主要体现在多模态任务的异构性整合,包括跨模态语义对齐、时序信息建模以及生成质量与理解准确性的平衡等核心问题。在构建过程中,研究团队需克服多源数据标准化、评估指标普适性设计以及生成任务客观量化等工程难题。特别在视频生成与图像重构等复杂任务中,如何建立既符合人类认知又具备计算可操作性的评估标准,成为该基准区别于传统单模态数据集的关键技术壁垒。此外,版权合规性与数据清洗的平衡也增加了构建过程的复杂性。
常用场景
经典使用场景
在人工智能领域,多模态模型的研究日益受到重视,MME-Unify作为一个综合性评估框架,为统一多模态理解与生成模型提供了标准化测试平台。该数据集通过整合12个不同来源的数据集,涵盖10类任务和30个子任务,为研究者提供了一个全面评估模型性能的环境。其经典使用场景包括对多模态大语言模型在图像编辑、常识问答、几何推理等复杂任务中的表现进行系统性评测,尤其适合比较不同模型在混合模态任务上的优劣。
解决学术问题
MME-Unify有效解决了多模态研究领域长期存在的评估标准不统一问题。传统上,研究者需要耗费大量精力整合不同基准数据集,而该数据集通过精心设计的评估流程和标准化任务,实现了跨研究的公平比较。它特别关注模型在理解与生成双重能力上的平衡,揭示了现有模型在混合模态任务中的性能缺陷,为后续模型优化指明了方向,推动了多模态人工智能向更鲁棒、更通用的方向发展。
衍生相关工作
MME-Unify的发布催生了一系列重要的后续研究。基于该基准,研究者开发了SliME高分辨率多模态模型、VITA开源交互式全模态系统等创新工作。其评估方法也被Video-MME等视频分析基准所借鉴,形成了多模态评估的标准范式。相关衍生研究如MM-RLHF进一步探索了多模态模型的强化学习对齐方法,推动了该领域向更安全、更可控的方向发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions

Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.

DataCite Commons 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录