yifanzhang114/MME-RealWorld
收藏Hugging Face2024-11-14 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/yifanzhang114/MME-RealWorld
下载链接
链接失效反馈官方服务:
资源简介:
MME-RealWorld是一个多模态大型语言模型(MLLM)基准测试数据集,专注于真实世界的应用。它包含了13,366张高分辨率图像和29,429个问答对,涵盖了43个任务。数据集的特点包括大规模数据、高质量注释、高难度任务和真实世界的实用性。此外,还包含一个专门针对中文场景的子集MME-RealWord-CN,包含了5,917个问答对。
MME-RealWorld is a benchmark for Multimodal Large Language Models (MLLMs) focusing on real-world applications. It includes 13,366 high-resolution images and 29,429 question-answer pairs across 43 tasks. The dataset features large-scale data, high-quality annotations, challenging tasks, and real-world utility. Additionally, it includes a subset specifically for Chinese scenarios, MME-RealWord-CN, containing 5,917 QA pairs.
提供机构:
yifanzhang114
搜集汇总
数据集介绍

构建方式
在构建多模态大语言模型评估体系时,现有基准常受限于数据规模、标注质量与图像分辨率。MME-RealWorld数据集通过精心设计的流程应对这些挑战,其构建始于从真实世界场景中收集13,366张高分辨率图像,平均分辨率达2000×1500像素。随后,由25名众包工作者与7名多模态大语言模型专家组成的团队,共同手动标注了29,429个问答对,涵盖43项子任务,并经过交叉校验以确保标注精确性。此外,针对中文语境,额外采集了聚焦中国场景的图像,由中文志愿者标注产生5,917个问答对,避免了翻译带来的语义偏差。
特点
该数据集在多模态评估领域展现出显著特色,其核心优势在于规模与质量的双重突破。作为迄今最大规模的全人工标注基准,MME-RealWorld以高分辨率图像为基础,细节信息丰富,如体育赛事中的计分板等微小元素均清晰可辨,极大提升了识别任务的真实性。数据覆盖五大现实场景,任务难度显著高于传统基准,例如视频监控中需计数133辆车,或遥感图像中识别5000×5000分辨率地图上的微小目标。同时,专门的中文版本避免了翻译失配问题,增强了文化语境的相关性。
使用方法
为有效利用这一数据集,用户需首先处理其大规模图像文件。由于图像以分卷压缩格式存储,需使用提供的脚本合并同名分卷文件,再统一解压。数据集支持通过VLMEvalKit与Lmms-eval工具进行一键式评估,便于快速集成至多模态模型测试流程。对于加速推理需求,可选用其精简版本,每任务包含50个样本。研究人员可通过项目页面访问详细排行榜,追踪模型在真实世界任务上的性能表现,尤其关注识别精度与场景适应能力。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,多模态大语言模型(MLLM)的评估体系面临着与现实应用脱节的困境。2024年8月,由研究人员张逸帆等人发布的MME-RealWorld基准应运而生,旨在弥合这一鸿沟。该数据集由32名志愿者精心标注,囊括了13,366张平均分辨率达2000×1500像素的高质量图像,并构建了29,429个涵盖43项现实任务的问答对,其规模与分辨率均创下了人工标注基准的新纪录。该工作聚焦于提升模型在复杂真实场景下的感知与推理能力,为MLLM的实用化发展提供了至关重要的评估基石。
当前挑战
MME-RealWorld致力于解决多模态大语言模型在真实世界应用中的核心评估挑战,其首要难题在于如何设计出能够充分检验模型极限的高难度任务,例如在超高分辨率遥感图像中计数微小物体。在构建过程中,团队面临两大挑战:一是确保海量高分辨率图像中细节信息标注的精确性与一致性,这依赖于专业标注团队的交叉校验;二是为克服文化差异,专门构建中文子集时,需避免直接翻译导致的图文失配问题,从而保障数据在特定文化语境下的真实性与有效性。
常用场景
经典使用场景
在视觉语言模型评估领域,MME-RealWorld数据集以其大规模、高分辨率和人工标注的特性,成为衡量模型在真实世界复杂场景下感知与推理能力的经典基准。该数据集通过涵盖监控、遥感、体育、日常场景及中文特定环境等五大现实情境,构建了43项精细化子任务,为研究者提供了系统检验模型细粒度视觉理解与跨模态对齐性能的标准化平台。其高分辨率图像与高质量标注确保了评估的严谨性,使得模型在细节识别、场景解析等方面的局限性得以充分暴露。
解决学术问题
该数据集有效应对了当前多模态大语言模型评估中存在的若干关键学术挑战。针对传统基准数据规模有限导致的性能方差大问题,它通过提供逾1.3万张高分辨率图像和2.9万个人工标注问答对,建立了稳定可靠的评估尺度。同时,其摒弃模型自动标注、完全依赖人工校验的构建方式,显著提升了数据质量与真实性,避免了标注偏差对评估结果的干扰。更为重要的是,数据集通过引入高分辨率图像与高难度任务,如遥感图像中的小物体计数、监控场景下的密集目标识别等,直接推动了模型在复杂现实应用中的鲁棒性与实用边界研究。
衍生相关工作
自MME-RealWorld发布以来,已催生了一系列围绕其展开的经典研究工作与工具生态。其官方支持的评估工具链,如VLMEvalKit与Lmms-eval,实现了模型在该基准上的一键式自动化评估,极大提升了研究效率。基于该数据集构建的公开排行榜持续追踪并比较如LLaVA-OV等前沿模型的性能演进,揭示了模型在真实世界任务上的进步与瓶颈。同时,其针对中文场景构建的MME-RealWorld-CN子集,进一步激发了针对跨文化、跨语言多模态理解的研究,推动了评估基准的多元化与公平性发展。
以上内容由遇见数据集搜集并总结生成



