MME-RealWorld-lite-lmms-eval

Hugging Face2024-11-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yifanzhang114/MME-RealWorld-lite-lmms-eval

下载链接

链接失效反馈

官方服务：

资源简介：

MME-RealWorld是一个多模态大语言模型（MLLM）的基准测试数据集，包含13,366张高分辨率图像和29,429个手动标注的问题-答案对，涉及43个任务，跨越5个真实世界场景。该数据集旨在解决现有基准测试在实际应用中的局限性，具有数据规模大、数据质量高和任务难度高的特点。此外，还提供了针对中文场景的MME-RealWord-CN版本。

MME-RealWorld is a benchmark dataset for multimodal large language models (MLLMs). It contains 13,366 high-resolution images and 29,429 manually annotated question-answer pairs, covering 43 tasks across 5 real-world scenarios. This dataset aims to address the limitations of existing benchmarks in practical applications, and is characterized by large-scale data, high-quality data and high task difficulty. In addition, a variant specifically tailored for Chinese scenarios named MME-RealWord-CN is also provided.

创建时间：

2024-11-13

原始信息汇总

MME-RealWorld-lite-lmms-eval 数据集概述

数据集信息

特征

bytes: 字符串类型
path: 字符串类型
index: 整数类型
question: 字符串类型
multi-choice options: 字符串序列
answer: 字符串类型
category: 字符串类型
l2-category: 字符串类型

数据分割

train: 包含1919个样本，总字节数为1990753320

数据大小

下载大小: 1880779075字节
数据集大小: 1990753320字节

配置

default: 数据文件路径为data/train-*

数据集详情

数据集特点

数据规模: 由32名志愿者手动标注的29,429个问答对，涵盖5个真实场景中的43个子任务，是目前已知最大的完全人工标注的基准数据集。
数据质量:
- 分辨率: 平均图像分辨率为2000×1500像素，是现有竞争者中最高的。
- 标注: 所有标注均由专业团队手动完成并交叉检查，以确保数据质量。
任务难度和实际应用: 即使是最高级的模型，准确率也未超过60%。许多真实世界的任务比传统基准更难，例如视频监控中需要计算133辆车的存在，或遥感中需要在平均分辨率超过5000×5000的地图上识别和计数小物体。
MME-RealWord-CN: 针对中文场景，收集了5,917个问答对，由中文志愿者标注，解决了英文版本翻译带来的问题。

相关链接

论文: arxiv.org/abs/2408.13257
代码: https://github.com/yfzhang114/MME-RealWorld
项目页面: https://mme-realworld.github.io/

搜集汇总

数据集介绍

构建方式

MME-RealWorld-lite-lmms-eval数据集的构建过程体现了对真实世界应用场景的深度关注。该数据集基于MME-RealWorld基准，通过精选13,366张高分辨率图像，平均分辨率为2000×1500像素，确保了图像细节的丰富性。数据集的标注工作由32名志愿者共同完成，涵盖了29,429个问答对，涉及43个任务，分布在5个真实场景中。所有标注均经过专业团队的交叉检查，确保了数据的高质量。此外，针对中文场景，数据集还额外收集了5,917个问答对，避免了翻译带来的不准确性。

特点

MME-RealWorld-lite-lmms-eval数据集以其大规模、高质量和高难度著称。作为目前已知最大的人工标注基准，其图像分辨率在同类数据集中处于领先地位，能够有效捕捉真实场景中的细节信息。数据集的问答对覆盖了多种复杂任务，如视频监控中的车辆计数和遥感地图中的小目标识别，这些任务对现有模型的性能提出了严峻挑战。此外，数据集还特别关注中文场景，避免了翻译带来的语义偏差，进一步提升了其实用性。

使用方法

MME-RealWorld-lite-lmms-eval数据集的使用方法灵活多样，适用于多模态大语言模型的评估与优化。用户可以通过VLMEvalKit和Lmms-eval工具包实现一键式评估，快速测试模型在真实场景中的表现。数据集提供了丰富的训练样本和测试样本，支持模型在不同任务上的性能对比。此外，用户还可以利用数据集的高分辨率图像和高质量标注，进行模型细粒度识别能力的训练与验证，从而提升模型在复杂场景中的适应性和准确性。

背景与挑战

背景概述

MME-RealWorld-lite-lmms-eval数据集于2024年8月20日正式发布，由32名志愿者精心标注，涵盖了13,366张高分辨率图像和29,429个问答对，涉及43个子任务和5个现实场景。该数据集由Yifan Zhang等研究人员主导，旨在解决现有多模态大语言模型（MLLM）基准在现实应用中的局限性。MME-RealWorld以其大规模、高质量和现实任务难度著称，成为目前最大的人工标注基准，专注于高分辨率图像和现实场景的挑战。其发布对推动多模态模型在真实环境中的应用具有重要意义，相关研究成果已发表于arXiv。

当前挑战

MME-RealWorld-lite-lmms-eval数据集在构建和应用中面临多重挑战。首先，现实场景任务的复杂性要求模型具备更高的识别能力，例如在视频监控中精确计数133辆车辆，或在遥感图像中识别高分辨率地图上的小目标。其次，数据标注过程中，确保高分辨率图像的细节信息被准确捕捉和标注，需要大量人力和专业知识的投入。此外，针对中文场景的标注还需克服翻译不精确和图像与问题不匹配的问题。这些挑战不仅考验了数据集的构建质量，也为多模态模型的性能评估提出了更高的要求。

常用场景

经典使用场景

在多媒体大语言模型（MLLM）的研究领域，MME-RealWorld-lite-lmms-eval数据集被广泛用于评估模型在真实世界场景中的表现。该数据集通过包含高分辨率图像和多选题问答对，为研究者提供了一个全面的测试平台，用于验证模型在复杂视觉和语言任务中的能力。

实际应用

在实际应用中，MME-RealWorld-lite-lmms-eval数据集被用于开发和优化智能监控系统、遥感图像分析以及多语言场景理解等任务。其高分辨率图像和详细的注释使得模型能够在复杂环境中进行精确的物体识别和场景理解，从而提升实际应用中的性能。

衍生相关工作

基于MME-RealWorld-lite-lmms-eval数据集，研究者们开发了多种先进的MLLM模型和评估工具，如VLMEvalKit和Lmms-eval。这些工具不仅简化了模型的评估过程，还为后续研究提供了丰富的基准数据和参考标准，推动了多媒体大语言模型领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集