MME-RealWorld|图像注释数据集|机器学习基准数据集

huggingface2024-08-24 更新2024-12-12 收录

图像注释

机器学习基准

下载链接：

https://huggingface.co/datasets/yifanzhang114/MME-RealWorld

下载链接

链接失效反馈

资源简介：

MME-RealWorld是一个精心设计的基准，旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像，平均分辨率为2,000 × 1,500像素，涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释，涉及43个任务。数据集的主要优势包括：1) 数据规模：由32名志愿者手动注释的29,429个QA对，是目前已知的最大全人工注释基准。2) 数据质量：高分辨率图像和人工完成的注释，确保了数据质量。3) 任务难度和实际应用价值：即使是最高级的模型，准确率也未超过60%，许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN：针对中文场景收集的图像和注释，解决了英文版本翻译可能存在的问题。

创建时间：

2024-08-17

原始信息汇总

MME-RealWorld 数据集概述

数据集详情

MME-RealWorld 是一个精心设计的基准数据集，旨在解决现实世界应用中的实际问题。该数据集具有以下特点：

数据规模：
- 由32名志愿者手动标注，包含29,429个针对现实场景的问答对，是目前已知最大的完全人工标注的基准数据集。
数据质量：
- 分辨率：包含13,366张平均分辨率为2,000 × 1,500像素的高分辨率图像，有助于提供有意义的人类辅助。
- 标注：所有标注均由专业团队手动完成，并进行交叉检查以确保数据质量。
任务难度和现实世界实用性：
- 即使是目前最先进的模型，准确率也未超过60%。
- 许多现实世界任务的难度远超传统基准数据集中的任务，例如视频监控中需要计数133辆车辆，或在遥感中识别和计数地图上平均分辨率超过5000×5000的小物体。
MME-RealWord-CN：
- 针对现有中文基准数据集通常从英文版本翻译而来的局限性，收集了聚焦于中国场景的额外图像，并由中国志愿者进行标注，共包含5,917个问答对。

使用方法

由于图像文件较大且已被分割成多个压缩部分，请首先将相同名称的压缩文件合并，然后一起提取。

bash #!/bin/bash

导航到包含分割文件的目录

cd TARFILES

循环处理每个分割文件集

for part in *.tar.gz.part_aa; do # 提取文件的基本名称 base_name=$(basename "$part" .tar.gz.part_aa)

# 将分割文件合并为一个存档
cat "${base_name}".tar.gz.part_* > "${base_name}.tar.gz"

# 提取合并后的存档
tar -xzf "${base_name}.tar.gz"

# 可选：删除临时的合并存档
rm "${base_name}.tar.gz"

done

AI搜集汇总

数据集介绍

构建方式

MME-RealWorld数据集的构建过程体现了对真实世界应用场景的深度关注。该数据集由32名志愿者手动标注，涵盖了13,366张高分辨率图像，平均分辨率为2000×1500像素，生成了29,429个问答对，覆盖了43个任务。这些任务分布在5个真实场景中，确保了数据的多样性和实用性。所有标注均由专业团队交叉验证，确保了数据的高质量。此外，数据集还特别关注了中文场景，收集了5,917个中文问答对，避免了翻译带来的不准确性。

特点

MME-RealWorld数据集以其大规模、高质量和高难度著称。作为目前最大的人工标注基准，其图像分辨率在现有竞争者中处于领先地位，确保了细节信息的完整性。数据集的问答对涵盖了广泛的真实场景任务，难度显著高于传统基准，即使是当前最先进的模型也难以达到60%的准确率。此外，数据集还特别推出了中文版本，避免了翻译带来的问题，进一步提升了数据的实用性和准确性。

使用方法

MME-RealWorld数据集的使用方法较为灵活，支持多种评估工具。用户可以通过VLMEvalKit和Lmms-eval库进行一键评估，快速验证模型性能。由于图像文件较大且被分割成多个压缩部分，用户需先合并同名压缩文件，然后统一解压。数据集还提供了Lite版本，包含每个任务的50个样本，适合加速推理过程。具体操作可通过提供的脚本实现，确保数据处理的高效性和准确性。

背景与挑战

背景概述

MME-RealWorld数据集于2024年8月20日由一支由25名众包工作者和7名多模态大语言模型（MLLM）专家组成的团队发布，旨在解决现有多模态大语言模型基准在现实世界应用中的局限性。该数据集包含13,366张高分辨率图像和29,429个问答对，覆盖了43个任务，专注于现实场景中的复杂问题。MME-RealWorld以其大规模、高质量的手动标注和高分辨率图像，成为当前最大的手动标注基准之一，显著推动了多模态大语言模型在真实环境中的应用研究。

当前挑战

MME-RealWorld数据集在构建过程中面临多重挑战。首先，数据规模的扩展需要大量人力投入，32名志愿者手动标注了29,429个问答对，确保数据的高质量。其次，高分辨率图像的采集与处理增加了技术难度，尤其是在视频监控和遥感等任务中，模型需要识别极小物体或复杂场景。此外，任务设计的复杂性要求模型具备更高的推理能力，现有模型的准确率普遍低于60%，表明其在真实场景中的应用仍存在显著瓶颈。最后，针对中文场景的数据收集与标注也面临翻译不准确和文化差异的挑战，需额外投入资源以确保数据的适用性。

常用场景

经典使用场景

MME-RealWorld数据集在视觉问答（VQA）和多模态大语言模型（MLLM）评估中展现了其独特的价值。该数据集通过包含13,366张高分辨率图像和29,429个手动标注的问答对，覆盖了43个真实世界场景的子任务，为模型提供了丰富的视觉和语言信息。研究人员可以利用该数据集进行多模态模型的训练和评估，特别是在高分辨率图像处理和复杂场景理解方面，MME-RealWorld为模型性能的提升提供了强有力的支持。

解决学术问题

MME-RealWorld数据集有效解决了现有多模态大语言模型基准测试中的几个关键问题。首先，其大规模的手动标注数据显著减少了模型性能的方差，确保了评估结果的稳定性。其次，高分辨率的图像和专业的标注团队保证了数据的质量，避免了模型生成标注带来的偏差。此外，数据集中的任务设计更具挑战性，能够更好地反映模型在真实世界中的表现，尤其是在复杂场景下的识别和推理能力。

衍生相关工作

MME-RealWorld数据集的发布催生了一系列相关研究和技术突破。例如，LLaVA-OV模型在该数据集上的表现推动了多模态模型在复杂场景下的优化。此外，VLMEvalKit和Lmms-eval等评估工具的支持，使得研究人员能够更便捷地进行模型评估和比较。这些工作不仅提升了多模态模型的性能，也为未来的研究提供了新的方向和基准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM（Prognostics and Health Management）开源数据集，涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景，包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法，数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

中国车牌识别数据集（7类，33万张）

这是一个高质量、平衡的中国车牌识别数据集，包含了33万张各类中国车牌的图片。数据集经过精心设计，确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区收录