five

MME-RealWorld|图像注释数据集|机器学习基准数据集

收藏
huggingface2024-08-24 更新2024-12-12 收录
图像注释
机器学习基准
下载链接:
https://huggingface.co/datasets/yifanzhang114/MME-RealWorld
下载链接
链接失效反馈
资源简介:
MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。
创建时间:
2024-08-17
原始信息汇总

MME-RealWorld 数据集概述

数据集详情

MME-RealWorld 是一个精心设计的基准数据集,旨在解决现实世界应用中的实际问题。该数据集具有以下特点:

  1. 数据规模

    • 由32名志愿者手动标注,包含29,429个针对现实场景的问答对,是目前已知最大的完全人工标注的基准数据集。
  2. 数据质量

    • 分辨率:包含13,366张平均分辨率为2,000 × 1,500像素的高分辨率图像,有助于提供有意义的人类辅助。
    • 标注:所有标注均由专业团队手动完成,并进行交叉检查以确保数据质量。
  3. 任务难度和现实世界实用性

    • 即使是目前最先进的模型,准确率也未超过60%。
    • 许多现实世界任务的难度远超传统基准数据集中的任务,例如视频监控中需要计数133辆车辆,或在遥感中识别和计数地图上平均分辨率超过5000×5000的小物体。
  4. MME-RealWord-CN

    • 针对现有中文基准数据集通常从英文版本翻译而来的局限性,收集了聚焦于中国场景的额外图像,并由中国志愿者进行标注,共包含5,917个问答对。

使用方法

由于图像文件较大且已被分割成多个压缩部分,请首先将相同名称的压缩文件合并,然后一起提取。

bash #!/bin/bash

导航到包含分割文件的目录

cd TARFILES

循环处理每个分割文件集

for part in *.tar.gz.part_aa; do # 提取文件的基本名称 base_name=$(basename "$part" .tar.gz.part_aa)

# 将分割文件合并为一个存档
cat "${base_name}".tar.gz.part_* > "${base_name}.tar.gz"

# 提取合并后的存档
tar -xzf "${base_name}.tar.gz"

# 可选:删除临时的合并存档
rm "${base_name}.tar.gz"

done

AI搜集汇总
数据集介绍
main_image_url
构建方式
MME-RealWorld数据集的构建过程体现了对真实世界应用场景的深度关注。该数据集由32名志愿者手动标注,涵盖了13,366张高分辨率图像,平均分辨率为2000×1500像素,生成了29,429个问答对,覆盖了43个任务。这些任务分布在5个真实场景中,确保了数据的多样性和实用性。所有标注均由专业团队交叉验证,确保了数据的高质量。此外,数据集还特别关注了中文场景,收集了5,917个中文问答对,避免了翻译带来的不准确性。
特点
MME-RealWorld数据集以其大规模、高质量和高难度著称。作为目前最大的人工标注基准,其图像分辨率在现有竞争者中处于领先地位,确保了细节信息的完整性。数据集的问答对涵盖了广泛的真实场景任务,难度显著高于传统基准,即使是当前最先进的模型也难以达到60%的准确率。此外,数据集还特别推出了中文版本,避免了翻译带来的问题,进一步提升了数据的实用性和准确性。
使用方法
MME-RealWorld数据集的使用方法较为灵活,支持多种评估工具。用户可以通过VLMEvalKit和Lmms-eval库进行一键评估,快速验证模型性能。由于图像文件较大且被分割成多个压缩部分,用户需先合并同名压缩文件,然后统一解压。数据集还提供了Lite版本,包含每个任务的50个样本,适合加速推理过程。具体操作可通过提供的脚本实现,确保数据处理的高效性和准确性。
背景与挑战
背景概述
MME-RealWorld数据集于2024年8月20日由一支由25名众包工作者和7名多模态大语言模型(MLLM)专家组成的团队发布,旨在解决现有多模态大语言模型基准在现实世界应用中的局限性。该数据集包含13,366张高分辨率图像和29,429个问答对,覆盖了43个任务,专注于现实场景中的复杂问题。MME-RealWorld以其大规模、高质量的手动标注和高分辨率图像,成为当前最大的手动标注基准之一,显著推动了多模态大语言模型在真实环境中的应用研究。
当前挑战
MME-RealWorld数据集在构建过程中面临多重挑战。首先,数据规模的扩展需要大量人力投入,32名志愿者手动标注了29,429个问答对,确保数据的高质量。其次,高分辨率图像的采集与处理增加了技术难度,尤其是在视频监控和遥感等任务中,模型需要识别极小物体或复杂场景。此外,任务设计的复杂性要求模型具备更高的推理能力,现有模型的准确率普遍低于60%,表明其在真实场景中的应用仍存在显著瓶颈。最后,针对中文场景的数据收集与标注也面临翻译不准确和文化差异的挑战,需额外投入资源以确保数据的适用性。
常用场景
经典使用场景
MME-RealWorld数据集在视觉问答(VQA)和多模态大语言模型(MLLM)评估中展现了其独特的价值。该数据集通过包含13,366张高分辨率图像和29,429个手动标注的问答对,覆盖了43个真实世界场景的子任务,为模型提供了丰富的视觉和语言信息。研究人员可以利用该数据集进行多模态模型的训练和评估,特别是在高分辨率图像处理和复杂场景理解方面,MME-RealWorld为模型性能的提升提供了强有力的支持。
解决学术问题
MME-RealWorld数据集有效解决了现有多模态大语言模型基准测试中的几个关键问题。首先,其大规模的手动标注数据显著减少了模型性能的方差,确保了评估结果的稳定性。其次,高分辨率的图像和专业的标注团队保证了数据的质量,避免了模型生成标注带来的偏差。此外,数据集中的任务设计更具挑战性,能够更好地反映模型在真实世界中的表现,尤其是在复杂场景下的识别和推理能力。
衍生相关工作
MME-RealWorld数据集的发布催生了一系列相关研究和技术突破。例如,LLaVA-OV模型在该数据集上的表现推动了多模态模型在复杂场景下的优化。此外,VLMEvalKit和Lmms-eval等评估工具的支持,使得研究人员能够更便捷地进行模型评估和比较。这些工作不仅提升了多模态模型的性能,也为未来的研究提供了新的方向和基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作