HuggingFaceM4/MMBench_dev

Name: HuggingFaceM4/MMBench_dev
Creator: HuggingFaceM4
Published: 2023-08-23 13:39:36
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceM4/MMBench_dev

下载链接

链接失效反馈

官方服务：

资源简介：

MMBench_dev数据集是一个用于评估视觉语言模型性能的基准数据集。近年来，视觉语言模型（如MiniGPT-4和LLaVA）的发展迅速，但如何有效评估这些模型的性能成为了一个主要挑战。传统基准如VQAv2和COCO Caption在评估模型时存在一些不足，例如无法全面捕捉模型的细粒度能力，且评估指标缺乏鲁棒性。为了解决这些问题，MMBench_dev数据集定义了一组细粒度的能力，并收集了相关问题，采用创新的评估策略来更可靠地评估模型预测。数据集包含约3000个问题，涵盖20个能力维度，每个问题都是单选格式，问题和选项均为英文。数据集分为dev和test两个部分，比例为4:6。

提供机构：

HuggingFaceM4

原始信息汇总

数据集概述

数据集名称

MMBench_dev

数据集特征

问题类型：单选题，选项数量2至4个。
语言：英语。

数据集结构

数据实例：每个实例包含以下字段：
- index: 实例索引。
- question: 问题描述。
- hint (可选): 提示信息。
- A: 第一个选项。
- B: 第二个选项。
- C (可选): 第三个选项。
- D (可选): 第四个选项。
- image: 相关图像。
- category: 叶子类别。
- l2-category: L-2类别。
- split: 数据分割类型。
- source: 数据来源。

数据分割

总实例数：2974。
分割比例：dev和test按照4:6的比例分割。

评估方法

评估工具：使用ChatGPT匹配模型预测与问题选项，输出最终预测标签（A, B, C, D）。

数据集大小

训练集：
- 实例数：4377
- 数据大小：102942038.498字节
- 下载大小：99866501字节

标签定义

标签：
- 0: A
- 1: B
- 2: C
- 3: D

搜集汇总

数据集介绍

构建方式

MMBench_dev数据集的构建基于对视觉语言模型能力的精细划分，旨在收集与每种能力相关的特定问题。该数据集的问题形式为单选题，涵盖20个能力维度，共计约3000个问题。每个问题均含有一个正确答案，并配以相应的提示信息与图像。数据集分为训练集和开发集，通过运用ChatGPT对模型预测结果进行匹配，输出最终预测标签，确保了评估的可靠性。

使用方法

使用MMBench_dev数据集时，用户可以根据数据集中的字段，如问题、提示、选项、图像和标签等，进行多模态模型的训练和评估。数据集提供的开发集和测试集分割，使得研究人员可以在模型开发阶段进行有效的性能评估，并通过 leaderboard 进行结果对比，以促进模型优化和改进。

背景与挑战

背景概述

随着视觉语言（VL）模型的快速发展，例如MiniGPT-4和LLaVA等，这些模型在处理先前具有挑战性的任务中表现出令人瞩目的性能。然而，如何有效评估这些模型的性能，成为阻碍大型VL模型进一步发展的重要挑战。传统的基准测试如VQAv2和COCO Caption虽然被广泛用于为VL模型提供定量评估，但存在诸多不足。为此，MMBench数据集应运而生，旨在定义一组细粒度的能力，并收集与每种能力相关的相关问题，同时引入创新的评估策略，以确保对模型预测的更稳健评估。MMBench数据集由刘媛、段浩东、张媛汉等研究人员于2023年提出，并由开放 compass 组织构建。

当前挑战

MMBench数据集在构建过程中遇到的挑战主要包括：一是如何全面而准确地定义和收集细粒度的能力和相关问题；二是如何设计出既可靠又易于扩展的评估策略。此外，数据集在解决领域问题，如图像描述和视觉问答任务时，面临的挑战包括传统任务无法完全捕捉模型的细粒度能力，以及现有评估指标缺乏稳健性，无法准确匹配模型的输出和问题的答案。

常用场景

经典使用场景

在当前计算机视觉与自然语言处理领域，多模态模型评价的准确性成为研究的关键。MMBench_dev数据集为此提供了精准的评估框架，其经典使用场景在于对多模态模型进行细粒度能力的测试，通过设定涵盖二十个能力维度的约三千个问题，以单选题形式对模型进行考核，从而全面评估模型在图像与文本联合理解方面的表现。

解决学术问题

MMBench_dev数据集解决了传统多模态评价标准中存在的不足，如评价任务单一、指标不稳健、主观评价难度大等问题。该数据集通过定义细粒度能力，并收集相关的问题，为学术研究提供了更为客观和全面的评价方式，有助于推动多模态模型研究的深入发展。

实际应用

在实际应用中，MMBench_dev数据集可用于评估多模态模型在真实世界任务中的表现，如智能问答系统、内容推荐系统等，它为这些系统的性能提升提供了可靠的评估工具，有助于提高系统对图像和文本信息的理解能力。

数据集最近研究