CAMEL-Bench

Name: CAMEL-Bench
Creator: Mohamed Bin Zayed University of Artificial Intelligence
Published: 2026-05-08 19:39:09
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/MBZUAI/CAMEL-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多模态数据集，包含文本和图像数据。数据集结构包含以下字段：问题（question）、答案（answer）、子集分类（subset）、提示词（prompt）以及图像列表（images）。数据划分为训练集（train），包含1,613个样本，总大小约为2.3GB。该数据集适用于需要结合文本和图像的多模态任务，如视觉问答、基于图像的指令跟随等应用场景。

提供机构：

Mohamed Bin Zayed University of Artificial Intelligence

创建时间：

2026-05-08

原始信息汇总

好的，根据您提供的信息，以下是该数据集的概述：

数据集概述：CAMEL-Bench

数据集名称：CAMEL-Bench

数据集来源：MBZUAI（穆罕默德·本·扎耶德人工智能大学）

简介：该数据集是一个用于评估和基准测试的视觉问答（VQA）数据集。

数据集结构与内容

配置：仅包含一个名为 default 的默认配置。
数据文件：数据文件位于 data/ 目录下，文件名模式为 test-*。
数据特征：每个样本包含以下四个字段：
- prompt (字符串)：提供给模型的文本提示或问题。
- answer (字符串)：与提示对应的标准答案。
- subset (字符串)：样本所属的子集或类别划分。
- images (图像列表)：与提示相关的图像数据。

数据划分与规模

划分：数据集仅包含一个 test（测试）集。
测试集规模：
- 样本数量：29,474 个
- 总字节数：约 33.89 GB

获取与使用

下载地址：https://huggingface.co/datasets/MBZUAI/CAMEL-Bench
总下载大小：约 33.89 GB
数据集总大小：约 33.89 GB

搜集汇总

数据集介绍

构建方式

CAMEL-Bench数据集的构建旨在评估多模态大模型在复杂视觉推理任务上的性能。其构建方式基于精心设计的测试样本集合，每个样本包含一个文本提示（prompt）、一张或多张关联图像（images）、对应的答案（answer）以及子集标签（subset）。数据集中共包含29,474个测试样本，以默认配置统一存储于test分割中，确保评估过程的标准化与可重复性。

使用方法

使用CAMEL-Bench进行模型评估时，研究者可直接加载默认配置下的test分割数据。通过读取prompt字段获取文本指令，结合images字段中的图像数据输入多模态模型，并利用answer字段作为真值进行性能验证。推荐在加载后按subset字段对结果进行分类统计，以分析模型在不同视觉推理子任务上的表现差异。

背景与挑战

背景概述

CAMEL-Bench是一个专为多模态大语言模型（MLLMs）设计的综合性评估基准数据集，由研究者于近期创建，旨在系统性地评测模型在多样化真实场景下的视觉语言理解能力。该数据集隶属于CAMEL系列研究框架，其核心研究问题在于如何全面、公平地比较不同MLLMs在细粒度视觉任务上的表现。包含近3万条测试样本，涵盖图像问答、视觉推理等多类别子集，推动了多模态模型性能评估的标准化进程，对相关领域具有显著的引领与规范作用。

当前挑战

多模态大语言模型评估面临的核心挑战在于现有基准往往覆盖场景单一或任务定义模糊，难以准确反映模型在复杂、混合环境中的真实表现，CAMEL-Bench通过构建大规模多样化子集试图弥合这一缺口。构建过程中，数据集面临高质量图文对获取难度大、人工标注成本高昂以及保证不同子集间难度均衡的关键障碍，同时需确保测试样本避免数据泄露与模型过拟合风险，最终形成了具有挑战性的评测体系。

常用场景

经典使用场景

在开放域多模态理解与推理的研究领域，CAMEL-Bench凭借其大规模、多样化的图像-文本配对数据，为评估和提升视觉语言模型在复杂场景下的表现提供了坚实基准。研究者通常将其用于零样本及少样本情境下的视觉问答、图像描述生成、跨模态检索等核心任务，尤其是检验模型在自然图像与合成图像混合环境中的泛化能力。该数据集精心设计了多粒度子集，覆盖从简单物体识别到复杂因果关系推理的各类挑战，因而成为衡量模型鲁棒性、细粒度感知以及逻辑推理能力的标准测试床。

解决学术问题

CAMEL-Bench有效填补了现有视觉语言基准中场景多样性与任务复杂度不足的学术空白。它解决了经典基准如VQA v2或COCO Captions在图像来源单一、任务类型固定方面带来的评估偏差问题，使得研究者能够系统地诊断模型在处理跨域、跨模态信息时的短板。该数据集的引入促进了对于视觉语言模型在泛化偏差、虚假相关性利用以及集成推理能力等深层次学术问题的探究，其意义在于为构建更具普适性和可信赖性的多智能体系统提供了关键的数据驱动力。

实际应用

在实际应用层面，CAMEL-Bench推动了视觉语言技术在多种工业场景中的落地与迭代。例如，在智能零售领域，它可用于训练能够识别复杂货架陈列并理解商品关联关系的实时分析系统；在自动驾驶场景中，该数据集有助于提升车辆对街道标志、异常交通行为等动态视觉元素的精准理解能力。此外，借助其丰富的图像类型与语言指令，CAMEL-Bench还可服务于智能客服机器人，增强其基于图片的问答与行为规划能力，从而赋能从医疗影像辅助诊断到智能家居交互的广泛实际部署。

数据集最近研究