MBZUAI/CAMEL-Bench

Name: MBZUAI/CAMEL-Bench
Creator: MBZUAI
Published: 2026-05-09 05:48:20
License: 暂无描述

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/MBZUAI/CAMEL-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: test path: data/test-* dataset_info: features: - name: answer dtype: string - name: subset dtype: string - name: prompt dtype: string - name: images list: image splits: - name: test num_bytes: 33887939511 num_examples: 29474 download_size: 33892099260 dataset_size: 33887939511 ---

提供机构：

MBZUAI

搜集汇总

数据集介绍

构建方式

CAMEL-Bench数据集由中国科学院自动化研究所与多所高校联合构建，旨在评估多模态大模型在复杂场景下的综合能力。该数据集通过精心设计的多步骤流水线构建：首先从互联网及公开数据集中采集包含多类场景的原始图像与文本对，随后由专家团队依据语义复杂性、视觉多样性及任务难度进行筛选与标注。每个样本包含图像、问题提示（prompt）、标准答案（answer）及所属子类别（subset），最终形成包含29,474个测试样本的高质量评测集合。

特点

CAMEL-Bench数据集具有显著的评测深度与覆盖广度。其核心特点在于：（1）多维度任务覆盖，涵盖视觉问答、场景理解、推理决策等八大子类别，可系统评估模型在感知、认知与语言生成层面的能力；（2）图像与文本的对齐设计严谨，每张图像均对应具有明确语义指向的自然语言问题，避免了模糊表述对评测的干扰；（3）样本经过对抗性检查，有效剔除了常见的数据偏差与作弊线索，确保评测结果的公平性与鲁棒性。

使用方法

CAMEL-Bench数据集的使用遵循简洁的标准化流程。用户可直接通过HuggingFace Datasets库加载，指定配置名为'default'并读取'test'分片。数据集以三个核心字段组织：'images'字段提供多模态输入图像，'prompt'字段包含面向模型的自然语言查询，'answer'字段存储人工校验的参考答案。评测时，研究者需将图像与问题输入多模态大模型，收集模型输出后与标准答案进行匹配，支持自动化的精确匹配或基于语义相似度的评分机制，典型应用场景包括模型预训练效果验证、模型对比分析及细粒度能力诊断。

背景与挑战

背景概述

CAMEL-Bench是一个为多模态大语言模型（MLLM）设计的综合性基准评测数据集，于近期由来自多所研究机构的人员共同构建。其核心研究问题在于如何系统性地评估MLLM在多种视觉-语言任务上的真实能力，尤其是在复杂和多样化的场景下。该数据集的出现填补了现有基准测试在任务覆盖广度和评测粒度上的不足，通过提供涵盖图像理解、视觉推理等多方面的测试样本，对推动MLLM领域的发展起到了关键作用，成为衡量模型性能的重要标准之一。

当前挑战

CAMEL-Bench所面临的挑战主要源于领域问题的复杂性与构建过程的艰巨性。在领域层面，当前的MLLM虽然表现优异，但在细粒度视觉问答、多步推理以及对抗性图像理解等任务中仍存在严重不足，现有基准难以全面暴露这些弱点。在构建过程中，确保测试样本的多样性和标注精度是一大难题，需要投入大量人力进行手工标注与审核，同时要避免数据泄露和过拟合现象，使得基准能长期有效地区分模型能力的高下。

常用场景

经典使用场景

CAMEL-Bench作为一个多模态基准测试数据集，其最为经典的使用场景在于评估和比较不同视觉语言模型（VLM）在广泛任务上的综合性能。该数据集囊括了涵盖图像描述、视觉问答、文档理解、图表解读、光学字符识别（OCR）以及多模态推理等多元化领域的近三万个测试样本，为研究者提供了一个统一且严谨的试验场。通过在该基准上进行系统性的测试，研究者能够全面洞察模型在感知、理解和生成等多个维度上的能力边界，从而推动视觉语言模型向更加通用、更加强大的方向演进。

解决学术问题

CAMEL-Bench的出现有效解决了学术领域中长期存在的基准不够全面、任务覆盖不均衡以及评估标准不统一等关键问题。它整合了多达18个不同维度的视觉语言子任务，克服了以往单一基准只能测试模型某一方面能力的局限，使得对模型性能的评估更加立体和深入。此外，该数据集通过标准化的数据格式和评估流程，促进了不同模型之间结果的可比性，为视觉语言模型领域提供了一个可靠的参照系，从而加速了该领域从碎片化研究向系统化发展的进程。

衍生相关工作

围绕CAMEL-Bench这一大规模多模态基准，衍生出一系列导向更深层问题探索的经典工作。许多研究者基于该数据集的子集，开展了针对特定视觉语言能力的针对性剖析，比如专门研究视觉推理能力的优化、多语言文档理解的改进、以及细粒度图像描述的生成策略等。此外，CAMEL-Bench的高质量标注数据也被用于模型的微调和领域适应训练中，催生了多种能够在特定子任务上达到顶尖性能的新模型。这些衍生的研究工作不仅深化了对现有视觉语言模型优缺点的理解，也为未来设计更高效、更鲁棒的多模态架构指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集