CAMEL-Bench

Name: CAMEL-Bench
Creator: 穆罕默德·本·扎耶德人工智能大学
Published: 2024-10-25 01:59:38
License: 暂无描述

arXiv2024-10-25 更新2024-10-26 收录

下载链接：

https://mbzuai-oryx.github.io/Camel-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

CAMEL-Bench是由穆罕默德·本·扎耶德人工智能大学开发的全面阿拉伯语大型多模态模型评估基准，旨在代表超过4亿阿拉伯语使用者。该数据集包含29,036个问题，涵盖八个不同领域和38个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学影像、植物疾病和遥感土地使用理解等。数据集的创建过程包括从现有英语基准翻译和手动验证，确保高质量。CAMEL-Bench主要应用于评估和改进阿拉伯语多模态模型的性能，特别是在视觉推理和理解任务中。

CAMEL-Bench is a comprehensive Arabic large multimodal model evaluation benchmark developed by Mohamed bin Zayed University of Artificial Intelligence, designed to cater to the over 400 million Arabic speakers worldwide. The dataset contains 29,036 questions spanning 8 distinct domains and 38 sub-domains, including multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant disease recognition, remote sensing land use interpretation, and more. The dataset was constructed through translation of existing English benchmarks and manual validation, ensuring high data quality. CAMEL-Bench is primarily applied to evaluate and enhance the performance of Arabic multimodal models, particularly in visual reasoning and understanding tasks.

提供机构：

穆罕默德·本·扎耶德人工智能大学

创建时间：

2024-10-25

搜集汇总

数据集介绍

构建方式

CAMEL-Bench数据集的构建过程体现了对阿拉伯语多模态模型评估的全面性和多样性。该数据集涵盖了八个不同的领域和38个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学影像、植物疾病和遥感土地利用理解等。数据集的构建采用了两种主要方法：一是利用现有的阿拉伯语多模态数据样本，二是将现有的英语多模态数据集通过GPT-4o翻译成阿拉伯语，并经过人工验证确保质量。此外，还从互联网上手动收集和生成阿拉伯语样本。整个数据集包含约29,036个问题，经过本地母语者严格的手动验证，确保了数据集的高质量和可靠性。

使用方法

CAMEL-Bench数据集的使用方法多样，适用于评估和训练多模态模型。研究人员可以通过该数据集对模型进行广泛的测试，涵盖从视觉理解到复杂推理的多个任务。数据集提供了详细的评估指标，包括精确匹配准确性、编辑距离和模糊评估方法，以适应不同类型数据集和任务的需求。此外，CAMEL-Bench还提供了开放的评估脚本，便于研究人员进行自定义评估和比较。通过这些方法，研究人员可以全面了解模型在阿拉伯语多模态任务中的表现，并针对性地进行改进和优化。

背景与挑战

背景概述

近年来，大型多模态模型（LMMs）在视觉推理和理解任务中取得了显著进展，这促使了多个LMM基准的引入，以评估这些模型在不同任务中的表现。然而，大多数现有的LMM评估基准主要集中在英语上，限制了其在其他语言中的应用。在此背景下，CAMEL-Bench数据集应运而生，它是由Mohamed bin Zayed University of AI、Aalto University、Linköping University和Australian National University等机构的研究人员共同开发的。该数据集旨在为阿拉伯语提供一个全面的多模态模型评估基准，涵盖了八个不同的领域和38个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害识别和遥感土地利用理解等。CAMEL-Bench包含约29,036个问题，这些问题经过母语为阿拉伯语的人工验证，以确保模型评估的可靠性。

当前挑战

CAMEL-Bench数据集在构建过程中面临多项挑战。首先，现有的多模态模型评估基准主要以英语为中心，这限制了其在阿拉伯语等其他语言中的应用。其次，数据集的构建需要涵盖广泛的领域和子领域，这要求研究人员在数据收集和验证过程中投入大量精力。此外，由于阿拉伯语的复杂性，特别是在手写文档和医学成像等领域，数据的质量和准确性成为关键挑战。最后，评估多模态模型在阿拉伯语环境中的表现，尤其是开放源代码模型，揭示了在这些领域中仍有显著的改进空间。这些挑战不仅涉及数据集的构建，还包括模型在处理阿拉伯语多模态数据时的性能提升。

常用场景

经典使用场景

CAMEL-Bench数据集在多模态理解与推理任务中展现了其经典应用场景。该数据集涵盖了从视觉理解、复杂视觉感知到手写文档理解等多个子领域，为评估大型多模态模型（LMMs）在阿拉伯语环境下的表现提供了全面的基准。通过包含多图像理解、视频理解、医学影像分析等任务，CAMEL-Bench不仅测试了模型在单一模态下的表现，还强调了其在多模态融合与推理中的能力。

解决学术问题

CAMEL-Bench数据集解决了现有大型多模态模型评估基准主要以英语为中心的问题，填补了阿拉伯语环境下多模态模型评估的空白。通过提供涵盖八个领域和38个子领域的29,036个高质量问题，该数据集为研究者提供了一个严谨的评估框架，有助于识别和改进模型在处理阿拉伯语多模态数据时的不足。这不仅推动了阿拉伯语多模态模型的研究进展，也为全球多语言多模态模型的开发提供了宝贵的参考。

实际应用

CAMEL-Bench数据集在实际应用中具有广泛的前景，特别是在阿拉伯语使用地区。其涵盖的领域包括医学影像分析、农业图像理解、远程传感理解等，这些任务在医疗诊断、农业监测和地理信息系统中具有重要应用价值。通过提供高质量的多模态数据和评估基准，CAMEL-Bench有助于开发更智能、更适应阿拉伯语环境的AI系统，从而提升这些领域的自动化和智能化水平。

数据集最近研究