ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

github2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/mbzuai-oryx/ARB

下载链接

链接失效反馈

官方服务：

资源简介：

ARB是第一个专注于阿拉伯语跨文本和视觉模态逐步推理的基准，涵盖科学、文化、OCR和历史解释等11个不同领域。它包括1,356个多模态样本，每个样本包含一个图像、阿拉伯语问题和基于推理的答案，以及5,119个精心策划的推理步骤。数据集由阿拉伯语母语者和领域专家验证，包含原始阿拉伯语数据、高质量翻译和合成样本。

ARB is the first benchmark dedicated to cross-text and visual modality incremental reasoning in Arabic, encompassing 11 diverse domains including science, culture, OCR, and historical interpretation. It includes 1,356 multimodal samples, each with an image, an Arabic question, and an answer based on reasoning, as well as 5,119 meticulously crafted reasoning steps. The dataset has been verified by Arabic native speakers and domain experts, and it contains original Arabic data, high-quality translations, and synthetic samples.

创建时间：

2025-05-22

原始信息汇总

ARB: 阿拉伯多模态推理基准数据集

数据集概述

名称: ARB (A Comprehensive Arabic Multimodal Reasoning Benchmark)
类型: 多模态基准数据集
语言: 阿拉伯语
模态: 文本和视觉
样本数量: 1,356个多模态样本
推理步骤: 5,119个

关键特性

多样性: 覆盖11个不同领域，包括科学、文化、OCR和历史解释等
验证: 由阿拉伯语母语者和领域专家验证
数据来源: 原始阿拉伯语数据、高质量翻译和合成样本的混合
开放性: 完全开源的数据集和工具包

数据构成

每个样本包含:
- 图像
- 阿拉伯语问题
- 基于推理的答案
- 选项（针对多选题）
- 有序推理链
- 最终解决方案（阿拉伯语）
- 领域类别（11个类别之一）
- 课程类型（4种之一）

领域分布

领域	英文基准	阿拉伯基准	人工创建	合成
视觉推理	✅	–	–	–
OCR与文档分析	–	–	✅	✅
图表与数据表(CDT)	✅	✅	✅	✅
数学与逻辑	✅	–	–	–
社会与文化	✅	–	–	–
计算机视觉感知	✅	–	–	–
医学图像分析	✅	✅	–	–
科学推理	✅	–	–	–
农业解释	✅	–	✅	✅
遥感理解	–	✅	–	–
历史与人类学	✅	–	✅	✅

评估协议

评估指标:
- 词法和语义相似度分数（BLEU、ROUGE、BERTScore）
- 跨语言语义对齐（LaBSE）
- 自定义阿拉伯语评估标准（包括10个因素）
LLM评估:
- 逐步推理质量（连贯性、信息量、常识）
- 最终答案准确性
- 与人类评分者的一致性（Krippendorffs Alpha > 87%）

评估结果

闭源模型

	GPT-4o	GPT-4o-mini	GPT-4.1	o4-mini	Gemini 1.5 Pro	Gemini 2.0 Flash
最终答案 (%)	60.22	52.22	59.43	58.93	56.7	57.8
推理步骤 (%)	64.29	61.02	80.41	80.75	64.34	64.09

开源模型

	Qwen2.5-VL-7B	Llama-3.2-11B	AIN	Llama-4 Scout	Aya-Vision-8B	InternVL3-8B
最终答案 (%)	37.02	25.58	27.35	48.52	28.81	31.04
推理步骤 (%)	64.03	53.2	52.77	77.7	63.64	54.5

下载

bash from datasets import load_dataset ds = load_dataset("MBZUAI/ARB")

引用

bibtex @misc{ghaboura2025arbcomprehensivearabicmultimodal, title={ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark}, author={Sara Ghaboura and Ketan More and Wafa Alghallabi and Omkar Thawakar and Jorma Laaksonen and Hisham Cholakkal and Salman Khan and Rao Muhammad Anwer}, year={2025}, eprint={2505.17021}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.17021}, }

相关机构

MBZUAI
IVAL
Oryx

搜集汇总

数据集介绍

构建方式

ARB数据集作为首个专注于阿拉伯语多模态推理的基准测试，其构建过程体现了严谨的科学方法论。研究团队采用混合数据采集策略，整合了原生阿拉伯语数据、高质量翻译文本以及合成样本，覆盖视觉推理、OCR分析、科学推理等11个专业领域。通过领域专家和阿拉伯语母语者的双重验证，确保了1,356个多模态样本的质量，每个样本包含图像、阿拉伯语问题及基于5,119个人工标注推理步骤的答案。数据采集过程特别注重文化适应性，在历史解释和社会文化等领域进行了本土化处理。

使用方法

研究者可通过HuggingFace平台直接加载数据集，使用标准接口访问图像、问题、选项链、推理步骤和最终答案等结构化字段。评估协议建议采用多维度方法：既要测量最终答案准确率，也需评估推理步骤质量。官方提供了基于12个开源和闭源模型的基准结果，包括GPT-4o和Gemini等先进模型的表现。对于阿拉伯语特定的评估，推荐使用LaBSE进行跨语言语义对齐分析，并参考论文中提供的定制化评估标准。数据集特别适合研究多模态推理中的文化适应性、跨模态对齐等前沿问题。

背景与挑战

背景概述

ARB（A Comprehensive Arabic Multimodal Reasoning Benchmark）是由MBZUAI-ORYX团队于2025年推出的首个专注于阿拉伯语多模态推理的综合性基准测试。该数据集由Sara Ghaboura、Ketan More等研究者主导开发，旨在填补阿拉伯语在多模态推理领域的空白。数据集涵盖视觉推理、OCR分析、科学推理等11个领域，包含1,356个多模态样本和5,119个经过人工验证的推理步骤。ARB的推出为阿拉伯语自然语言处理和计算机视觉的交叉研究提供了重要资源，推动了跨模态推理技术在阿拉伯文化语境下的发展。

当前挑战

ARB数据集面临的核心挑战体现在两个方面：领域问题的复杂性和构建过程的技术难度。在领域层面，阿拉伯语独特的语法结构和丰富的文化内涵对多模态推理模型提出了更高要求，需要模型同时处理视觉信息与复杂的语言逻辑。构建过程中，研究团队需克服阿拉伯语高质量标注数据稀缺的困难，通过混合来源（原创、翻译和合成数据）确保数据多样性，同时维持文化准确性。此外，跨模态对齐和推理步骤的标准化标注也构成了显著挑战，需依赖阿拉伯语母语者和领域专家的深度参与。

常用场景

经典使用场景

在阿拉伯语多模态推理研究领域，ARB数据集为学者们提供了一个涵盖11个不同领域的综合性基准测试平台。该数据集通过结合图像和阿拉伯语文本，支持从视觉推理到历史解释的多样化任务，尤其适合用于评估模型在复杂跨模态场景下的逐步推理能力。研究者可利用其丰富的样本和详尽的推理步骤，深入探索阿拉伯语语境下的多模态理解机制。

解决学术问题

ARB数据集有效解决了阿拉伯语多模态研究中数据稀缺和评估标准不统一的核心问题。其精心设计的评估框架和多样化的领域覆盖，为衡量模型在阿拉伯语语境下的语义理解、逻辑推理和跨模态对齐能力提供了可靠基准。该数据集填补了非英语多模态推理研究的空白，推动了跨文化认知计算的发展。

实际应用

在教育科技领域，ARB数据集可赋能阿拉伯语智能辅导系统的开发，通过多模态交互提升学习效果。在文化遗产数字化方面，其历史解释模块有助于构建智能文物解读系统。医疗图像分析模块则为阿拉伯地区的AI辅助诊断提供了语言适配的测试平台，展现了跨学科应用价值。

数据集最近研究