ARB

Name: ARB
Creator: Mohamed Bin Zayed University of Artificial Intelligence
Published: 2025-05-22 23:17:16
License: 暂无描述

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/MBZUAI/ARB

下载链接

链接失效反馈

官方服务：

资源简介：

ARB数据集是一个全面的阿拉伯语多模态推理基准，包含11个不同领域的1,356个样本和5,119个推理步骤，涵盖文本和视觉模态，强调逐步推理过程，由母语阿拉伯语人士和领域专家审核，支持阿拉伯推理和多模态AI研究。

提供机构：

Mohamed Bin Zayed University of Artificial Intelligence

创建时间：

2025-05-22

原始信息汇总

ARB: 综合性阿拉伯多模态推理基准数据集

数据集概述

名称: ARB (A Comprehensive Arabic Multimodal Reasoning Benchmark)
类型: 多模态推理基准数据集
语言: 阿拉伯语
样本数量: 1,356个多模态样本
推理步骤数量: 5,119个精心策划的推理步骤
领域覆盖: 11个多样化领域

关键特性

强调逐步推理，超越最终答案预测
每个样本包含2-6+个推理步骤链，与人类逻辑一致
由阿拉伯语母语者和领域专家策划和验证
来源包括原始阿拉伯数据、高质量翻译和合成样本
提供强大的评估框架，衡量最终答案准确性和推理质量

数据集结构

特征

image: 图像输入
question: 阿拉伯语推理提示
answer: 最终解决方案（阿拉伯语）
choices: MCQ选项
steps: 有序推理链
domain: 领域类别
Curriculum: 课程类别

分割

preview: 20个示例，6,553,087字节
train: 1,355个示例，657,252,987.185字节

评估协议

评估方法:
- 词法和语义相似性评分：BLEU、ROUGE、BERTScore、LaBSE
- 使用LLM-as-Judge的逐步评估
评估因素: 包括忠实度、解释深度、连贯性、幻觉等10个因素

评估结果

闭源模型

指标/模型	GPT-4o	GPT-4o-mini	GPT-4.1	o4-mini	Gemini 1.5 Pro	Gemini 2.0 Flash
最终答案 (%)	60.22	52.22	59.43	58.93	56.70	57.80
推理步骤 (%)	64.29	61.02	80.41	80.75	64.34	64.09

开源模型

指标/模型	Qwen2.5-VL	LLaMA-3.2	AIN	LLaMA-4 Scout	Aya-Vision	InternVL3
最终答案 (%)	37.02	25.58	27.35	48.52	28.81	31.04
推理步骤 (%)	64.03	53.20	52.77	77.70	63.64	54.50

引用

bibtex @misc{ghaboura2025arbcomprehensivearabicmultimodal, title={ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark}, author={Sara Ghaboura and Ketan More and Wafa Alghallabi and Omkar Thawakar and Jorma Laaksonen and Hisham Cholakkal and Salman Khan and Rao Muhammad Anwer}, year={2025}, eprint={2505.17021}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.17021}, }

搜集汇总

数据集介绍

构建方式

在阿拉伯语多模态推理研究领域，ARB数据集的构建采用了混合来源策略，融合了原始阿拉伯语数据、高质量翻译内容以及合成样本。通过由阿拉伯语母语者和领域专家共同参与的严格筛选流程，确保了语言准确性与文化适应性。构建过程中特别注重推理链条的完整性，每个样本包含2至6个逻辑严密的推理步骤，覆盖科学分析、文化解读等11个专业领域，最终形成包含1,356个多模态样本的高质量数据集。

特点

该数据集作为首个专注于阿拉伯语多模态逐步推理的基准，其显著特征体现在领域覆盖的广度与推理深度的结合。样本涵盖视觉推理、历史解析等11个专业领域，每个样本均配备完整的推理链条和最终答案。数据集特别强调逐步推理能力的评估，不仅关注答案准确性，更注重推理过程的逻辑性，所有内容均经过语言文化双重验证，为阿拉伯语人工智能研究提供了珍贵的多模态资源。

使用方法

研究人员可通过加载标准数据文件访问该数据集，每个样本包含图像、阿拉伯语问题、选项、推理步骤和答案等结构化字段。评估时可结合传统度量指标与大型语言模型评判机制，从词汇匹配度到语义相似性进行多维度分析。数据集支持对最终答案准确率和推理质量的双重评估，为开发阿拉伯语多模态推理模型提供了完整的测试框架和基准参照。

背景与挑战

背景概述

随着人工智能在多模态推理领域的快速发展，阿拉伯语作为全球重要语言之一，其多模态数据处理能力的研究逐渐受到学术界关注。ARB数据集由MBZUAI等机构的研究团队于2025年创建，旨在构建首个专注于阿拉伯语多模态逐步推理的基准测试。该数据集涵盖科学、文化、光学字符识别等11个领域，通过1356个多模态样本和5119个推理步骤，系统性地探索视觉与文本模态的协同推理机制，为阿拉伯语自然语言处理研究提供了重要的基础资源。

当前挑战

在阿拉伯语多模态推理领域，模型需克服语言特有的右向左书写系统与复杂形态变化带来的理解障碍。数据集构建过程中，研究团队面临原生数据稀缺与文化适配性双重挑战，通过融合人工标注与合成数据生成技术，确保推理链条的逻辑连贯性。此外，评估体系需兼顾最终答案准确率与逐步推理质量，采用基于大语言模型的评判机制，对推理过程的忠实度、连贯性等十个维度进行量化分析。

常用场景

经典使用场景

在阿拉伯语多模态推理研究领域，ARB数据集作为首个专注于跨文本与视觉模态逐步推理的基准，其经典应用场景集中于评估模型在复杂情境下的逻辑推演能力。该数据集涵盖科学分析、文化解读、光学字符识别及历史阐释等11个多样化领域，通过包含图像、问题、选项及结构化推理步骤的样本，为研究者提供了系统测试模型多模态理解与链式推理性能的标准环境。

解决学术问题

该数据集有效解决了阿拉伯语多模态人工智能研究中长期存在的关键问题：缺乏兼具语言文化适配性与复杂推理要求的评估基准。通过提供由母语专家标注的五千余个推理步骤，ARB填补了阿拉伯语语境下细粒度推理能力评估的空白，其设计的语义相似度度量与LLM评判框架，为量化模型推理质量提供了方法论创新，显著推进了低资源语言多模态推理研究的科学化进程。

衍生相关工作

基于ARB数据集衍生的经典研究包括多模态推理模型的跨语言迁移学习框架、阿拉伯语特定领域的链式推理增强方法，以及融合文化背景知识的视觉问答系统优化方案。这些工作通过借鉴ARB的阶梯式评估协议与领域分类体系，显著提升了模型在复杂阿拉伯语境下的推理鲁棒性，为后续阿拉伯语多模态大模型的开发奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集