Comprehensive Arabic Multimodal Reasoning Benchmark (ARB)
收藏arXiv2025-05-23 更新2025-05-24 收录
下载链接:
https://mbzuai-oryx.github.io/ARB/
下载链接
链接失效反馈官方服务:
资源简介:
ARB是一个全面的阿拉伯语多模态推理基准数据集,旨在评估阿拉伯语中多模态推理的逐步推理过程。该数据集涵盖了11个不同的领域,包括视觉推理、文档理解、OCR、科学分析和文化解释。ARB包含1,356个多模态样本,配对5,119个人工编辑的推理步骤和相应的动作。该数据集提供了一个结构化的框架,用于诊断在代表性不足的语言中进行多模态推理,并标志着迈向包容性、透明性和文化意识的人工智能系统的重要一步。
提供机构:
Mohamed bin Zayed University of AI, Australian National University, Aalto University
创建时间:
2025-05-23
原始信息汇总
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
概述
- 名称: ARB (A Comprehensive Arabic Multimodal Reasoning Benchmark)
- 类型: 多模态推理基准
- 语言: 阿拉伯语
- 模态: 文本和视觉
- 目标: 评估阿拉伯语多模态模型的逐步推理能力
- 特点: 首个针对阿拉伯语多模态逐步推理的基准,涵盖11个不同领域
数据集详情
- 样本数量: 1,356个多模态样本
- 推理步骤: 5,119个精心策划的推理步骤
- 领域覆盖: 11个不同领域,包括:
- 视觉推理
- OCR和文档理解
- 图表和图解解释
- 数学和逻辑推理
- 科学和医学分析
- 文化和历史解释
- 遥感
- 农业图像分析
- 复杂视觉感知
数据分布
- 数学与逻辑: 41%
- 图表、图解与表格: 24%
- 其他领域: 包括社会与文化、科学、医学等
数据来源
- 英语推理基准
- 阿拉伯语问答基准
- 英语字幕数据集
- 合成数据
- 工具增强数据
评估指标
- 核心维度:
- 忠实度 (At-Tat¯abuq)
- 信息量 (Al-Ithr¯a’ Al-Ma’l¯um¯at¯ı)
- 连贯性 (At-Taw¯afuq)
- 常识 (Al-Mantiq Al-’A¯mm)
- 推理对齐 (At-Tawa¯fuq Al-Istidla¯l¯ı)
- 辅助检查:
- 幻觉
- 冗余
- 语义差距
- 缺失步骤
评估结果
闭源模型
| 模型 | 最终答案准确率 (%) | 推理步骤质量 (%) |
|---|---|---|
| GPT-4o | 60.22 | 64.29 |
| GPT-4o-min | 52.22 | 61.02 |
| GPT-4.1 | 59.43 | 80.41 |
| o4-mini | 58.93 | 80.75 |
| Gemini 1.5 Pro | 56.70 | 64.34 |
| Gemini 2.0 Flash | 57.80 | 64.09 |
开源模型
| 模型 | 最终答案准确率 (%) | 推理步骤质量 (%) |
|---|---|---|
| Qwen2.5VL-7b | 37.02 | 64.03 |
| Llama-3.2-11B-Vis-Inst. | 25.58 | 53.20 |
| AIN | 27.35 | 52.77 |
| Llama-4-Scout-17Bx16E | 48.52 | 77.70 |
| Aya-Vision-8B | 28.81 | 63.64 |
| InternVl3-8B | 31.04 | 54.50 |
引用
bibtex @misc{ghaboura2025arbcomprehensivearabicmultimodal, title={ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark}, author={Sara Ghaboura and Ketan More and Wafa Alghallabi and Omkar Thawakar and Jorma Laaksonen and Hisham Cholakkal and Salman Khan and Rao Muhammad Anwer}, year={2025}, eprint={2505.17021}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.17021}, }
搜集汇总
数据集介绍
构建方式
ARB数据集的构建采用了多阶段、多来源的混合方法,涵盖11个领域。首先从英语推理基准(如VRC-Bench)中筛选适合阿拉伯语的内容,通过GPT-4o翻译并由母语者校验;其次整合阿拉伯语QA基准(如CAMEL-Bench)并生成逐步推理链;同时利用英文标注数据集(如AgriCLIP)通过反向-正向生成策略创建阿拉伯语推理问题;还包含网络爬取的OCR文档分析数据和工具增强生成的图表数据。所有数据经过人工循环迭代验证,确保逻辑一致性、文化适应性和语言流畅性。
特点
ARB是首个专注于阿拉伯语多模态逐步推理的基准,包含1,356个样本和5,119条人工标注的推理步骤。其特点包括:1) 领域多样性,覆盖视觉推理、医学影像分析等11个领域;2) 文化敏感性,所有内容经阿拉伯母语专家验证;3) 细粒度评估,每个样本包含图像、阿拉伯语问题及分步推理动作;4) 复杂任务设计,平均每个样本需3.78个推理步骤,数学逻辑领域最多达16步;5) 支持透明评估,提供推理步骤质量评分标准。
使用方法
使用ARB需遵循标准化流程:1) 模型输入包含图像和阿拉伯语问题;2) 采用特定阿拉伯语提示模板(如图4)生成分步推理;3) 评估时使用LLM-as-Judge框架,从忠实度、信息量等10个维度(如图5)对推理步骤评分;4) 可结合传统指标(BLEU、ROUGE)和语义相似度(LaBSE)进行多角度分析;5) 支持领域级细粒度评估(如图13-16),需注意不同领域的最佳步骤长度差异(数学逻辑平均4步,医学分析需6步)。
背景与挑战
背景概述
Comprehensive Arabic Multimodal Reasoning Benchmark (ARB) 是由Mohamed bin Zayed University of AI等机构于2025年推出的首个阿拉伯语多模态推理基准数据集。该数据集旨在解决大型多模态模型(LMMs)在阿拉伯语环境下逐步推理能力评估的空白,涵盖视觉推理、文档理解、OCR、科学分析和文化解释等11个领域,包含1,356个多模态样本和5,119个人工标注的推理步骤。ARB的建立标志着阿拉伯语这一全球4亿多人使用的语言在AI系统特别是涉及多模态推理的系统中长期代表性不足的问题得到重视,为教育、医疗和文化保护等关键领域的阿拉伯语AI发展奠定了基础。
当前挑战
ARB面临的挑战主要体现在两个方面:领域问题方面,阿拉伯语复杂的语言学特征(如方言多样性、从右到左的书写系统)和文化特异性使得现有英语主导的推理模型难以直接迁移;构建过程方面,数据收集需要平衡现代标准阿拉伯语和方言变体,确保文化相关性,同时多模态标注需要协调文本与视觉元素的复杂交互。具体挑战包括:1) 缺乏现成的阿拉伯语多模态推理数据,需从零构建标注规范;2) 阿拉伯语形态复杂性导致自动处理困难;3) 文化敏感内容(如宗教、历史)的适当表示;4) 多模态对齐中视觉与文本线索的协调。
常用场景
经典使用场景
ARB数据集作为首个针对阿拉伯语多模态推理的综合性基准,广泛应用于评估大型多模态模型(LMMs)在视觉-语言联合任务中的逐步推理能力。其经典使用场景包括跨11个领域的多模态样本分析,如医学影像诊断中基于X光片的关节炎分步判断、历史文物图像的文化归属推理、农业病虫害视觉识别等。数据集通过1,356个样本与5,119条人工标注的推理步骤,为模型提供结构化评估框架,特别关注阿拉伯语语境下的逻辑连贯性和文化适配性。
实际应用
在实际应用层面,ARB支撑着阿拉伯语地区的智能化服务升级。在医疗领域,基于其医学影像子集训练的模型可辅助诊断骨关节炎等本地高发疾病;教育场景中,OCR推理模块用于阿拉伯语手写试卷的自动批改;农业领域则应用于椰枣树病害的视觉检测系统。数据集特别设计的文化理解任务(如传统舞蹈分类)已被整合至迪拜智能导览系统,提升游客体验。此外,其开放的评估套件正被阿联酋、沙特等国的科技公司用于产品本地化测试。
衍生相关工作
ARB催生了多个重要研究方向:1)扩展性工作如MBZUAI团队后续开发的CAMEL-Bench聚焦阿拉伯语LMMs全面评估;2)方法论改进如《LlamaV-o1》提出的课程学习框架被应用于优化阿拉伯语视觉推理;3)工具链衍生包括基于ARB标注规范开发的Arabic-CoT可视化分析工具;4)跨文化研究如《ArabCulture》利用ARB范式构建了22个阿拉伯国家的文化常识库。数据集还启发了Aya-Vision等阿拉伯原生模型的训练,推动中东地区AI生态发展。
以上内容由遇见数据集搜集并总结生成



