five

Comprehensive Arabic Multimodal Reasoning Benchmark (ARB)|多模态推理数据集|阿拉伯语处理数据集

收藏
arXiv2025-05-23 更新2025-05-24 收录
多模态推理
阿拉伯语处理
下载链接:
https://mbzuai-oryx.github.io/ARB/
下载链接
链接失效反馈
资源简介:
ARB是一个全面的阿拉伯语多模态推理基准数据集,旨在评估阿拉伯语中多模态推理的逐步推理过程。该数据集涵盖了11个不同的领域,包括视觉推理、文档理解、OCR、科学分析和文化解释。ARB包含1,356个多模态样本,配对5,119个人工编辑的推理步骤和相应的动作。该数据集提供了一个结构化的框架,用于诊断在代表性不足的语言中进行多模态推理,并标志着迈向包容性、透明性和文化意识的人工智能系统的重要一步。
提供机构:
Mohamed bin Zayed University of AI, Australian National University, Aalto University
创建时间:
2025-05-23
原始信息汇总

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

概述

  • 名称: ARB (A Comprehensive Arabic Multimodal Reasoning Benchmark)
  • 类型: 多模态推理基准
  • 语言: 阿拉伯语
  • 模态: 文本和视觉
  • 目标: 评估阿拉伯语多模态模型的逐步推理能力
  • 特点: 首个针对阿拉伯语多模态逐步推理的基准,涵盖11个不同领域

数据集详情

  • 样本数量: 1,356个多模态样本
  • 推理步骤: 5,119个精心策划的推理步骤
  • 领域覆盖: 11个不同领域,包括:
    • 视觉推理
    • OCR和文档理解
    • 图表和图解解释
    • 数学和逻辑推理
    • 科学和医学分析
    • 文化和历史解释
    • 遥感
    • 农业图像分析
    • 复杂视觉感知

数据分布

  • 数学与逻辑: 41%
  • 图表、图解与表格: 24%
  • 其他领域: 包括社会与文化、科学、医学等

数据来源

  1. 英语推理基准
  2. 阿拉伯语问答基准
  3. 英语字幕数据集
  4. 合成数据
  5. 工具增强数据

评估指标

  • 核心维度:
    • 忠实度 (At-Tat¯abuq)
    • 信息量 (Al-Ithr¯a’ Al-Ma’l¯um¯at¯ı)
    • 连贯性 (At-Taw¯afuq)
    • 常识 (Al-Mantiq Al-’A¯mm)
    • 推理对齐 (At-Tawa¯fuq Al-Istidla¯l¯ı)
  • 辅助检查:
    • 幻觉
    • 冗余
    • 语义差距
    • 缺失步骤

评估结果

闭源模型

模型 最终答案准确率 (%) 推理步骤质量 (%)
GPT-4o 60.22 64.29
GPT-4o-min 52.22 61.02
GPT-4.1 59.43 80.41
o4-mini 58.93 80.75
Gemini 1.5 Pro 56.70 64.34
Gemini 2.0 Flash 57.80 64.09

开源模型

模型 最终答案准确率 (%) 推理步骤质量 (%)
Qwen2.5VL-7b 37.02 64.03
Llama-3.2-11B-Vis-Inst. 25.58 53.20
AIN 27.35 52.77
Llama-4-Scout-17Bx16E 48.52 77.70
Aya-Vision-8B 28.81 63.64
InternVl3-8B 31.04 54.50

引用

bibtex @misc{ghaboura2025arbcomprehensivearabicmultimodal, title={ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark}, author={Sara Ghaboura and Ketan More and Wafa Alghallabi and Omkar Thawakar and Jorma Laaksonen and Hisham Cholakkal and Salman Khan and Rao Muhammad Anwer}, year={2025}, eprint={2505.17021}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.17021}, }

AI搜集汇总
数据集介绍
构建方式
ARB数据集的构建采用了多阶段、多来源的混合方法,涵盖11个领域。首先从英语推理基准(如VRC-Bench)中筛选适合阿拉伯语的内容,通过GPT-4o翻译并由母语者校验;其次整合阿拉伯语QA基准(如CAMEL-Bench)并生成逐步推理链;同时利用英文标注数据集(如AgriCLIP)通过反向-正向生成策略创建阿拉伯语推理问题;还包含网络爬取的OCR文档分析数据和工具增强生成的图表数据。所有数据经过人工循环迭代验证,确保逻辑一致性、文化适应性和语言流畅性。
特点
ARB是首个专注于阿拉伯语多模态逐步推理的基准,包含1,356个样本和5,119条人工标注的推理步骤。其特点包括:1) 领域多样性,覆盖视觉推理、医学影像分析等11个领域;2) 文化敏感性,所有内容经阿拉伯母语专家验证;3) 细粒度评估,每个样本包含图像、阿拉伯语问题及分步推理动作;4) 复杂任务设计,平均每个样本需3.78个推理步骤,数学逻辑领域最多达16步;5) 支持透明评估,提供推理步骤质量评分标准。
使用方法
使用ARB需遵循标准化流程:1) 模型输入包含图像和阿拉伯语问题;2) 采用特定阿拉伯语提示模板(如图4)生成分步推理;3) 评估时使用LLM-as-Judge框架,从忠实度、信息量等10个维度(如图5)对推理步骤评分;4) 可结合传统指标(BLEU、ROUGE)和语义相似度(LaBSE)进行多角度分析;5) 支持领域级细粒度评估(如图13-16),需注意不同领域的最佳步骤长度差异(数学逻辑平均4步,医学分析需6步)。
背景与挑战
背景概述
Comprehensive Arabic Multimodal Reasoning Benchmark (ARB) 是由Mohamed bin Zayed University of AI等机构于2025年推出的首个阿拉伯语多模态推理基准数据集。该数据集旨在解决大型多模态模型(LMMs)在阿拉伯语环境下逐步推理能力评估的空白,涵盖视觉推理、文档理解、OCR、科学分析和文化解释等11个领域,包含1,356个多模态样本和5,119个人工标注的推理步骤。ARB的建立标志着阿拉伯语这一全球4亿多人使用的语言在AI系统特别是涉及多模态推理的系统中长期代表性不足的问题得到重视,为教育、医疗和文化保护等关键领域的阿拉伯语AI发展奠定了基础。
当前挑战
ARB面临的挑战主要体现在两个方面:领域问题方面,阿拉伯语复杂的语言学特征(如方言多样性、从右到左的书写系统)和文化特异性使得现有英语主导的推理模型难以直接迁移;构建过程方面,数据收集需要平衡现代标准阿拉伯语和方言变体,确保文化相关性,同时多模态标注需要协调文本与视觉元素的复杂交互。具体挑战包括:1) 缺乏现成的阿拉伯语多模态推理数据,需从零构建标注规范;2) 阿拉伯语形态复杂性导致自动处理困难;3) 文化敏感内容(如宗教、历史)的适当表示;4) 多模态对齐中视觉与文本线索的协调。
常用场景
经典使用场景
ARB数据集作为首个针对阿拉伯语多模态推理的综合性基准,广泛应用于评估大型多模态模型(LMMs)在视觉-语言联合任务中的逐步推理能力。其经典使用场景包括跨11个领域的多模态样本分析,如医学影像诊断中基于X光片的关节炎分步判断、历史文物图像的文化归属推理、农业病虫害视觉识别等。数据集通过1,356个样本与5,119条人工标注的推理步骤,为模型提供结构化评估框架,特别关注阿拉伯语语境下的逻辑连贯性和文化适配性。
实际应用
在实际应用层面,ARB支撑着阿拉伯语地区的智能化服务升级。在医疗领域,基于其医学影像子集训练的模型可辅助诊断骨关节炎等本地高发疾病;教育场景中,OCR推理模块用于阿拉伯语手写试卷的自动批改;农业领域则应用于椰枣树病害的视觉检测系统。数据集特别设计的文化理解任务(如传统舞蹈分类)已被整合至迪拜智能导览系统,提升游客体验。此外,其开放的评估套件正被阿联酋、沙特等国的科技公司用于产品本地化测试。
衍生相关工作
ARB催生了多个重要研究方向:1)扩展性工作如MBZUAI团队后续开发的CAMEL-Bench聚焦阿拉伯语LMMs全面评估;2)方法论改进如《LlamaV-o1》提出的课程学习框架被应用于优化阿拉伯语视觉推理;3)工具链衍生包括基于ARB标注规范开发的Arabic-CoT可视化分析工具;4)跨文化研究如《ArabCulture》利用ARB范式构建了22个阿拉伯国家的文化常识库。数据集还启发了Aya-Vision等阿拉伯原生模型的训练,推动中东地区AI生态发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录