Comprehensive Arabic Multimodal Reasoning Benchmark (ARB)|多模态推理数据集|阿拉伯语处理数据集
收藏ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark
概述
- 名称: ARB (A Comprehensive Arabic Multimodal Reasoning Benchmark)
- 类型: 多模态推理基准
- 语言: 阿拉伯语
- 模态: 文本和视觉
- 目标: 评估阿拉伯语多模态模型的逐步推理能力
- 特点: 首个针对阿拉伯语多模态逐步推理的基准,涵盖11个不同领域
数据集详情
- 样本数量: 1,356个多模态样本
- 推理步骤: 5,119个精心策划的推理步骤
- 领域覆盖: 11个不同领域,包括:
- 视觉推理
- OCR和文档理解
- 图表和图解解释
- 数学和逻辑推理
- 科学和医学分析
- 文化和历史解释
- 遥感
- 农业图像分析
- 复杂视觉感知
数据分布
- 数学与逻辑: 41%
- 图表、图解与表格: 24%
- 其他领域: 包括社会与文化、科学、医学等
数据来源
- 英语推理基准
- 阿拉伯语问答基准
- 英语字幕数据集
- 合成数据
- 工具增强数据
评估指标
- 核心维度:
- 忠实度 (At-Tat¯abuq)
- 信息量 (Al-Ithr¯a’ Al-Ma’l¯um¯at¯ı)
- 连贯性 (At-Taw¯afuq)
- 常识 (Al-Mantiq Al-’A¯mm)
- 推理对齐 (At-Tawa¯fuq Al-Istidla¯l¯ı)
- 辅助检查:
- 幻觉
- 冗余
- 语义差距
- 缺失步骤
评估结果
闭源模型
模型 | 最终答案准确率 (%) | 推理步骤质量 (%) |
---|---|---|
GPT-4o | 60.22 | 64.29 |
GPT-4o-min | 52.22 | 61.02 |
GPT-4.1 | 59.43 | 80.41 |
o4-mini | 58.93 | 80.75 |
Gemini 1.5 Pro | 56.70 | 64.34 |
Gemini 2.0 Flash | 57.80 | 64.09 |
开源模型
模型 | 最终答案准确率 (%) | 推理步骤质量 (%) |
---|---|---|
Qwen2.5VL-7b | 37.02 | 64.03 |
Llama-3.2-11B-Vis-Inst. | 25.58 | 53.20 |
AIN | 27.35 | 52.77 |
Llama-4-Scout-17Bx16E | 48.52 | 77.70 |
Aya-Vision-8B | 28.81 | 63.64 |
InternVl3-8B | 31.04 | 54.50 |
引用
bibtex @misc{ghaboura2025arbcomprehensivearabicmultimodal, title={ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark}, author={Sara Ghaboura and Ketan More and Wafa Alghallabi and Omkar Thawakar and Jorma Laaksonen and Hisham Cholakkal and Salman Khan and Rao Muhammad Anwer}, year={2025}, eprint={2505.17021}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.17021}, }
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录