coco-arvqa
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/MouaffakAyoub/coco-arvqa
下载链接
链接失效反馈官方服务:
资源简介:
COCO-ARVQA是一个基于MS COCO 2017 train2017图像的阿拉伯语视觉问答数据集。该数据集提供了阿拉伯语问题、阿拉伯语答案、答案列表、问题标识符、图像标识符和COCO图像文件名。数据集不重新分发COCO图像,训练和验证拆分都引用了官方COCO 2017 train2017.zip存档中的图像。数据集包含93,645个训练示例和10,361个验证示例,总计104,006个示例,涉及55,438张独特图像。每个示例包含多个字段,如任务名称、问题ID、图像ID、阿拉伯语问题、阿拉伯语答案、答案类型等。该数据集适用于阿拉伯语视觉问答、多语言和阿拉伯语视觉语言建模、低资源多模态学习研究等任务。数据集中的阿拉伯语问答注释采用CC BY 4.0许可,而COCO图像需从官方存档下载并遵守原始图像许可。
创建时间:
2026-04-27
原始信息汇总
数据集概述:COCO-ARVQA
COCO-ARVQA 是一个面向阿拉伯语的视觉问答(VQA)数据集,基于 MS COCO 2017 train2017 图像构建。
数据集摘要
- 语言:阿拉伯语
- 许可证:CC BY 4.0
- 任务类型:视觉问答、图像到文本
- 标签:阿拉伯语、VQA、视觉问答、COCO、多模态、低资源语言、阿拉伯语NLP
数据集结构
coco-arvqa/ ├── README.md ├── CITATION.cff ├── LICENSE ├── dataset_stats.json ├── data/ │ ├── train.jsonl │ └── validation.jsonl └── assets/ ├── split_examples.png ├── unique_images.png ├── answer_type_distribution.png └── top_question_types_train.png
数据划分
| 划分 | 样本数 | 唯一图像数 | 图像来源 |
|---|---|---|---|
| 训练集 (Train) | 93,645 | 49,894 | COCO 2017 train2017 |
| 验证集 (Validation) | 10,361 | 5,544 | COCO 2017 train2017 |
| 总计 | 104,006 | 55,438 | COCO 2017 train2017 |
答案类型分布
| 答案类型 | 训练集 | 验证集 | 总计 |
|---|---|---|---|
| 是/否 (yes/no) | 36,157 | 3,925 | 40,082 |
| 数字 (number) | 26,591 | 2,921 | 29,512 |
| 其他 (other) | 30,897 | 3,515 | 34,412 |
数据字段
每条 JSONL 记录包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
task |
string | 任务名称,通常为 vqa_ar |
question_id |
integer/string | 问题标识符 |
image_id |
integer/string | COCO图像标识符 |
image_file_name |
string | 图像在COCO train2017 中的文件名 |
coco_split |
string | COCO图像划分,此处为 train2017 |
coco_images_zip |
string | 官方COCO图像压缩包URL |
question_ar |
string | 阿拉伯语视觉问题 |
prompt |
string | 指令形式的阿拉伯语提示 |
answer_ar |
string | 主要阿拉伯语答案 |
multiple_choice_answer_ar |
string | 阿拉伯语多项选择答案(可用时) |
answers_ar |
list[string] | 阿拉伯语答案标注列表 |
question_type_en |
string | 原始或继承的英语问题类型类别 |
answer_type |
string | 答案类别:yes/no、number 或 other |
source_dataset |
string | 图像来源数据集 |
dataset_name |
string | 数据集名称 |
使用方式
从 Hugging Face 加载标注
python from datasets import load_dataset
ds = load_dataset("MouaffakAyoub/coco-arvqa")
下载并匹配 COCO 图像
bash wget http://images.cocodataset.org/zips/train2017.zip unzip train2017.zip
python from pathlib import Path
image_root = Path("train2017") example = ds["train"][0] image_path = image_root / example["image_file_name"]
预期用途
- 阿拉伯语视觉问答研究
- 多语言和阿拉伯语视觉-语言建模
- 多模态模型的参数高效适配
- 低资源多模态学习研究
- 阿拉伯语VQA系统评估
限制说明
- 本仓库不包含COCO图像,用户需自行下载
- 训练集和验证集均引用COCO 2017
train2017图像 - 阿拉伯语问答可能存在翻译或生成噪声
- 数据集可能继承COCO图像及自动生成/翻译过程中的视觉、文化和社会偏见
- 部分答案简短,如颜色、数字或是否回答
许可与版权
- 阿拉伯语VQA标注:采用 CC BY 4.0 协议发布
- COCO图像:本仓库不重新分发,用户须从官方COCO存档下载并遵守原始图像许可和Flickr条款
搜集汇总
数据集介绍

构建方式
COCO-ARVQA是一个面向阿拉伯语视觉问答任务的数据集,其构建基础源自微软发布的MS COCO 2017训练集图像。研究者将COCO 2017 train2017中的图像与人工或自动生成的阿拉伯语问题及答案进行配对,形成了覆盖yes/no、数字和开放式类别的问答对。数据集内部将全部104,006个样本划分为训练集与验证集,两部分均引用同一批图像资源,但图像文件本身不随注释集分发,用户需从官方COCO存档中自行下载。
特点
该数据集具有鲜明的多模态与低资源语言特色。每个样本不仅包含阿拉伯语问题、对应答案及多项候选回答,还附带了指令式提示、问题类型英文标签和答案类别划分。数据集中yes/no类型问题约占总数的38.5%,数字型约占28.4%,其他开放型约占33.1%,呈现出均衡的答案分布。此外,数据集保留了COCO图像标识符与文件名,便于与原始视觉信息进行跨模态关联。
使用方法
用户可通过HuggingFace Datasets库直接加载注释数据,使用`load_dataset`函数即可获得训练与验证两个子集。随后需单独下载COCO 2017训练集图像压缩包并解压,借助每条记录中的`image_file_name`字段将文本与对应图片关联。数据集以JSONL格式存储,每个对象包含任务类型、问题ID、图像ID、阿拉伯语问题与答案、多项选择答案列表以及答案类型等字段,方便研究者直接用于训练或评估阿拉伯语视觉问答模型。
背景与挑战
背景概述
COCO-ARVQA数据集由Ayoub Mouaffak于2026年创建,旨在填补阿拉伯语视觉问答领域的空白。该数据集基于MS COCO 2017图像,构建了超过10万个阿拉伯语问答对,涵盖是非、数字和开放式答案类型。其核心研究问题在于推动低资源语言的多模态理解能力,尤其针对阿拉伯语这一语言形态复杂、标注资源稀缺的语言。COCO-ARVQA的诞生为阿拉伯语视觉语言模型提供了标准化的训练与评估基准,促进了多模态人工智能在阿拉伯世界的应用发展。通过链接图像与阿拉伯语自然语言,该数据集在跨语言视觉推理研究中具有重要的基石作用。
当前挑战
该数据集所解决的核心领域挑战是阿拉伯语视觉问答的低资源困境。不同于英语等主流语言,阿拉伯语因其形态学复杂性、方言多样性及标注成本高昂,在视觉问答领域长期缺乏大规模高质量数据集。构建过程中,作者面临从COCO图像生成准确阿拉伯语问答对的困难,包括确保问题语义与视觉内容一致、处理答案类型(是非/数字/开放式)的多样性以及控制自动翻译或生成过程中的噪声。此外,数据集还需规避COCO图像原有的文化与社会偏见,并保证标注结果的客观性。这些挑战共同构成了构建阿拉伯语多模态数据集的典型障碍。
常用场景
经典使用场景
在视觉与语言的交叉领域中,视觉问答(VQA)作为一项核心任务,要求模型在理解图像内容的同时准确回答自然语言问题。COCO-ARVQA数据集专为阿拉伯语视觉问答研究而构建,其基于MS COCO 2017图像,提供了近十万条阿拉伯语问句与答案对,涵盖是非、数字及开放式答案类型。该数据集最经典的使用场景在于训练和评估多模态模型在低资源语言阿拉伯语上的视觉推理能力,研究者可借助其统一的JSON结构,将图像与阿拉伯语问答进行配对,从而开展端到端的视觉语言模型微调与评测,推动阿拉伯语多模态人工智能的进步。
解决学术问题
COCO-ARVQA数据集的问世有效填补了阿拉伯语视觉问答领域高质量标注数据的空白,解决了低资源语言在多模态理解研究中数据匮乏的困境。学术界长期面临的一个核心挑战是,主流VQA数据集如VQA v2多集中于英语,导致模型对阿拉伯语的视觉推理能力缺乏系统评估与优化。该数据集通过提供大规模、多样化的阿拉伯语问答标注,使得研究者能够系统性地探索视觉语言模型在跨语言迁移、零样本学习以及参数高效微调中的表现。其重要意义在于加速了多语言多模态模型的公平性研究,促进了面向阿拉伯语社区的人工智能技术发展。
衍生相关工作
围绕COCO-ARVQA数据集,学术界已催生出一系列富有影响力的相关工作。首先,在数据增强方面,研究者借鉴其结构与标注方式,构建了更大规模的阿拉伯语VQA数据集或跨语言数据集的扩展版本。其次,在模型架构创新上,该数据集被用于评估参数高效微调方法(如LoRA、Adapter)在低资源多模态任务中的有效性,推动了轻量化多模态模型的发展。此外,部分工作聚焦于跨语言知识迁移,利用该数据集探索从英语VQA模型向阿拉伯语环境的零样本或小样本迁移策略。这些衍生研究不仅深化了对多模态模型在低资源语言上泛化能力的理解,也为未来构建真正多语言、多文化的通用视觉问答系统奠定了基础。
以上内容由遇见数据集搜集并总结生成



