VQA-v2.0
收藏OpenDataLab2026-04-12 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VQA-v2_dot_0
下载链接
链接失效反馈资源简介:
VQA是一个新的数据集,其中包含有关图像的开放式问题。这些问题需要对视觉,语言和常识知识的理解才能回答。
265,016图像 (可可和抽象场景)
每张图片至少3个问题 (平均5.4个问题)
每个问题10个基本事实答案
每个问题3个合理 (但可能不正确) 的答案
自动评估指标
VQA is a novel dataset comprising open-ended questions about images. Answering these questions requires comprehension of visual, linguistic, and commonsense knowledge.
265,016 images (from COCO and abstract scenes)
Each image contains at least 3 questions, with a mean of 5.4 questions per image.
Each question is paired with 10 ground-truth answers.
Each question includes 3 plausible (but potentially incorrect) answers.
Automatic evaluation metrics
提供机构:
OpenDataLab
创建时间:
2023-03-22
搜集汇总
数据集介绍

背景与挑战
背景概述
VQA-v2.0是一个多模态视觉问答数据集,包含265,016张图像和大量开放式问题,每个问题配有多个答案,旨在测试模型对视觉、语言和常识知识的理解能力。该数据集适用于计算机视觉和自然语言处理的预训练与评估,发布于2017年,采用CC BY 4.0许可协议。
以上内容由遇见数据集搜集并总结生成



