Visual Question Answering (VQA)

Name: Visual Question Answering (VQA)
Creator: OpenDataLab
Published: 2026-05-24 04:30:03
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Visual_Question_Answering

下载链接

链接失效反馈

官方服务：

资源简介：

VQA 是一个包含关于图像的开放式问题的新数据集。这些问题需要对视觉、语言和常识知识的理解才能回答。 265,016 张图片（COCO 和抽象场景）每张图片至少 3 个问题（平均 5.4 个问题）每个问题 10 个基本事实答案每个问题 3 个似是而非（但可能不正确）的答案自动评估指标

提供机构：

OpenDataLab

创建时间：

2022-04-29

搜集汇总

数据集介绍

背景与挑战

背景概述

VQA是一个视觉问答数据集，包含基于COCO和抽象场景图像的开放式问题，需要综合视觉、语言和常识知识进行回答。该数据集规模为265,016张图片，每张图片平均有5.4个问题，每个问题提供10个基本答案和3个似是而非的答案，并支持自动评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集