Visual Question Answering (VQA)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Visual_Question_Answering
下载链接
链接失效反馈官方服务:
资源简介:
VQA 是一个包含关于图像的开放式问题的新数据集。这些问题需要对视觉、语言和常识知识的理解才能回答。 265,016 张图片(COCO 和抽象场景) 每张图片至少 3 个问题(平均 5.4 个问题) 每个问题 10 个基本事实答案 每个问题 3 个似是而非(但可能不正确)的答案 自动评估指标
提供机构:
OpenDataLab
创建时间:
2022-04-29
搜集汇总
数据集介绍

背景与挑战
背景概述
VQA是一个视觉问答数据集,包含基于COCO和抽象场景图像的开放式问题,需要综合视觉、语言和常识知识进行回答。该数据集规模为265,016张图片,每张图片平均有5.4个问题,每个问题提供10个基本答案和3个似是而非的答案,并支持自动评估。
以上内容由遇见数据集搜集并总结生成



