five

VQA-v2.0

收藏
OpenDataLab2026-04-12 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VQA-v2_dot_0
下载链接
链接失效反馈
资源简介:
VQA是一个新的数据集,其中包含有关图像的开放式问题。这些问题需要对视觉,语言和常识知识的理解才能回答。 265,016图像 (可可和抽象场景) 每张图片至少3个问题 (平均5.4个问题) 每个问题10个基本事实答案 每个问题3个合理 (但可能不正确) 的答案 自动评估指标

VQA is a novel dataset comprising open-ended questions about images. Answering these questions requires comprehension of visual, linguistic, and commonsense knowledge. 265,016 images (from COCO and abstract scenes) Each image contains at least 3 questions, with a mean of 5.4 questions per image. Each question is paired with 10 ground-truth answers. Each question includes 3 plausible (but potentially incorrect) answers. Automatic evaluation metrics
提供机构:
OpenDataLab
创建时间:
2023-03-22
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
VQA-v2.0是一个多模态视觉问答数据集,包含265,016张图像和大量开放式问题,每个问题配有多个答案,旨在测试模型对视觉、语言和常识知识的理解能力。该数据集适用于计算机视觉和自然语言处理的预训练与评估,发布于2017年,采用CC BY 4.0许可协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作