OK-VQA (Outside Knowledge Visual Question Answering)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/OK-VQA
下载链接
链接失效反馈官方服务:
资源简介:
理想形式的视觉问答 (VQA) 让我们能够在视觉和语言的联合空间中研究推理,并充当场景理解 AI 任务的代理。然而,迄今为止,大多数 VQA 基准测试都集中在简单计数、视觉属性和对象检测等问题上,这些问题不需要推理或图像之外的知识。在本文中,我们解决了基于知识的视觉问答任务,并提供了一个名为 OK-VQA 的基准,其中图像内容不足以回答问题,鼓励依赖外部知识资源的方法。我们的新数据集包括 14,000 多个需要外部知识才能回答的问题。我们表明,在这种新环境中,最先进的 VQA 模型的性能会急剧下降。我们的分析表明,与以前的基于知识的 VQA 数据集相比,我们的基于知识的 VQA 任务是多样化、困难和庞大的。我们希望这个数据集能够使研究人员为该领域的研究开辟新的途径。
提供机构:
OpenDataLab
创建时间:
2022-04-29



