WikiVQABench

Name: WikiVQABench
Creator: IBM研究院
Published: 2026-05-21 01:58:24
License: 暂无描述

arXiv2026-05-21 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/ibm-research/WikiVQABench

下载链接

链接失效反馈

官方服务：

资源简介：

WikiVQABench是由IBM研究院构建的知识增强型视觉问答基准数据集，旨在评估视觉语言模型整合外部结构化知识的能力。该数据集包含344张维基百科图像及其对应的多项选择题，每道题目均需结合视觉证据与维基数据知识进行解答，数据规模适中但质量精良。数据创建过程采用自动化生成与人工审核相结合的方式：首先基于WIT数据集的图像-标题对，通过维基数据检索实体关系并利用大语言模型生成候选问题，最后经人工审核确保事实准确性、视觉-文本一致性和知识必要性。本数据集主要应用于评估知识增强型视觉语言模型在实体识别、多跳推理等任务中的表现，旨在解决传统视觉问答基准过于依赖表层感知而忽视外部知识整合的问题。

WikiVQABench is a knowledge-enhanced visual question answering benchmark dataset constructed by IBM Research, aiming to evaluate the ability of vision-language models to integrate external structured knowledge. This dataset includes 344 Wikipedia images and their corresponding multiple-choice questions, each of which needs to be answered by combining visual evidence and Wikidata knowledge, with a moderate scale but high-quality data. The dataset creation process adopts a combination of automated generation and manual review: first, based on the image-caption pairs from the WIT dataset, entity relationships are retrieved via Wikidata, and candidate questions are generated using large language models. Finally, manual reviews are conducted to ensure factual accuracy, visual-text consistency and the necessity of applied knowledge. This dataset is mainly used to evaluate the performance of knowledge-enhanced vision-language models in tasks such as entity recognition and multi-hop reasoning, aiming to address the issue that traditional visual question answering benchmarks overly rely on surface-level perception while neglecting external knowledge integration.

提供机构：

IBM研究院

创建时间：

2026-05-21

原始信息汇总

WikiVQABench 数据集概述

数据集名称：WikiVQABench
许可证：Apache-2.0
任务类别：视觉问答（Visual Question Answering）
语言：英语
标签：VQA、知识驱动、Wikipedia、Wikidata
数据集规模：n < 1K（共344个样本）

数据集摘要

WikiVQABench 是一个人工筛选的知识驱动型视觉问答基准数据集。它通过系统性地组合维基百科图片、相关文章标题以及来自维基数据的结构化知识构建而成。研究者使用大型语言模型生成候选的多选题（图片-问题-答案集），随后由人工标注者进行审查和筛选，以确保事实正确性、视觉-文本的一致性，并要求每个问题的解答不仅依赖视觉信息，还需要外部知识。

该数据集包含大量维基百科图片及其配套的多选题，旨在对知识感知的视觉-语言模型进行基准测试。

预期用途

基准测试：评估视觉-语言模型在知识驱动型视觉问答上的表现。
评估：用作测试集，比较不同知识感知视觉-语言模型在广泛知识领域中的性能。

局限性

规模较小：包含344个样本，适合用于评估，不适合大规模训练。
合成来源：虽然经过人工筛选，但初始样本由大型语言模型生成，可能反映这些生成模型的局限性或偏见。

数据结构

每行对应一个基准测试样本，包含以下字段：

字段	描述
`image`（字符串）	Base64编码的图片
`question`（字符串）	关于图片的自然语言问题
`correct`（字符串）	自然语言形式的正确答案
`wrongs`（字符串列表）	三个自然语言形式的干扰项答案

排行榜

评估代码与标准已公开，可通过VLMEvalKit的分支访问：https://github.com/basels/VLMEvalKit/tree/wiki-vqa-bench

整体排名（按准确率从高到低）：

模型	准确率
InternVL3-78B	75.6%
Claude-Opus-4-6	70.3%
Claude-Sonnet-4-6	66.3%
Llama-3.2-90B-Vision-Instruct	65.7%
Qwen3-VL-32B-Instruct	64.0%
Qwen3-VL-8B-Instruct	63.1%
Qwen3-VL-4B-Instruct	60.2%
Qwen3-VL-2B-Instruct	56.4%
Granite-Vision-3.3-2B	54.7%
SmolVLM2	54.1%
SmolVLM	46.5%
SmolVLM2-500M	36.6%
SmolVLM2-256M	32.3%
SmolVLM-500M	29.4%
SmolVLM-256M	24.7%

引用信息

如果使用此数据集，请引用Hugging Face上的数据集页面，对应论文可在 https://arxiv.org/abs/2605.21479 获取。

搜集汇总

数据集介绍

构建方式

WikiVQABench的构建基于Wikipedia与Wikidata的结构化知识，通过系统化的流水线实现。首先，从WIT数据集中提取图像及其关联的文章标题和描述性文字，利用Wikipedia页面元数据将实体解析为Wikidata标识符（QNode），并检索其相关的结构化三元组。随后，对三元组进行频率与启发式过滤，去除低语义价值和元数据类谓词，保留具有视觉支撑意义的关系，并将其转化为自然语言表述。这些表述与原始图像标注结合，作为上下文输入至Granite-3.3-8B-Instruct大语言模型，生成候选的多选题-答案对，包含一个正确答案与三个干扰项。所有自动生成的实例最终经过人工审核，确保事实正确性、视觉-文本一致性，并强制要求每个问题必须依赖外部知识方能解答，仅14.5%的候选实例通过筛选，形成344个精心挑选的基准测试样本。

特点

WikiVQABench的核心特色在于其强制性的知识依赖与结构化验证机制。不同于传统VQA基准依赖视觉感知，该数据集中的每个问题均需融合图像内容与外部结构化知识（如实体属性、分类关系、时空信息）方能正确回答，通过人工审核确保知识必要性。数据集涵盖丰富的语义类别，包括物体/事物（26.1%）、位置（25.9%）、知识标识符（18.6%）、日期/时间（14.5%）与人物（14.0%），问题类型多样，以“Which”（46.5%）与“What”（38.7%）为主导，答案形式包括描述性标签、数值与字母数字编码。此外，通过对15个视觉语言模型（参数规模从256M至90B）的评估，性能跨度达24.7%至75.6%，平均难度评分为7.0（满分15），有效区分模型在知识密集型推理上的能力差异，并暴露了当前模型在整合视觉识别与外部知识方面的显著瓶颈。

使用方法

WikiVQABench设计为标准化、可复现的知识驱动视觉问答基准，适用于评估视觉语言模型（VLM）在知识密集型推理上的表现。用户可直接从Hugging Face数据集仓库下载344个预分好的多选题样本，每个样本包含图像、问题、正确答案与三个干扰项。评估时，模型需基于图像输入与问题文本，从四个选项中选出唯一正确答案，以准确率作为主要指标。数据集已集成至VLMEvalKit开源评估工具链中，支持一键式批量测评。研究者可依据论文提供的代码库，对任意VLM进行零样本评估，并根据问题类型、语义类别或难度层级进行细粒度分析，以洞察模型在实体识别、属性推理、多跳知识整合等方面的优势与不足。

背景与挑战

背景概述

WikiVQABench是由IBM研究院的Basel Shbita、Pengyuan Li与Anna Lisa Gentile于2025年研发的一个知识驱动型视觉问答基准数据集。该数据集的创建旨在弥补现有视觉问答基准（如VQA-v2、GQA）过度依赖图像表层感知、缺乏对外部结构化知识推理能力评估的不足。研究团队巧妙地整合了维基百科图像、对应的文章标题说明文本以及维基数据的结构化知识库，通过大语言模型自动生成候选的多选题，并经过严格的人工审核确保事实准确性与知识必要性。该基准包含344个精心筛选的多选题，覆盖实体属性、时空关系、分类学等多元语义范畴，为评估视觉语言模型在知识密集型推理场景中的表现提供了一个高质量的可验证平台。

当前挑战

WikiVQABench所应对的核心挑战在于，现有视觉问答基准普遍侧重目标识别、场景描述等基于图像内容的浅层推理，难以衡量模型在需要外部领域知识时的认知边界。为此，该数据集强制要求每个问题须借助维基数据的结构化事实方可正确回答，而非仅凭图像外观即可解答，从而区分了视觉感知与知识推理的边界。在构建过程中，研究团队面临从维基数据海量三元组中筛选语义丰富且视觉可锚定的事实关系，剔除低价值的元数据属性与保护性属性，并借助真值审查机制确保问题与答案的可追溯性与一致性。最终仅有14.5%的候选实例通过审核，反映了在保证知识必要性、事实准确性与视觉一致性上的严苛标准。

常用场景

经典使用场景

WikiVQABench最具经典性的应用场景在于评估和检验视觉语言模型在知识密集型视觉问答任务上的推理能力。不同于以往仅依赖图像内容即可作答的感知型基准，该数据集要求模型必须将图像中的视觉线索与来自维基百科及维基数据的结构化外部知识加以整合，方能正确解答。这种设计使得研究者能够精准衡量模型在实体识别、属性推理及多跳知识整合方面的表现，从而超越了传统VQA基准仅关注对象识别与场景描述的表面层次。

解决学术问题

该数据集有效解决了长期困扰学术界的核心问题——如何系统性地评估视觉语言模型在需要外部知识支撑的视觉推理任务上的真实能力。以往的基准数据集普遍存在知识需求浅表化、领域覆盖狭窄、答案格式开放难以标准化复现等局限性。WikiVQABench通过人工精心筛选的344道多项选择题，确保每道题目均无法仅凭图像视觉信息回答，必须借助结构化知识才能得出正确答案，从而为知识驱动的视觉推理研究提供了可信赖的标准化评测平台，推动了该领域从感知导向向知识导向的范式转变。

衍生相关工作

WikiVQABench的提出催生了一系列富有启发性的相关工作。其构建思路借鉴并深化了Wikipedia-based Image Text（WIT）数据集与维基数据知识图谱的融合范式，同时延续了OK-VQA、A-OKVQA等基准对知识驱动型VQA的探索精神。尤为值得一提的是，该数据集通过大型语言模型生成候选问题并结合人工精细筛选的流水线方法，为后续合成数据构建与质量控制提供了可复用的方法论范本。这一工作激励了研究者进一步探索检索增强生成框架下的知识整合机制，并推动了多模态模型在实体中心推理能力上的改进与评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集