PopVQA

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/idoco/PopVQA

下载链接

链接失效反馈

官方服务：

资源简介：

PopVQA是一个用于研究视觉语言模型在处理图像和文本描述的实体时性能差异的数据集。该数据集包含15,395个流行实体（如名人、地标、标志和画作）的元数据，以及超过100,000个针对这些实体的实证问题。每个问题都分别以文本和图像形式呈现，以供模型训练和评估。

创建时间：

2025-05-08

原始信息汇总

PopVQA: Popular Entity Visual Question Answering 数据集概述

📜 数据集基本信息

许可证: MIT
任务类别: 视觉问答 (Visual Question Answering)
语言: 英语 (en)
数据集名称: PopVQA
规模: 10K<n<100K

🎯 数据集目的

PopVQA旨在研究视觉语言模型(VLMs)在回答关于图像和文本中呈现的实体的事实性问题时的性能差距。

📂 数据集结构

主要文件

entities.csv: 包含15,395个流行实体的元数据。
questions.csv: 包含超过100,000个事实性问题，每个问题以两种形式给出。
original_path/: 原始图像。
resized_path/: 调整为336×336并保留宽高比的图像。

`entities.csv` 列说明

列名	描述
`type`	实体类型 (如名人、地标、标志、绘画)
`subject`	实体名称
`s_uri`	实体的Wikidata URI
`popularity`	Wikipedia流行度评分
`aliases`	实体的别名
`image`	wiki commons URL
`original_path`	原始图像路径
`resized_path`	调整大小后的图像路径

`questions.csv` 列说明

列名	描述
`type`	实体类型
`subject`	实体名称
`question_for_image`	针对视觉上下文的问题
`question`	文本版本的问题
`possible_answers`	可接受的答案列表
`relation`	关系名称 (如职业、语言)
`s_uri`, `r_uri`, `a_uri`	主题、关系和答案的Wikidata URI
`attribute`, `a_type`	答案字符串和属性类型

📚 相关论文

标题: "Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models"
作者: Ido Cohen, Daniela Gottesman, Mor Geva, Raja Giryes (2025)

搜集汇总

数据集介绍

构建方式

PopVQA数据集通过精心设计的双模态对比框架构建，旨在探究视觉语言模型在处理文本与图像实体时的性能差异。研究团队从维基数据中筛选了15,395个高知名度实体，涵盖名人、地标、商标和绘画等多元类型，每个实体均配备原始图像及统一尺寸的预处理版本。通过系统化的问题生成流程，为每个实体创建了超过10万个平行问题对，确保同一事实分别以文本描述和图像呈现两种形式进行提问，并严格标注了维基数据URI和标准答案列表。

使用方法

研究人员可利用该数据集进行多模态理解能力的基准测试，通过对比模型在文本问题和图像问题上的表现差异来评估模态偏差。典型使用流程包括：加载预处理后的图像数据与对应问题集，构建双分支输入管道分别处理文本和视觉模态。评估时需注意区分问题类型（question_for_image与question字段），并参照possible_answers字段进行准确率计算。数据集提供的维基数据URI支持知识溯源，而标准化图像尺寸便于直接接入主流视觉编码器。建议结合原始论文提出的评估指标，系统分析模型在不同实体类型和问题关系上的表现。

背景与挑战

背景概述

PopVQA数据集由Ido Cohen、Daniela Gottesman、Mor Geva和Raja Giryes等研究人员于2025年提出，旨在探究视觉语言模型（VLMs）在处理图像与文本实体知识时的性能差异。该数据集包含15,395个流行实体（如名人、地标、商标和绘画）及其相关的10万余个事实性问题，每个问题均以文本和视觉两种形式呈现，为跨模态实体知识提取研究提供了重要基准。PopVQA通过系统化对比模型对同一实体不同模态输入的响应能力，揭示了当前多模态推理中的关键瓶颈，推动了视觉-语言联合理解领域的可解释性研究发展。

当前挑战

PopVQA的核心挑战在于解决视觉语言模型对实体知识的模态依赖性差异。在领域问题层面，该数据集暴露了模型对图像实体特征提取的局限性，相较于文本输入，模型在视觉模态下的准确率普遍下降15-20%，反映出跨模态知识对齐的固有困难。数据构建过程中，研究者需克服实体多样性（如商标的抽象符号与名人的具象特征）带来的标注一致性难题，同时平衡问题复杂度与答案粒度，确保每个实体的多角度提问既能覆盖Wikidata关系网络，又保持人类可读性。此外，原始图像的分辨率差异与版权限制进一步增加了数据清洗与标准化的技术复杂度。

常用场景

经典使用场景

在跨模态知识提取研究中，PopVQA数据集通过并行构建视觉与文本模态的实体问答对，为评估视觉语言模型在不同模态下的知识提取能力提供了标准化测试平台。该数据集独特的双模态问题设计，使得研究者能够精确量化模型在处理图像实体与文本实体时的性能差异，成为多模态推理领域的重要基准工具。

解决学术问题

PopVQA有效解决了视觉语言模型模态偏差研究的核心难题，通过15,395个实体和10万+平行问题对，首次系统性揭示了模型在视觉模态下实体知识提取的显著性能衰减现象。该数据集支撑了《视觉语言模型跨模态实体知识提取性能差距》等开创性研究，为理解多模态表示的不对称性提供了实证基础。

实际应用

该数据集在智能客服系统优化中展现出重要价值，通过分析模型对品牌logo视觉识别与文本描述的响应差异，指导企业优化多模态知识库构建策略。教育科技领域则利用其双模态评估框架，开发出能平衡图像与文本输入的智能辅导系统，显著提升学习者的跨模态认知训练效果。

数据集最近研究