VisualSimpleQA
收藏arXiv2025-03-09 更新2025-03-12 收录
下载链接:
https://huggingface.co/datasets/WYLing/VisualSimpleQA
下载链接
链接失效反馈官方服务:
资源简介:
VisualSimpleQA是一个用于评估大型视觉语言模型在事实寻找问答中的性能的基准数据集。该数据集由人类标注者创建,包含多模态问题、文本问题、答案以及证据。覆盖了包括科研教育、公司品牌、电影电视娱乐、政治历史等多个主题,确保了数据集的多样性。数据集通过定义明确的难度标准来指导标注过程,并从中提取出129个具有挑战性的样本集合VisualSimpleQA-hard,用于评估前沿LVLM模型的事实性。
VisualSimpleQA is a benchmark dataset for evaluating the performance of large vision-language models (LVLMs) in factual-seeking question answering. It is created by human annotators, and contains multimodal questions, text-only questions, answers and supporting evidence. It covers a wide range of topics including scientific research and education, corporate brands, film and television entertainment, political history and more, ensuring the diversity of the dataset. The dataset adopts well-defined difficulty criteria to guide the annotation process, and a challenging subset of 129 samples named VisualSimpleQA-hard is extracted from it for evaluating the factuality of state-of-the-art LVLMs.
提供机构:
中关村实验室
创建时间:
2025-03-09
搜集汇总
数据集介绍

构建方式
VisualSimpleQA 数据集的构建旨在解决大型视觉语言模型在事实寻求问答任务中生成非事实性回答的问题。该数据集通过提供多模态事实寻求问答的基准,允许对大型视觉语言模型(LVLMs)在视觉和语言模态中进行流线化和解耦评估。数据集的构建包括两个关键特征:一是它允许对 LVLMs 在视觉和语言模态中的事实寻求问答能力进行解耦评估;二是它包含明确定义的难度标准,以指导人工标注,并促进困难子集 VisualSimpleQA-hard 的提取。该数据集由具有一年以上大型模型工作经验的人类标注员精心标注和验证,确保了数据的质量和多样性。
特点
VisualSimpleQA 数据集的特点包括:解耦评估、明确定义的难度标准、高质量和多样性以及减少评估偏差。解耦评估允许对 LVLMs 在视觉和语言模态中的事实寻求问答能力进行独立的评估。明确定义的难度标准帮助量化每个样本的难度,并指导人工标注。高质量和多样性确保了样本的准确性和多样性。减少评估偏差通过使用新收集的图像来减少模型训练数据集中的偏差。
使用方法
VisualSimpleQA 数据集的使用方法包括:首先,使用文本和图像输入来创建多模态事实寻求问答样本;其次,提供多模态问题和对应的文本问题的答案和证据;然后,标注员根据图像和难度标准创建新的事实寻求多模态问题;最后,使用明确定义的难度标准来评估 LVLMs 在视觉和语言模态中的事实寻求问答能力。
背景与挑战
背景概述
视觉-语言模型(LVLMs)在人工智能领域取得了显著的进展,但其生成非事实性回答的问题在事实寻求问答(QA)任务中仍然普遍存在。现有的多模态事实寻求基准主要关注将模型输出与真实答案进行比较,这限制了我们对模型在视觉和语言模态上的性能进行评估。为了解决这一问题,王燕玲等人于2025年3月9日引入了VisualSimpleQA数据集,这是一个具有两个关键特征的多模态事实寻求基准。首先,它能够对LVLMs在视觉和语言模态上的性能进行分解和评估。其次,它包含明确的难度标准,以指导人工标注,并从中提取出具有挑战性的子集VisualSimpleQA-hard。在15个LVLMs上的实验表明,即使是像GPT-4o这样的最先进的模型在VisualSimpleQA上的多模态事实寻求QA的正确率也只有60%+,而在VisualSimpleQA-hard上的正确率更是只有30%+。此外,这些模型之间的分解评估突出了在视觉和语言模块上均有巨大的改进空间。
当前挑战
VisualSimpleQA数据集主要解决的是LVLMs在事实寻求QA任务中的非事实性回答问题。构建过程中遇到的挑战包括:1)如何有效地评估LVLMs在视觉和语言模态上的性能;2)如何定义明确的难度标准以指导人工标注和提取具有挑战性的样本;3)如何减少在评估过程中引入的偏差,例如使用未在模型训练中使用过的图像。
常用场景
经典使用场景
VisualSimpleQA 数据集主要用于评估大型视觉语言模型(LVLMs)在事实寻答(QA)任务中的表现。该数据集允许对视觉和语言模态进行解耦评估,有助于研究人员了解模型在不同模态下的性能。此外,VisualSimpleQA 还包含了困难程度标准,使得研究人员可以提取出更具挑战性的子集 VisualSimpleQA-hard,用于评估前沿模型。
衍生相关工作
VisualSimpleQA 数据集衍生了以下相关工作:HallusionBench,用于评估 LVLMs 在生成幻觉输出方面的能力;SimpleQA,用于评估大型语言模型(LLMs)的事实性;OK-VQA 和 AOKVQA,用于评估 LVLMs 的事实性。此外,VisualSimpleQA 还启发了其他研究人员开发新的多模态事实寻答基准,以更好地评估 LVLMs 的性能。
数据集最近研究
最新研究方向
在视觉问答领域,大型视觉语言模型(LVLMs)在生成非事实性回答方面存在显著问题,限制了其广泛应用。为了解决这一问题,研究者们致力于构建能够有效评估LVLMs事实性问答能力的基准。VisualSimpleQA是一个多模态事实性问答基准,具有两个关键特性:一是允许对LVLMs在视觉和语言模态中进行简化和解耦评估;二是引入了明确的难度标准,以指导人工标注并提取出具有挑战性的子集VisualSimpleQA-hard。实验结果表明,即使是像GPT-4o这样的最先进模型在VisualSimpleQA上也只能达到60%以上的正确率,在VisualSimpleQA-hard上更是只有30%以上的正确率。此外,这些模型在视觉和语言模块上的解耦评估也揭示了在事实性问答方面仍有很大的改进空间。
相关研究论文
- 1VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering中关村实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



