COREVQA

Name: COREVQA
Creator: Algoverse AI Research
Published: 2025-07-17 12:47:47
License: 暂无描述

arXiv2025-07-17 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/COREVQA2025/COREVQA

下载链接

链接失效反馈

官方服务：

资源简介：

COREVQA数据集由Algoverse AI Research创建，是一个用于评估视觉语言模型（VLMs）在视觉推理和细粒度视觉细节分析能力的数据集。该数据集包含5608对图像和合成的真/假陈述对，图像来源于CrowdHuman数据集，旨在激发对具有挑战性的拥挤图像进行视觉推理。数据集要求模型对关于图像的复杂陈述进行真伪分类，这些陈述平均包含30个单词，并具有复杂的句子结构。COREVQA旨在帮助研究人员发现VLM在理解方面的缺陷和差距，从而推动其鲁棒性的改进。

The COREVQA dataset, created by Algoverse AI Research, is a benchmark dataset for evaluating visual language models (VLMs) on their visual reasoning and fine-grained visual detail analysis capabilities. It contains 5,608 pairs of images and synthetic true/false statements, with the images sourced from the CrowdHuman dataset, and is designed to elicit visual reasoning for challenging crowded images. The dataset requires models to conduct true/false classification on complex statements about the images; these statements have an average length of 30 words and feature complex sentence structures. COREVQA aims to help researchers identify the defects and gaps in VLM understanding, thereby promoting improvements in their robustness.

提供机构：

Algoverse AI Research

创建时间：

2025-07-17

原始信息汇总

COREVQA数据集概述

基本信息

名称: COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark
语言: 英语 (en)
标签:
- 核心任务与能力: 视觉问答、视觉蕴含、二分类、推理、多模态、细粒度分析、文本理解
- 应用领域与场景类型: 人群、人群-人类、以人为中心、密集场景、遮挡、真实世界
- 数据集与问题特征: 合成数据、对抗性、挑战性、真假判断、复杂陈述
- 技术焦点与评估: VLM评估、基准测试、鲁棒性、模型失败分析、空间推理、否定处理、思维链、视觉基础

数据集描述

目的: 评估视觉语言模型（VLMs）在视觉蕴含任务上的能力，例如基于图像接受或拒绝假设。
数据量: 5608对图像和合成生成的真假陈述对。
图像来源: CrowdHuman数据集。
特点: 针对拥挤图像的视觉蕴含推理挑战。

性能表现

模型表现: 即使表现最佳的VLMs准确率也低于80%，其他模型表现更差（39.98%-69.95%）。
发现: 揭示了VLMs在拥挤场景中处理特定类型图像-问题对时的关键局限性。

相关资源

代码库: https://github.com/corevqa/COREVQA
演示: https://colab.research.google.com/drive/1SpuTta5tSzktiCo9xN4CtE9P1pmYV0ax
CrowdHuman数据集主页: https://www.crowdhuman.org/

搜集汇总

数据集介绍

构建方式

COREVQA数据集的构建采用了多阶段合成生成与人工验证相结合的严谨方法。研究团队从CrowdHuman数据集中精选了5,608张包含复杂人群场景的图像作为视觉基础，通过精心设计的提示策略，分别使用ChatGPT 4.1和Claude 3 Opus生成真/假陈述语句。生成过程特别注重语句的复杂性和视觉验证难度，平均语句长度达30.2个单词，并包含94.26%的复合句式。所有语句均经过人工标注验证，确保地面真实值的绝对准确性，最终形成具有27.9%真陈述和72.1%假陈述的平衡分布。

特点

该数据集的核心特征体现在三个方面：视觉复杂性方面，所有图像均来自真实世界的人群密集场景，包含丰富的遮挡关系和细粒度视觉细节；语句设计方面，采用空间术语（57.7%）、服装描述（39.0%）和颜色参照（35.1%）等要素构建需要链式推理的复杂陈述；评估维度方面，独创性地将视觉蕴涵任务与人群场景分析相结合，要求模型同时处理空间关系推理（41.7%难题涉及）、动作识别（81.3%难题）和精确计数（60.8%难题）等多重挑战。

使用方法

使用COREVQA进行模型评估时，研究者需将图像与对应陈述语句输入待测视觉语言模型，要求模型输出二元分类判断（真/假）。基准测试重点关注准确率指标，同时建议辅以精确率、召回率和F1分数等补充评估。为充分发挥数据集的诊断价值，建议针对模型在动作识别失败（81.3%）、细节遗漏（78.1%）和空间关系误判（41.7%）等典型错误模式进行深入分析。数据集提供的细粒度标注支持对模型视觉推理能力的多维度拆解评估。

背景与挑战

背景概述

COREVQA（Crowd Observations and Reasoning Entailment Visual Question Answering）是由Algoverse AI Research团队于2025年提出的一个视觉问答基准数据集，旨在评估视觉语言模型（VLMs）在复杂拥挤场景中的视觉蕴含推理能力。该数据集基于CrowdHuman数据集构建，包含5608张图像及对应的真假陈述对，通过合成生成的方式创建具有挑战性的问题。COREVQA的核心研究问题是推动视觉语言模型在密集人群场景中进行精细视觉分析和文本逻辑推理的能力，弥补了现有VQA基准在复杂视觉蕴含任务上的不足。该数据集的推出为多模态模型的深度理解和推理能力评估提供了新的标准，对推动视觉语言模型在真实场景中的应用具有重要意义。

当前挑战

COREVQA数据集面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决视觉语言模型在复杂拥挤场景中视觉蕴含推理能力不足的问题，当前最先进的模型准确率仍低于80%，表明模型在精细视觉验证和多步推理方面存在显著缺陷；在构建过程层面，数据集的创建面临合成问题质量控制的挑战，需要通过迭代优化的提示策略生成具有欺骗性但可验证的陈述对，同时确保人工标注的准确性。此外，数据集的真实陈述与虚假陈述分布不均衡，以及可能存在的语言风格偏差，也为数据集的构建带来了额外挑战。

常用场景

经典使用场景

COREVQA数据集在视觉语言模型（VLM）评估领域具有独特的应用价值，尤其在复杂人群场景下的视觉蕴含推理任务中表现突出。该数据集通过合成生成的复杂真/假陈述对，要求模型在密集人群图像中进行精细的视觉验证，从而评估模型对细微视觉线索的捕捉能力和逻辑推理能力。这种评估方式为研究者提供了深入分析模型在真实世界复杂场景中表现的机会。

衍生相关工作

COREVQA数据集已经启发了一系列相关研究工作的发展。基于其评估框架，研究者们开始探索更复杂的视觉推理任务设计，如Defeasible Visual Entailment等后续工作进一步扩展了视觉蕴含的评估维度。同时，该数据集采用的对抗性样本生成方法也被应用于HallusionBench等新型基准的构建，推动了整个领域向更严谨、更具挑战性的评估标准发展。

数据集最近研究