VERIFY

Name: VERIFY
Creator: 罗切斯特大学, 中佛罗里达大学
Published: 2025-03-15 00:26:11
License: 暂无描述

arXiv2025-03-15 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.11557v1

下载链接

链接失效反馈

官方服务：

资源简介：

VERIFY数据集是由罗切斯特大学和中佛罗里达大学的研究人员创建的，旨在评估最先进的多模态大型语言模型（MLLMs）的视觉推理能力。该数据集包含多样化的视觉推理任务，要求模型主要依赖视觉信息进行推理，减少了文本上下文的依赖，以降低领域特定知识和语言偏见的影响。每个问题都伴有由人类标注的推理路径，这有助于深入评估模型的决策过程。VERIFY覆盖了从逻辑运算到3D几何和数学的各种模式，为视觉推理的细粒度评估提供了一个透明且可解释的框架。

The VERIFY dataset was created by researchers from the University of Rochester and the University of Central Florida, aiming to evaluate the visual reasoning capabilities of state-of-the-art multimodal large language models (MLLMs). This dataset encompasses diverse visual reasoning tasks that require models to primarily rely on visual information for inference, while reducing reliance on textual context to mitigate the impact of domain-specific knowledge and linguistic biases. Each question is accompanied by human-annotated reasoning paths, which enables in-depth assessment of the model's decision-making processes. VERIFY covers a wide range of modalities spanning from logical operations, 3D geometry to mathematics, providing a transparent and interpretable framework for fine-grained evaluation of visual reasoning.

提供机构：

罗切斯特大学, 中佛罗里达大学

创建时间：

2025-03-15

搜集汇总

数据集介绍

构建方式

VERIFY数据集的构建基于中国国家公务员考试中的公开题目，旨在确保数据集的多样性和复杂性。通过从不同省份的考试中筛选出需要逻辑推理而非简单识别的复杂问题，数据集的设计强调了视觉推理能力的评估。每个问题都附有人工标注的推理路径，确保了推理过程的透明性和可解释性。此外，数据集还通过严格的筛选标准，剔除了模糊或多答案的问题，确保了数据的高质量和清晰性。

特点

VERIFY数据集的特点在于其专注于视觉推理能力的评估，而非传统的识别任务。数据集中的每个问题都要求模型主要依赖视觉信息进行推理，减少了文本背景的干扰，从而更准确地评估模型的视觉推理能力。此外，数据集提供了详细的推理路径标注，使得模型的决策过程可以被深入分析和评估。数据集还引入了新的评估指标，超越了传统的准确率，关注推理过程的深度和质量。

使用方法

VERIFY数据集的使用方法包括对多模态大语言模型（MLLMs）的视觉推理能力进行系统性评估。通过提供视觉推理问题及其对应的推理路径，数据集允许研究人员评估模型在识别、抽象和推理等不同阶段的性能。评估框架将模型的推理过程分解为感知、识别、抽象和推理四个阶段，并通过与人工标注的推理路径进行对比，提供对模型推理能力的全面分析。此外，数据集还支持对模型推理路径的自动评估，帮助研究人员识别模型在推理过程中的偏差和不足。

背景与挑战

背景概述

VERIFY数据集由罗切斯特大学和中佛罗里达大学的研究团队于2025年提出，旨在填补当前多模态大语言模型（MLLMs）在视觉推理能力评估上的空白。尽管MLLMs在语言和视觉任务中表现出色，现有基准主要关注识别能力，而未能充分评估其真正的视觉推理能力。VERIFY通过最小化文本上下文，迫使模型主要依赖视觉信息进行推理，从而减少对领域知识和语言偏见的依赖。每个问题都附有人工标注的推理路径，首次提供了对模型决策过程的深入评估。VERIFY的提出不仅推动了视觉推理领域的研究，还为模型推理能力的评估提供了新的标准。

当前挑战

VERIFY数据集面临的挑战主要体现在两个方面。首先，视觉推理任务本身具有高度复杂性，模型需要从视觉信息中提取抽象模式并进行逻辑推理，而现有模型在推理过程中往往依赖表面特征，难以捕捉深层次的视觉关系。其次，数据集的构建过程中，研究人员面临如何确保推理路径的准确性和多样性的挑战。VERIFY通过人工标注推理路径，确保每个问题的推理过程清晰且可评估，但这一过程耗时且需要高水平的专业知识。此外，VERIFY还提出了新的评估指标，超越传统的准确率，关注推理过程的质量和深度，这为模型的全面评估带来了新的挑战。

常用场景

经典使用场景

VERIFY数据集主要用于评估多模态大语言模型（MLLMs）在视觉推理任务中的表现。通过提供视觉信息和最小化的文本上下文，VERIFY迫使模型主要依赖视觉信息进行推理，从而减少对领域特定知识和语言偏见的依赖。每个问题都附有人工标注的推理路径，这使得VERIFY成为首个能够深入评估模型决策过程的基准。

解决学术问题

VERIFY数据集解决了当前多模态大语言模型在视觉推理任务中的局限性问题。现有的基准主要评估识别类技能，如物体检测和图像描述，而忽略了真正的视觉推理能力。VERIFY通过提供多样化的视觉推理任务，帮助研究者更好地理解模型在视觉推理中的表现，并揭示模型在感知和推理之间的不平衡。

衍生相关工作

VERIFY数据集衍生了一系列相关的研究工作，特别是在多模态推理和视觉理解领域。例如，基于VERIFY的研究提出了新的评估指标，用于衡量模型推理过程的质量，而不仅仅是准确性。此外，VERIFY还启发了其他视觉推理基准的开发，如RAVEN和CLEVR，这些基准进一步推动了视觉推理模型的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集