Pix2FactBenchmark

github2026-01-30 更新2026-02-03 收录

下载链接：

https://github.com/Pix2FactEval/pix2fact_eval

下载链接

链接失效反馈

官方服务：

资源简介：

一个评测专家级视觉感知与知识密集型多跳推理的视觉问答基准；当前最优 VLM 准确率仅 24%，人类达 56%。

A visual question answering benchmark for evaluating expert-level visual perception and knowledge-intensive multi-hop reasoning; The accuracy of the current state-of-the-art VLM stands at merely 24%, whereas human performance reaches 56%.

创建时间：

2026-01-29

原始信息汇总

Pix2Fact 数据集概述

数据集基本信息

数据集名称: Pix2Fact
核心任务: 一个评测专家级视觉感知与知识密集型多跳推理的视觉问答基准。
性能对比: 当前最优视觉语言模型（VLM）准确率仅 24%，人类表现达 56%。

数据集获取与内容

官方地址: https://huggingface.co/datasets/pix2fact/Pix2FactBenchmark
数据文件: 包含图像文件和一个汇总所有基准项目的CSV文件。
CSV文件地址: https://huggingface.co/datasets/pix2fact/Pix2FactBenchmark/resolve/main/Pix2Fact_1k.csv

评估与使用

评估流程: 支持使用与OpenAI兼容的API格式进行模型推理，并提供专门的评判脚本对结果进行评估。
推荐评判模型: 建议使用 gpt-4o-2024-11-20 运行评判脚本。
支持模型: 除OpenAI系列模型外，也提供了使用Gemini和豆包（Doubao）模型进行推理的配置示例。

引用信息

如需在研究中引用本数据集，请使用提供的BibTeX条目。

许可证

许可证类型: MIT

搜集汇总

数据集介绍

构建方式

在视觉问答领域，Pix2FactBenchmark的构建过程体现了对专家级视觉感知与知识密集型多跳推理的严谨考量。该数据集通过精心设计的多跳推理问题，将细粒度视觉事实核查任务转化为结构化评估单元。其构建核心在于融合了复杂的视觉场景与深层的知识关联，确保每个问题都需要模型跨越多个推理步骤，并依赖外部知识进行验证。数据收集与标注过程严格遵循事实核查的准确性标准，形成了包含丰富视觉元素与逻辑链条的基准测试集合。

特点

Pix2FactBenchmark的显著特点在于其挑战性，它专门针对当前视觉语言模型的薄弱环节设计。该基准测试要求模型不仅识别图像中的细粒度细节，还需进行知识密集型的多步推理，模拟人类专家级的视觉事实核查过程。数据集呈现了当前最优模型仅24%的准确率与人类56%表现之间的巨大差距，凸显了其在推动模型复杂推理能力发展方面的价值。其问题设计涵盖了跨模态的深度理解，为评估模型的真实认知水平提供了可靠尺度。

使用方法

使用Pix2FactBenchmark进行评估时，研究者可通过官方提供的脚本便捷地下载数据集与图像文件。评估流程支持以OpenAI兼容格式调用各类模型API进行推理，并配套了专门的评判脚本对模型输出进行自动化打分。对于非OpenAI模型如Gemini或Doubao，数据集也提供了相应的API调用示例与参数配置指导，确保了评估框架的通用性与可扩展性。整个流程设计旨在为视觉语言模型的细粒度多跳推理能力提供一个标准化、可复现的测评环境。

背景与挑战

背景概述

视觉问答领域正逐步从基础识别迈向复杂推理，Pix2FactBenchmark 应运而生，旨在评估模型在细粒度视觉事实核查中的专家级感知与知识密集型多跳推理能力。该数据集由 Yifan Jiang、Cong Zhang 等研究人员于 2025 年构建，核心研究问题聚焦于如何通过多跳推理将像素级视觉信息转化为可信事实，以推动视觉语言模型在真实场景下的深度理解与应用。其设计不仅揭示了当前最先进模型仅达 24% 准确率的性能瓶颈，更为相关领域提供了关键的评估基准，促进了视觉与语言交叉研究的发展。

当前挑战

Pix2FactBenchmark 所针对的视觉事实核查任务面临多重挑战：模型需融合细粒度视觉感知与外部知识进行多步逻辑推理，以验证复杂陈述的真实性，这对现有视觉语言模型的推理连贯性与知识整合能力提出了极高要求。在数据集构建过程中，挑战同样显著，包括如何设计兼具视觉细节与知识深度的多跳问题，确保问题既涵盖专家级领域知识又保持逻辑链条的严谨性，以及如何收集高质量图像与标注数据以支撑可靠的评估基准。

常用场景

经典使用场景

在视觉语言模型（VLM）评估领域，Pix2FactBenchmark 作为一个前沿的视觉问答基准，其经典使用场景聚焦于测试模型在专家级视觉感知与知识密集型多跳推理任务上的能力。该数据集通过精心设计的细粒度视觉事实核查问题，要求模型不仅识别图像中的复杂细节，还需结合外部知识进行多步逻辑推理，从而精准评估模型在真实世界复杂场景下的理解深度与准确性。

解决学术问题

Pix2FactBenchmark 主要解决了当前视觉语言模型在细粒度视觉事实核查与多跳推理方面评估不足的学术研究问题。传统基准往往侧重于单一模态或简单问答，而该数据集通过引入需要深度视觉分析与外部知识整合的复杂问题，揭示了现有模型在专家级感知与逻辑推理上的显著差距（SOTA VLM 准确率仅24%，人类达56%），为模型能力的边界探索与性能提升提供了关键度量标准，推动了多模态推理研究向更精细、更知识密集的方向发展。

衍生相关工作

围绕 Pix2FactBenchmark，已衍生出一系列专注于增强视觉语言模型多跳推理与知识整合能力的研究工作。这些工作通常借鉴该基准的评估协议与问题设计，探索如何通过改进模型架构、引入外部知识库检索机制或设计新的训练策略来提升模型在细粒度视觉事实核查任务上的表现。相关研究不仅推动了多模态推理技术的进步，也为构建更智能、更可靠的视觉问答系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集