VISTA-Bench

github2026-02-04 更新2026-02-05 收录

下载链接：

https://github.com/QingAnLiu/VISTA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VISTA-Bench是一个系统性的基准测试，涵盖多模态感知、推理和单模态理解。它通过对比纯文本和可视化文本问题在受控渲染条件下的表现，评估可视化文本理解能力。数据集包含1,500个实例，主要由多项选择题（MCQ）和少量开放式问题组成，分为四个主要类别：单模态知识（500）、多模态知识（400）、多模态感知（300）和多模态推理（300）。

VISTA-Bench is a systematic benchmark covering multimodal perception, reasoning, and unimodal understanding. It evaluates visual-text understanding capabilities by comparing model performance on plain-text and visual-text questions under controlled rendering conditions. The dataset contains 1,500 instances, primarily consisting of multiple-choice questions (MCQs) and a small number of open-ended questions, and is divided into four main categories: unimodal knowledge (500), multimodal knowledge (400), multimodal perception (300), and multimodal reasoning (300).

创建时间：

2026-02-02

原始信息汇总

VISTA-Bench 数据集概述

数据集简介

VISTA-Bench 是一个系统性的基准测试，涵盖多模态感知、推理和单模态理解。它通过对比在受控渲染条件下的纯文本和可视化文本问题，来评估可视化文本理解能力。

数据集规模与构成

总实例数： 1,500
主要构成： 以多项选择题为主，包含少量开放式问题

任务分类

数据集包含4个主要能力维度的任务分类及对应实例数量：

单模态知识： 500
多模态知识： 400
多模态感知： 300
多模态推理： 300

数据结构与格式

仓库结构

VISTA-Bench/ ├─ assets/figures/ # README中使用的图示 ├─ images/ # 多模态实例使用的原始图像 ├─ questions/ # 可视化文本设置下渲染的问题/选项图像 ├─ VLMEvalKit/ # 评估工具包 ├─ VISTA-Bench.tsv # 数据集索引文件（当前与VT变体相同） └─ VISTA-Bench-VT.tsv # 数据集索引文件（当前与上述相同，为兼容性保留）

数据格式说明

images/ 目录：存放多模态实例使用的原始图像。
questions/ 目录：存放为可视化文本设置渲染的问题和选项图像。
*.tsv 文件：包含用于评估的数据集元数据和文件路径。

评估方法

使用 VLMEvalKit 工具包进行评估。

数据预处理： 使用 VISTA-Bench/VLMEvalKit/utils/convert_data_file.py 脚本将TSV文件转换为具有绝对路径的规范化格式。
运行评估：
- 纯文本评估： 指定 --data VISTA-Bench_norm 参数。
- 可视化文本评估： 指定 --data VISTA-Bench-VT 参数。
- 评估输出包括整体结果和一级分类的细分结果。

评估结果摘要

评估对比了多种视觉语言模型在可视化文本与纯文本两种模态下的性能，并按模型参数量级（2B和8B）及任务类别展示结果。关键指标包括：

任务类别： 多模态感知、多模态推理、多模态知识、单模态知识。
对比维度： 每个任务类别下均提供可视化文本和纯文本的准确率。
总体差距： 计算并展示了模型在两种模态下的总体性能差距。

代表性模型结果（2B参数量级）

DeepSeek-VL2-Tiny： 总体VT准确率31.7%，文本准确率43.1%，差距-11.4%。
Qwen3-VL-2B-Instruct： 总体VT准确率33.9%，文本准确率47.5%，差距-13.6%。
Ovis2-2B： 总体VT准确率38.8%，文本准确率48.9%，差距-10.1%。
Qwen2.5-VL-3B-Instruct： 总体VT准确率48.6%，文本准确率52.8%，差距-4.2%。
Ovis2.5-2B： 总体VT准确率48.5%，文本准确率56.1%，差距-7.6%。

代表性模型结果（8B参数量级）

LLaVA-1.5-7B： 总体VT准确率27.1%，文本准确率44.1%，差距-17.0%。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VISTA-Bench的构建旨在系统性地探究模型对可视化文本的理解能力。该数据集通过精心设计，将1500个实例划分为四个核心能力维度：单模态知识、多模态知识、多模态感知以及多模态推理。每个实例均以纯文本和可视化文本两种形式呈现，确保了在受控渲染条件下进行公平对比。数据集的构建过程注重实例的多样性与平衡性，涵盖了选择题与开放式问题，从而全面覆盖从基础感知到复杂推理的评估需求。

特点

VISTA-Bench的显著特点在于其系统化的评估框架与精细的任务分类。数据集不仅规模适中，包含1500个实例，更通过多模态感知、推理及知识三个层次，深入剖析视觉语言模型的核心能力。可视化文本与纯文本的并行设置，使得模型在图像化界面中的表现得以量化比较，揭示了模型在处理不同信息呈现方式时的差异。这种设计使得评估结果更具解释性，能够精准识别模型在特定能力维度上的优势与短板。

使用方法

使用VISTA-Bench进行评估时，需依托其配套的VLMEvalKit工具包。首先通过数据转换脚本将TSV格式的元数据文件标准化，确保图像路径的绝对引用与格式统一。随后，用户可分别针对纯文本与可视化文本两种设置运行评估命令，指定待测模型并获取详细日志。评估结果将自动生成整体性能报告及各能力维度的细分得分，便于研究者进行跨模型比较与深入分析。这一流程确保了评估的可靠性与可重复性。

背景与挑战

背景概述

在视觉语言模型（VLM）快速发展的背景下，评估模型对视觉化文本的理解能力成为一项关键研究议题。VISTA-Bench数据集应运而生，旨在系统性地衡量模型在纯文本与视觉化文本两种模态下的表现差异。该数据集由研究团队于近期构建，包含1500个实例，覆盖了从多模态感知、推理到单模态知识理解等多个维度。其核心研究问题聚焦于探究视觉语言模型是否能够像理解纯文本一样，有效处理并理解以图像形式呈现的文本信息，从而推动模型在真实世界复杂场景中的应用能力。

当前挑战

VISTA-Bench数据集致力于解决视觉化文本理解这一领域问题，其面临的挑战在于如何精准评估模型在跨模态信息融合与解析上的能力差距。具体而言，构建过程中需确保视觉化文本的渲染条件严格可控，以避免引入无关视觉偏差；同时，数据集的分类体系需涵盖感知、推理与知识等多个层次，以全面反映模型的综合性能。此外，评估流程需兼容不同模型架构，并处理多路径图像数据的标准化问题，这些技术细节均对数据集的可靠性与泛化性提出了较高要求。

常用场景

经典使用场景

在视觉语言模型（VLM）评估领域，VISTA-Bench作为一项系统性基准测试，其经典使用场景在于对比分析模型对纯文本与可视化文本的理解能力。通过精心设计的1500个实例，涵盖多模态感知、推理及单模态知识等四个核心维度，该数据集为研究者提供了一个标准化的评估框架，用以量化模型在处理渲染文本图像时的性能差异，从而揭示模型在跨模态信息处理中的内在机制与局限。

解决学术问题

VISTA-Bench致力于解决视觉语言模型研究中一个关键学术问题：模型是否真正具备对可视化文本的深层理解能力，而非仅依赖文本特征。通过控制渲染条件构建对比实验，该数据集系统性地揭示了模型在多模态感知与推理任务中存在的性能差距，为理解模型跨模态对齐的缺陷提供了实证依据，进而推动了针对文本视觉化表示的新型模型架构与训练策略的探索。

衍生相关工作

围绕VISTA-Bench的评估范式，已衍生出一系列经典研究工作。例如，基于其揭示的性能差距，研究者们提出了针对文本视觉化理解的专用模型微调方法，如增强OCR融合机制或改进跨模态注意力设计。同时，该数据集也催生了新的评估指标与基准扩展，推动社区进一步探索模型在细粒度多模态理解任务中的能力边界，为视觉语言模型的演进提供了持续动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集