VisDoTQA

github2026-04-17 更新2026-04-29 收录

下载链接：

https://github.com/bongdong22/VisDoTQA

下载链接

链接失效反馈

官方服务：

资源简介：

VisDoTQA是一个图表视觉推理基准数据集，用于评估视觉基础和组合推理能力，包含位置、长度、模式和提取四种核心任务类型。公共测试集包含1,120个测试样本和609个保留图表，旨在评估模型识别相关图表元素、解释感知线索和推理多段视觉信息的能力。

VisDoTQA is a chart visual reasoning benchmark dataset aimed at evaluating visual grounding and compositional reasoning capabilities, which includes four core task types: position, length, pattern, and extraction. The public test set consists of 1,120 test samples and 609 held-out charts, designed to assess models' abilities to identify relevant chart elements, interpret perceptual cues, and perform reasoning over multi-segment visual information.

创建时间：

2026-04-16

原始信息汇总

VisDoTQA 数据集详情

数据集简介

VisDoTQA 是一个图表视觉推理基准数据集，来源于论文 VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought（发表于 EACL 2026 Findings）。该数据集旨在评估大型视觉语言模型在视觉基础能力和组合推理能力方面的表现，特别是针对图表图像的理解与推理。

数据集构成

样本数量：公开测试集包含 1,120 个测试样本。
图表来源：使用 609 张保留图表构建测试集。
完整数据集规模：论文中描述的完整 VisDoTQA 数据集包含 331,969 个问答对，该仓库仅发布公开基准测试集。

任务类型

数据集围绕四种核心感知任务类型组织，构成统一的分类体系：

任务类别	数量	描述
Position	350	比较对象在共同尺度上的位置，判断相对顺序
Length	240	基于长度视觉编码进行推理
Pattern	267	将视觉模式或类别线索映射到图表元素
Extract	263	从图表中直接读取显式数值

数据字段说明

公开发布的数据包含以下字段（位于 data/VisDoTQA.json 和 data/test.jsonl 中）：

imgname：图表实例对应的图像文件名
query：基准测试问题
label：标准答案
source：VisDoTQA 任务类别（Position / Length / Pattern / Extract）
image：Hugging Face 数据集查看器使用的相对图像路径

数据发布内容

仓库发布的文件结构如下：

VisDoTQA/ ├── README.md ├── CITATION.cff └── data/ ├── VisDoTQA.json ├── test.jsonl └── images/

评估指标

VisDoTQA 使用宽松准确率（Relaxed Accuracy, RA） 进行模型评估，评估协议遵循论文中的描述。

其他说明

公开发布版本中，内部研究使用的解释字段已被排除，仅保留面向评估的必要字段。
每个 JSON 记录对应 data/images/ 中的一个匹配图像文件。
许可证信息待定。

搜集汇总

数据集介绍

构建方式

VisDoTQA数据集的构建源于对大型视觉语言模型在图表视觉推理中面临的根本性挑战的深刻洞察——即模型难以可靠地定位图表中的视觉基元并将其与语义参考对齐。为此，研究者提出了一种基于感知锚定的任务设计与思维分解推理框架，并在此基础上精心构建了VisDoTQA基准测试集。该数据集的测试集包含1120个经过严格人工校验的样本，源自609张精心挑选的图表图像，覆盖了位置、长度、图案与提取四种核心感知任务类型，旨在系统性地评估模型在图表场景下的视觉定位与组合推理能力。

使用方法

使用VisDoTQA数据集时，研究者需从GitHub或Hugging Face平台获取数据文件，主要包括VisDoTQA.json或test.jsonl格式的问答对以及对应的图像文件。每个数据记录包含图像文件名、问题文本、标准答案及所属任务类别四个字段。评估过程遵循论文中提出的松弛准确率指标，通过对比模型输出与真实标签来计算得分。该数据集专为评估图表视觉推理能力而设计，适用于多模态大语言模型的微调与基准测试，研究者可依据任务类别灵活分析模型在不同感知维度上的表现差异。

背景与挑战

背景概述

在视觉语言模型快速演进的浪潮中，图表视觉推理因其对视觉基元精准定位与语义对齐的双重需求，成为极具挑战的研究前沿。VisDoTQA数据集由Lee等研究者于2026年在EACL会议上提出，旨在评估模型在图表场景下的视觉定位与组合推理能力。该数据集基于感知锚定的任务设计原则，围绕位置、长度、图案与数值提取四大核心任务类型构建，共计包含超过33万问答对。研究团队通过分解思考(DoT)推理框架，显著提升了模型在复杂图表问答上的表现，为探索人类式解释锚定与推理分解的视觉理解范式提供了关键评测基准。

当前挑战

VisDoTQA所面临的挑战首先源自领域问题的复杂性：现有视觉语言模型在图表视觉基元的可靠定位及与语义参照的对齐上表现脆弱，尤其在处理跨多视觉信息的组合推理时，模型易受视觉歧义与语义模糊的干扰。其次，构建过程中的挑战亦不可忽视：公开测试集仅包含1,120个样本，而完整研究数据集规模达33万，如何从小样本中有效评估模型的泛化能力成为难题。此外，为维持基准的客观性，内部研究中的解释字段被刻意排除，仅保留评测必需字段，这对模型的可解释性评估构成了天然限制。任务类型间的均衡分布与图表实例的多样性保持亦是设计中的关键难点。

常用场景

经典使用场景

在视觉语言模型评测领域，VisDoTQA被设计为评估模型在图表场景下视觉基础与组合推理能力的核心基准。它通过位置、长度、模式与提取四类感知任务，检验模型能否准确对齐视觉基元与语义指称，并基于多段视觉信息进行合成推理。这一设计使其成为衡量大模型是否具备类人视觉理解能力的重要工具，尤其适用于需要精细定位图表元素并解析其相对关系的复杂视觉推理场景。

解决学术问题

VisDoTQA直面当前大视觉语言模型在图表理解中难以稳健锚定视觉基元、无法与语义指称可靠对齐的学术困境。它通过感知锚定的任务设计与思维分解推理范式，为系统评估模型的视觉基础与组合推理短板提供了标准化测试平台。该数据集的提出推动了视觉推理研究从粗略匹配向精细感知与逐步逻辑推演的转向，其报告的33.2%提升幅度有力证实了感知监督与分解推理协同作用的优势，为后续模型改进指明了方向。

实际应用

VisDoTQA在商业智能、自动报告解读与教育辅助等领域具有广泛的应用前景。在商业数据分析中，模型可借助该基准训练的能力，自动解析图表中的柱状长度、数据标签及图例模式，生成精准的洞察摘要。在教育场景中，它支持智能辅导系统引导学生逐步提取图表信息并推理数量关系。此外，在数据新闻自动化与辅助视觉障碍者理解图表内容等场景中，VisDoTQA所评测的视觉基础能力也发挥着关键作用。

数据集最近研究