five

VisDoTQA

收藏
github2026-04-17 更新2026-04-29 收录
下载链接:
https://github.com/bongdong22/VisDoTQA
下载链接
链接失效反馈
官方服务:
资源简介:
VisDoTQA是一个图表视觉推理基准数据集,用于评估视觉基础和组合推理能力,包含位置、长度、模式和提取四种核心任务类型。公共测试集包含1,120个测试样本和609个保留图表,旨在评估模型识别相关图表元素、解释感知线索和推理多段视觉信息的能力。

VisDoTQA is a chart visual reasoning benchmark dataset aimed at evaluating visual grounding and compositional reasoning capabilities, which includes four core task types: position, length, pattern, and extraction. The public test set consists of 1,120 test samples and 609 held-out charts, designed to assess models' abilities to identify relevant chart elements, interpret perceptual cues, and perform reasoning over multi-segment visual information.
创建时间:
2026-04-16
原始信息汇总

VisDoTQA 数据集详情

数据集简介

VisDoTQA 是一个图表视觉推理基准数据集,来源于论文 VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought(发表于 EACL 2026 Findings)。该数据集旨在评估大型视觉语言模型在视觉基础能力组合推理能力方面的表现,特别是针对图表图像的理解与推理。

数据集构成

  • 样本数量:公开测试集包含 1,120 个测试样本。
  • 图表来源:使用 609 张保留图表构建测试集。
  • 完整数据集规模:论文中描述的完整 VisDoTQA 数据集包含 331,969 个问答对,该仓库仅发布公开基准测试集。

任务类型

数据集围绕四种核心感知任务类型组织,构成统一的分类体系:

任务类别 数量 描述
Position 350 比较对象在共同尺度上的位置,判断相对顺序
Length 240 基于长度视觉编码进行推理
Pattern 267 将视觉模式或类别线索映射到图表元素
Extract 263 从图表中直接读取显式数值

数据字段说明

公开发布的数据包含以下字段(位于 data/VisDoTQA.jsondata/test.jsonl 中):

  • imgname:图表实例对应的图像文件名
  • query:基准测试问题
  • label:标准答案
  • source:VisDoTQA 任务类别(Position / Length / Pattern / Extract)
  • image:Hugging Face 数据集查看器使用的相对图像路径

数据发布内容

仓库发布的文件结构如下:

VisDoTQA/ ├── README.md ├── CITATION.cff └── data/ ├── VisDoTQA.json ├── test.jsonl └── images/

评估指标

VisDoTQA 使用宽松准确率(Relaxed Accuracy, RA) 进行模型评估,评估协议遵循论文中的描述。

相关论文与引用

如需引用该数据集,请参考以下 BibTeX 条目:

bibtex @inproceedings{lee2026visdot, title={VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought}, author={Lee, Eunsoo and Lee, Jeongwoo and Hong, Minki and Choi, Jangho and Kim, Jihie}, booktitle={Findings of the Association for Computational Linguistics: EACL 2026}, pages={610--640}, year={2026}, doi={10.18653/v1/2026.findings-eacl.30}, url={https://aclanthology.org/2026.findings-eacl.30/} }

其他说明

  • 公开发布版本中,内部研究使用的解释字段已被排除,仅保留面向评估的必要字段。
  • 每个 JSON 记录对应 data/images/ 中的一个匹配图像文件。
  • 许可证信息待定。
搜集汇总
数据集介绍
main_image_url
构建方式
VisDoTQA数据集的构建源于对大型视觉语言模型在图表视觉推理中面临的根本性挑战的深刻洞察——即模型难以可靠地定位图表中的视觉基元并将其与语义参考对齐。为此,研究者提出了一种基于感知锚定的任务设计与思维分解推理框架,并在此基础上精心构建了VisDoTQA基准测试集。该数据集的测试集包含1120个经过严格人工校验的样本,源自609张精心挑选的图表图像,覆盖了位置、长度、图案与提取四种核心感知任务类型,旨在系统性地评估模型在图表场景下的视觉定位与组合推理能力。
使用方法
使用VisDoTQA数据集时,研究者需从GitHub或Hugging Face平台获取数据文件,主要包括VisDoTQA.json或test.jsonl格式的问答对以及对应的图像文件。每个数据记录包含图像文件名、问题文本、标准答案及所属任务类别四个字段。评估过程遵循论文中提出的松弛准确率指标,通过对比模型输出与真实标签来计算得分。该数据集专为评估图表视觉推理能力而设计,适用于多模态大语言模型的微调与基准测试,研究者可依据任务类别灵活分析模型在不同感知维度上的表现差异。
背景与挑战
背景概述
在视觉语言模型快速演进的浪潮中,图表视觉推理因其对视觉基元精准定位与语义对齐的双重需求,成为极具挑战的研究前沿。VisDoTQA数据集由Lee等研究者于2026年在EACL会议上提出,旨在评估模型在图表场景下的视觉定位与组合推理能力。该数据集基于感知锚定的任务设计原则,围绕位置、长度、图案与数值提取四大核心任务类型构建,共计包含超过33万问答对。研究团队通过分解思考(DoT)推理框架,显著提升了模型在复杂图表问答上的表现,为探索人类式解释锚定与推理分解的视觉理解范式提供了关键评测基准。
当前挑战
VisDoTQA所面临的挑战首先源自领域问题的复杂性:现有视觉语言模型在图表视觉基元的可靠定位及与语义参照的对齐上表现脆弱,尤其在处理跨多视觉信息的组合推理时,模型易受视觉歧义与语义模糊的干扰。其次,构建过程中的挑战亦不可忽视:公开测试集仅包含1,120个样本,而完整研究数据集规模达33万,如何从小样本中有效评估模型的泛化能力成为难题。此外,为维持基准的客观性,内部研究中的解释字段被刻意排除,仅保留评测必需字段,这对模型的可解释性评估构成了天然限制。任务类型间的均衡分布与图表实例的多样性保持亦是设计中的关键难点。
常用场景
经典使用场景
在视觉语言模型评测领域,VisDoTQA被设计为评估模型在图表场景下视觉基础与组合推理能力的核心基准。它通过位置、长度、模式与提取四类感知任务,检验模型能否准确对齐视觉基元与语义指称,并基于多段视觉信息进行合成推理。这一设计使其成为衡量大模型是否具备类人视觉理解能力的重要工具,尤其适用于需要精细定位图表元素并解析其相对关系的复杂视觉推理场景。
解决学术问题
VisDoTQA直面当前大视觉语言模型在图表理解中难以稳健锚定视觉基元、无法与语义指称可靠对齐的学术困境。它通过感知锚定的任务设计与思维分解推理范式,为系统评估模型的视觉基础与组合推理短板提供了标准化测试平台。该数据集的提出推动了视觉推理研究从粗略匹配向精细感知与逐步逻辑推演的转向,其报告的33.2%提升幅度有力证实了感知监督与分解推理协同作用的优势,为后续模型改进指明了方向。
实际应用
VisDoTQA在商业智能、自动报告解读与教育辅助等领域具有广泛的应用前景。在商业数据分析中,模型可借助该基准训练的能力,自动解析图表中的柱状长度、数据标签及图例模式,生成精准的洞察摘要。在教育场景中,它支持智能辅导系统引导学生逐步提取图表信息并推理数量关系。此外,在数据新闻自动化与辅助视觉障碍者理解图表内容等场景中,VisDoTQA所评测的视觉基础能力也发挥着关键作用。
数据集最近研究
最新研究方向
在图文理解与视觉推理的前沿探索中,大规模视觉语言模型虽已取得瞩目成就,却在图表这一高度结构化的视觉形式上暴露出对基本视觉原语的感知锚定与语义对齐困境。VisDoTQA作为一份专为评估图表中感知锚定与组合推理能力而设计的基准测试集,围绕位置、长度、模式与提取四类感知驱动任务,系统性地检验模型从视觉信息中解读空间关系、尺度和图案语义的精细能力。该基准不仅揭示了当前多模态模型在细粒度图表理解上存在的显著短板,更通过思路分解推理框架,为构建更具人类解释性、更善于分步推演的下一代表征学习系统提供了关键的评测导向与验证支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作