VisDoTQA
收藏VisDoTQA 数据集详情
数据集简介
VisDoTQA 是一个图表视觉推理基准数据集,来源于论文 VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought(发表于 EACL 2026 Findings)。该数据集旨在评估大型视觉语言模型在视觉基础能力和组合推理能力方面的表现,特别是针对图表图像的理解与推理。
数据集构成
- 样本数量:公开测试集包含 1,120 个测试样本。
- 图表来源:使用 609 张保留图表构建测试集。
- 完整数据集规模:论文中描述的完整 VisDoTQA 数据集包含 331,969 个问答对,该仓库仅发布公开基准测试集。
任务类型
数据集围绕四种核心感知任务类型组织,构成统一的分类体系:
| 任务类别 | 数量 | 描述 |
|---|---|---|
| Position | 350 | 比较对象在共同尺度上的位置,判断相对顺序 |
| Length | 240 | 基于长度视觉编码进行推理 |
| Pattern | 267 | 将视觉模式或类别线索映射到图表元素 |
| Extract | 263 | 从图表中直接读取显式数值 |
数据字段说明
公开发布的数据包含以下字段(位于 data/VisDoTQA.json 和 data/test.jsonl 中):
imgname:图表实例对应的图像文件名query:基准测试问题label:标准答案source:VisDoTQA 任务类别(Position / Length / Pattern / Extract)image:Hugging Face 数据集查看器使用的相对图像路径
数据发布内容
仓库发布的文件结构如下:
VisDoTQA/ ├── README.md ├── CITATION.cff └── data/ ├── VisDoTQA.json ├── test.jsonl └── images/
评估指标
VisDoTQA 使用宽松准确率(Relaxed Accuracy, RA) 进行模型评估,评估协议遵循论文中的描述。
相关论文与引用
- 论文:ACL Anthology(正式出版)
- arXiv 镜像:arXiv:2603.11631
- DOI:10.18653/v1/2026.findings-eacl.30
- Hugging Face 数据集:bongdong/VisDoTQA
如需引用该数据集,请参考以下 BibTeX 条目:
bibtex @inproceedings{lee2026visdot, title={VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought}, author={Lee, Eunsoo and Lee, Jeongwoo and Hong, Minki and Choi, Jangho and Kim, Jihie}, booktitle={Findings of the Association for Computational Linguistics: EACL 2026}, pages={610--640}, year={2026}, doi={10.18653/v1/2026.findings-eacl.30}, url={https://aclanthology.org/2026.findings-eacl.30/} }
其他说明
- 公开发布版本中,内部研究使用的解释字段已被排除,仅保留面向评估的必要字段。
- 每个 JSON 记录对应
data/images/中的一个匹配图像文件。 - 许可证信息待定。




