MTabVQA-Eval

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

MTabVQA（多表格视觉问答）是一个新颖的评估基准，旨在评估视觉语言模型(VLMs)在多个表格作为图像呈现时的多跳推理能力。该数据集包含两个主要部分：MTabVQA-Eval和MTabVQA-Instruct。MTabVQA-Eval是一个具有挑战性的评估集，包含需要跨两个到五个视觉渲染表格进行推理的复杂问题答案对；MTabVQA-Instruct是一个大规模的指令微调数据集，用于通过微调增强VLMs的多表格推理能力。

创建时间：

2025-06-10

原始信息汇总

MTabVQA数据集概述

数据集基本信息

名称: MTabVQA (Multi-Tabular Visual Question Answering)
许可证: Apache License, Version 2.0
任务类型:
- 视觉问答 (VQA)
- 表格问答
- 多跳推理
- 多模态推理
语言: 英语

数据集组成

MTabVQA-Eval: 包含3,745个复杂问答对，需要跨2到5个视觉呈现的表格进行推理
MTabVQA-Instruct: 包含15,853个示例，用于通过微调增强多表格推理能力

数据集结构

数据实例

每个实例对应一个关于一组表格图像的问题
包含字段:
- question: 自然语言问题
- answer: 结构化答案
- table_names: 涉及的原始表格名称
- table_image_ids: 表格图像文件名列表
- original_data_index: 原始数据索引
- question_category: 问题类别

数据分割

配置名称	来源数据集	问答对数	表格数
MTabVQA-Query	QFMTS	2,456	5,541
MTabVQA-Spider	Spider	1,048	2,363
MTabVQA-ATIS	ATIS	112	429
MTabVQA-MIMO	MiMoTable	129	166
总计		3,745	8,499

数据集创建

来源数据

Spider
BIRD
QFMTS
ATIS
MiMoTable
MultiTabQA

注释过程

数据来源和采样
问答生成
视觉渲染
验证

使用注意事项

社会影响: 促进更强大的视觉语言模型发展
偏见讨论: 表格布局为合成生成
局限性:
- 仅限英语
- 合成表格布局
- 有限的人工标注

引用信息

bibtex @misc{singh2025mtabvqaevaluatingmultitabularreasoning, title={MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space}, author={Anshul Singh and Chris Biemann and Jan Strich}, year={2025}, eprint={2506.11684}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.11684}, }

搜集汇总

数据集介绍

构建方式

MTabVQA-Eval数据集的构建采用了多阶段精细化的处理流程，旨在解决视觉语言模型在多表格推理任务上的评估需求。研究团队从Spider、BIRD等知名文本转SQL数据集中筛选出涉及多表连接的复杂查询，通过将SQL查询转化为自然语言问题，并辅以LLM生成多样化问题的方式构建问答对。为确保数据质量，所有生成内容均经过自动化LLM代理和人工双重验证。表格数据被渲染成具有视觉多样性的图像，模拟真实文档中的布局、颜色和字体变化。

使用方法

使用该数据集时需通过HuggingFace的datasets库加载，各配置对应的VQA.jsonl文件包含问题、答案及表格图像ID等结构化信息。实际应用中需配合下载table_images目录下的视觉表格数据，完整克隆仓库是获取全部资源的必要步骤。评估时可针对不同子集分别测试模型性能，重点关注模型解析视觉表格、跨表信息关联及复杂推理的能力。数据集特别适合用于视觉问答、表格理解等任务的基准测试和模型能力评估。

背景与挑战

背景概述

MTabVQA数据集由Anshul Singh等人于2025年提出，旨在解决视觉语言模型在多表格推理任务中的评估瓶颈。该数据集由德国汉堡大学等机构联合开发，聚焦于现实文档中常见的跨表格视觉问答场景。作为首个专门针对多表格视觉推理的基准测试，MTabVQA通过整合Spider、BIRD等六个经典文本到SQL数据集的表格数据，构建了包含3,745个复杂问题的评估集和15,853个指令微调样本。其创新性体现在将表格数据转化为视觉形式，要求模型同时处理视觉布局理解和跨表格语义关联，推动了文档智能和视觉推理领域的研究范式转变。

当前挑战

MTabVQA面临的核心挑战体现在两个维度：在任务层面，模型需克服视觉表格解析的几何敏感性、跨表格信息对齐的语义鸿沟，以及多跳推理中的误差累积问题；在构建层面，数据集需平衡真实场景的视觉多样性（如字体、布局变化）与标注可控性，同时确保每个问题必须依赖多表格信息才能解答。具体挑战包括：从原始SQL查询生成自然语言问题时保持逻辑完整性，设计涵盖12种推理类型的标注体系，以及通过LLM辅助和人工验证的双重机制保证问答对质量。此外，合成渲染的表格图像虽增加了视觉变化，但与真实扫描文档的形态差异仍是待解决的局限性。

常用场景

经典使用场景

在视觉语言模型（VLMs）研究领域，MTabVQA数据集被广泛用于评估模型在多表格视觉问答任务中的表现。该数据集通过呈现多个视觉化表格图像，要求模型进行跨表格的多跳推理，模拟了真实场景中如网页和PDF文档的信息处理需求。研究者通常利用该数据集测试模型在复杂视觉布局下的信息提取和关联能力，为模型性能提供标准化评估基准。

解决学术问题

MTabVQA有效解决了视觉语言模型在多表格推理方面的评估空白。传统单表格问答数据集无法充分评估模型在跨表格信息关联和复杂推理任务中的表现，而该数据集通过精心设计的3,745个复杂问答对，填补了这一研究缺口。其意义在于推动了多模态推理技术的发展，为模型在真实文档处理场景中的能力提升提供了关键支持。

实际应用

在实际应用中，MTabVQA数据集的能力评估直接关联到文档智能系统的开发。金融报告分析、医疗记录查询等场景中，系统需要从多个视觉化表格中提取并关联信息。该数据集训练的模型可显著提升这些场景下的信息处理效率，其多跳推理能力尤其适用于需要综合多源数据的决策支持系统。

数据集最近研究