MMTBENCH

Name: MMTBENCH
Creator: 亚利桑那州立大学
Published: 2025-05-28 05:09:11
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/MMTBench/MMTBench

下载链接

链接失效反馈

官方服务：

资源简介：

MMTBENCH是一个用于复杂多模态表格推理的统一基准，包含500个来自现实世界的多模态表格，共计4021个问答对。该数据集涵盖了四种问题类型、五种推理类型和八种表格类型，旨在评估当前视觉-语言模型在处理多模态表格时的性能，并为未来研究提供挑战性、高质量的资源。

MMBench is a unified benchmark for complex multimodal tabular reasoning. It includes 500 real-world multimodal tables, totaling 4021 question-answer pairs. This dataset covers four question types, five reasoning types and eight table types. It aims to evaluate the performance of current vision-language models when handling multimodal tables, and provide challenging and high-quality resources for future research.

提供机构：

亚利桑那州立大学

创建时间：

2025-05-28

原始信息汇总

MMTBench数据集概述

数据集简介

目的：评估真实世界多模态表格上的问答能力
内容：包含结合图表、地图、旗帜和实体图像等多种视觉元素的真实表格
许可：MIT开源许可证（仅限学术研究使用，禁止商业用途）

文件夹结构

All_Tables/
- 格式：HTML/CSV
- 数量：500个多模态表格
- 包含：所有关联图像
Table_Images/
- 内容：完整表格的渲染图像
- 用途：基线评估
Questions/
- 内容：4000+人工编写的问答对
- 特点：覆盖多种推理类型
Question-Metadata/
- 内容：每个问题的详细元数据
- 包含：推理类型、问题类型、答案格式
Upper_Bound/
- 内容：视觉元素被替换为对应文本的表格
- 用途：上限基线

基线方法

下限基线（缺失图像）
- 方法：仅使用去除图像的HTML/CSV文件
- 目标：测试纯文本推理能力
上限基线（实体替换）
- 方法：用黄金标准文本标签替换所有图像
- 目标：评估理想推理条件
图像描述基线
- 方法：通过模型生成描述将视觉内容转为文本
- 实现：描述文本插入表格结构
表格图像基线
- 方法：使用Table_Images中的渲染图像
- 要求：模型需将整个表格作为视觉输入处理
交错基线
- 方法：结合结构化HTML/CSV内容与嵌入式图像引用
- 要求：视觉语言模型需联合解释文本和图像

搜集汇总

数据集介绍

构建方式

MMTBENCH数据集的构建采用了严格的双阶段流程，首先从Google Images、Wikipedia、Amazon等多样化公开来源收集500个真实世界的多模态表格，通过定制化Selenium脚本确保数据原始性，并辅以人工筛选剔除敏感内容。其次由NLP专家团队设计4,021个涵盖显式、隐式、答案提及和视觉推理四类问题，每个问题均经过双重校验流程以保证标注质量。数据集特别注重视觉多样性，平均每个表格包含23.67张图片，其中89.27%的行和28.42%的列嵌入了视觉元素，全面覆盖金融报表、地理信息等八大表格类型。

特点

作为首个支持交错式图文表格、图像渲染、层次化结构和真实多模态内容的数据集，MMTBENCH在4021个问题中系统化集成了数学运算、极值识别等五大推理类型，其特色在于：1) 100%真实场景数据源避免合成偏差；2) 视觉元素与表格结构的深度耦合，如图表与实体混合的复合型问题占比达36%；3) 答案类型覆盖单/多实体、数值及图像输出，其中视觉类问题准确率较文本类低42%，凸显多模态推理的挑战性。表格平均包含19.49行×10.85列的复杂结构，89%的行包含视觉标记，远超同类数据集MMTabQA的覆盖维度。

使用方法

该数据集支持五种基准评估范式：缺失图像基线测试纯文本推理能力，实体替换基线提供性能上限参考，图像描述基线考察视觉-文本转换效果，表格图像化基线评估整体视觉解析能力，交错式基线则要求模型同步处理嵌入式多模态信息。使用时应特别注意：1) 采用1-shot提示策略处理文本基线，0-shot策略处理视觉基线以平衡计算开销；2) 区分四类问题类型的评估指标，其中显式问题平均准确率比隐式问题高17%；3) 结合F1值与子串匹配率综合评判，因视觉答案常存在部分正确情况。官方提供标准化提示模板确保评估一致性，所有数据均托管于HuggingFace平台。

背景与挑战

背景概述

MMTBENCH是由亚利桑那州立大学的研究团队于2025年推出的多模态表格推理基准数据集，旨在解决当前视觉-语言模型在处理融合半结构化数据和视觉元素（如图表、地图等）的复杂多模态表格时所面临的挑战。该数据集包含500个真实场景中的多模态表格和4021个问答对，涵盖金融、电子商务、地理等多个领域。MMTBENCH的推出填补了多模态表格理解领域的空白，为相关研究提供了高质量的评估资源，推动了视觉-语言模型在复杂多模态推理任务中的发展。

当前挑战

MMTBENCH面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，多模态表格的理解需要模型同时处理文本和视觉信息，并进行复杂的跨模态推理，这对现有的视觉-语言模型提出了极高的要求。在构建过程中，研究人员需要从多样化的真实场景中收集高质量的表格数据，并设计涵盖不同类型和难度的问题，确保数据集的多样性和代表性。此外，人工标注过程中需要处理视觉和文本信息的复杂交互，保证问答对的准确性和合理性，这也是一个巨大的挑战。

常用场景

经典使用场景

在金融、电子商务和科学研究等领域，多模态表格因其结合了结构化数据和视觉元素（如图表、地图等）而广泛应用。MMTBENCH数据集通过提供真实世界的多模态表格及其对应的问题-答案对，成为评估视觉-语言模型（VLMs）在复杂多模态表格推理任务中性能的重要基准。其经典使用场景包括模型在金融报告中的预算与趋势分析、电子商务平台的产品规格与图像理解，以及科学文献中的数据与图表关联推理。

解决学术问题

MMTBENCH数据集解决了当前视觉-语言模型在多模态表格理解中的核心挑战，包括模型对结构化数据和视觉元素的联合推理能力不足、对复杂表格布局的理解有限，以及在多步推理和视觉基础问题上的性能瓶颈。通过涵盖四种问题类型（显式、隐式、答案提及和视觉基础）和五种推理类型（数学、极值识别、事实验证、视觉基础等），该数据集为学术界提供了系统评估模型能力的工具，并揭示了现有模型在真实场景中的局限性。

衍生相关工作

MMTBENCH的推出推动了多模态表格理解领域的相关研究，例如基于其构建的模型架构改进工作（如增强视觉-语言联合编码器）、针对特定推理类型（如数学或视觉基础问题）的专用算法，以及跨模态对齐技术的优化。此外，该数据集启发了对合成数据与真实数据差异的深入研究，并促进了如ChartQA、MMTabQA等基准的迭代，为更复杂的多模态推理任务设定了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集