MMTU

github2025-06-04 更新2025-06-05 收录

下载链接：

https://github.com/LAMDA-Tabular/MMTU

下载链接

链接失效反馈

官方服务：

资源简介：

MMTU是一个大规模多模态表格理解基准测试，旨在解决现有表格理解基准测试的局限性。它包含四种问题类别：理解单个元素（IE）、解释行和列（RC）、理解组合条件（CC）以及执行计算或推理（CR）。数据集收集了来自WTQ、TabFact和NAT-QA的表格，涵盖了超过十个领域，生成了8921个问答对。为确保质量，问题由GPT-4生成，答案由LLMs和人类专家验证。

MMTU is a large-scale multimodal table understanding benchmark designed to address the limitations of existing table understanding benchmarks. It encompasses four problem categories: understanding individual elements (IE), interpreting rows and columns (RC), comprehending composite conditions (CC), and executing calculations or reasoning (CR). The dataset compiles tables from WTQ, TabFact, and NAT-QA, spanning over ten domains and generating 8921 question-answer pairs. To ensure quality, the questions are generated by GPT-4, and the answers are verified by LLMs and human experts.

创建时间：

2025-05-19

原始信息汇总

MMTU: 大规模多模态表格理解基准

数据集概述

名称: MMTU (Massive Multimodal Tabular Understanding Benchmark)
论文: 已被ICML 2025接收
开发者: Jun-Peng Jiang, Tao Zhou, De-Chuan Zhan, Han-Jia Ye
目标: 解决现有表格理解基准在领域覆盖、表格图像不确定性和系统评估能力方面的局限性

数据集特点

多领域覆盖: 收集来自WTQ、TabFact和NAT-QA的表格，涵盖超过十个领域
多模态支持: 提供表格图像和结构化数据
系统化分类: 将问题分为四类：
- 理解单个元素(IE)
- 解释行和列(RC)
- 理解组合条件(CC)
- 执行计算或推理(CR)

数据规模

完整版: 8921个问答对
精简版(MMTU-tiny): 每类60个问答对(共240个)

数据来源

原始数据: 来自WikiTableQuestions、TabFact和NAT-QA
问题生成: 使用GPT-4生成
答案验证: 通过LLMs和人类专家验证

数据格式

问题数据: JSON格式
表格图像: PNG格式
原始表格格式: 支持HTML、CSV、Markdown和LaTeX转换

数据位置

完整版数据:
- JSON文件: https://github.com/LAMDA-Tabular/MMTU/tree/main/data
- 表格图像: https://huggingface.co/datasets/LAMDA-Tabular/MMTU/tree/main
精简版数据:
- JSON文件: https://huggingface.co/datasets/LAMDA-Tabular/MMTU-tiny/tree/main
- 原始表格: https://github.com/ppasupat/WikiTableQuestions

工具支持

表格转换工具: StructuredTables2Images模块(https://github.com/LAMDA-Tabular/MMTU/tree/main/StructuredTables2Images)
功能: 将HTML、CSV、Markdown和LaTeX表格统一转换为PNG图像

联系方式

Jun-Peng Jiang: jiangjp@lamda.nju.edu.cn
Tao Zhou: zhout@lamda.nju.edu.cn

搜集汇总

数据集介绍

构建方式

在构建MMTU数据集时，研究团队针对现有表格理解基准的局限性，进行了系统性优化。数据来源涵盖WTQ、TabFact和NAT-QA等多个权威数据集，通过跨领域整合形成8921个问答对。为确保数据质量，采用GPT-4生成问题，并经过大语言模型与领域专家的双重验证，对存在分歧的样本进行人工复核。针对表格图像标准化难题，开发了结构化转换管道（StructuredTables2Images），将HTML、CSV等异构表格统一转换为PNG格式，消除格式差异对评估的影响。

特点

MMTU作为多模态表格理解基准，具有三个显著特征：其领域覆盖突破单一限制，囊括金融、教育等十余个垂直领域；问题类型采用四级分类体系，涵盖元素理解、行列解析、组合条件理解及计算推理等核心能力；独特的双模态支持既保留原始结构化数据，又提供标准化图像表示。特别设计的MMTU-tiny子集包含240个精选样本，为快速原型验证提供便利。

使用方法

使用MMTU需通过GitHub仓库获取结构化问题描述，表格图像存储于HuggingFace平台。评估时建议按照四类任务划分进行细粒度性能分析，组合条件类问题需特别注意语义解析与逻辑推理的结合。配套提供的格式转换工具支持将原生表格转为评估所需图像，研究者可基于StructuredTables2Images模块扩展自定义数据集。对于轻量级实验，可直接采用MMTU-tiny的60*4均衡样本集进行初步验证。

背景与挑战

背景概述

MMTU（Massive Multimodal Tabular Understanding Benchmark）是由南京大学LAMDA团队于2025年提出的一个多模态表格理解基准数据集，旨在解决现有表格理解基准在领域覆盖、表格图像不确定性及系统性评估能力方面的不足。该数据集由Jun-Peng Jiang、Tao Zhou等研究人员主导构建，收录了来自WTQ、TabFact等来源的8921个问答对，覆盖十多个领域，并首次系统性地将问题划分为个体元素理解、行列解析、组合条件理解及计算推理四大类。作为ICML 2025的收录成果，MMTU通过融合多模态表格图像与结构化数据，推动了表格理解任务向细粒度推理与跨模态分析的方向发展。

当前挑战

MMTU面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面，表格理解需突破传统单模态文本分析的局限，解决多模态对齐（如表格图像与文本的语义一致性）、组合条件推理（如嵌套查询的逻辑建模）以及跨领域泛化（如金融到学术表格的迁移）等核心难题。构建过程中，团队需处理原始表格格式的高度异质性（HTML/LaTeX等），开发标准化转换工具StructuredTables2Images以确保视觉表征的一致性，同时通过GPT-4生成与人工校验相结合的方式，消除问答对中的语义歧义与标注噪声。

常用场景

经典使用场景

在跨模态表格理解领域，MMTU数据集通过整合多源异构表格数据（如HTML、CSV、Markdown和LaTeX格式），构建了包含8921个问答对的大规模评测基准。其典型应用场景包括评估多模态大语言模型在四种核心任务上的表现：单个单元格数值提取（IE）、行列语义理解（RC）、复合条件推理（CC）以及数值计算与逻辑推演（CR）。该数据集特别适用于验证模型在金融、教育等十余个垂直领域中对表格结构与内容的联合理解能力。

衍生相关工作

MMTU的发布催生了多个重要研究方向，包括基于对比学习的表格-文本对齐方法、多模态表格预训练框架（如TabBERT）以及复合条件推理的神经符号混合系统。其构建过程中提出的StructuredTables2Images技术已成为表格图像生成领域的基础工具，被后续研究如TableFormer和VisionTab等模型广泛采用。数据集本身也被扩展应用于表格问答鲁棒性测试、跨模态迁移学习等新兴课题。

数据集最近研究