five

MMTU|多模态表格理解数据集|基准测试数据集

收藏
github2025-06-04 更新2025-06-05 收录
多模态表格理解
基准测试
下载链接:
https://github.com/LAMDA-Tabular/MMTU
下载链接
链接失效反馈
资源简介:
MMTU是一个大规模多模态表格理解基准测试,旨在解决现有表格理解基准测试的局限性。它包含四种问题类别:理解单个元素(IE)、解释行和列(RC)、理解组合条件(CC)以及执行计算或推理(CR)。数据集收集了来自WTQ、TabFact和NAT-QA的表格,涵盖了超过十个领域,生成了8921个问答对。为确保质量,问题由GPT-4生成,答案由LLMs和人类专家验证。

MMTU is a large-scale multimodal table understanding benchmark designed to address the limitations of existing table understanding benchmarks. It encompasses four problem categories: understanding individual elements (IE), interpreting rows and columns (RC), comprehending composite conditions (CC), and executing calculations or reasoning (CR). The dataset compiles tables from WTQ, TabFact, and NAT-QA, spanning over ten domains and generating 8921 question-answer pairs. To ensure quality, the questions are generated by GPT-4, and the answers are verified by LLMs and human experts.
创建时间:
2025-05-19
原始信息汇总

MMTU: 大规模多模态表格理解基准

数据集概述

  • 名称: MMTU (Massive Multimodal Tabular Understanding Benchmark)
  • 论文: 已被ICML 2025接收
  • 开发者: Jun-Peng Jiang, Tao Zhou, De-Chuan Zhan, Han-Jia Ye
  • 目标: 解决现有表格理解基准在领域覆盖、表格图像不确定性和系统评估能力方面的局限性

数据集特点

  1. 多领域覆盖: 收集来自WTQ、TabFact和NAT-QA的表格,涵盖超过十个领域
  2. 多模态支持: 提供表格图像和结构化数据
  3. 系统化分类: 将问题分为四类:
    • 理解单个元素(IE)
    • 解释行和列(RC)
    • 理解组合条件(CC)
    • 执行计算或推理(CR)

数据规模

  • 完整版: 8921个问答对
  • 精简版(MMTU-tiny): 每类60个问答对(共240个)

数据来源

  • 原始数据: 来自WikiTableQuestions、TabFact和NAT-QA
  • 问题生成: 使用GPT-4生成
  • 答案验证: 通过LLMs和人类专家验证

数据格式

  • 问题数据: JSON格式
  • 表格图像: PNG格式
  • 原始表格格式: 支持HTML、CSV、Markdown和LaTeX转换

数据位置

  • 完整版数据:
    • JSON文件: https://github.com/LAMDA-Tabular/MMTU/tree/main/data
    • 表格图像: https://huggingface.co/datasets/LAMDA-Tabular/MMTU/tree/main
  • 精简版数据:
    • JSON文件: https://huggingface.co/datasets/LAMDA-Tabular/MMTU-tiny/tree/main
    • 原始表格: https://github.com/ppasupat/WikiTableQuestions

工具支持

  • 表格转换工具: StructuredTables2Images模块(https://github.com/LAMDA-Tabular/MMTU/tree/main/StructuredTables2Images)
  • 功能: 将HTML、CSV、Markdown和LaTeX表格统一转换为PNG图像

联系方式

  • Jun-Peng Jiang: jiangjp@lamda.nju.edu.cn
  • Tao Zhou: zhout@lamda.nju.edu.cn
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建MMTU数据集时,研究团队针对现有表格理解基准的局限性,进行了系统性优化。数据来源涵盖WTQ、TabFact和NAT-QA等多个权威数据集,通过跨领域整合形成8921个问答对。为确保数据质量,采用GPT-4生成问题,并经过大语言模型与领域专家的双重验证,对存在分歧的样本进行人工复核。针对表格图像标准化难题,开发了结构化转换管道(StructuredTables2Images),将HTML、CSV等异构表格统一转换为PNG格式,消除格式差异对评估的影响。
特点
MMTU作为多模态表格理解基准,具有三个显著特征:其领域覆盖突破单一限制,囊括金融、教育等十余个垂直领域;问题类型采用四级分类体系,涵盖元素理解、行列解析、组合条件理解及计算推理等核心能力;独特的双模态支持既保留原始结构化数据,又提供标准化图像表示。特别设计的MMTU-tiny子集包含240个精选样本,为快速原型验证提供便利。
使用方法
使用MMTU需通过GitHub仓库获取结构化问题描述,表格图像存储于HuggingFace平台。评估时建议按照四类任务划分进行细粒度性能分析,组合条件类问题需特别注意语义解析与逻辑推理的结合。配套提供的格式转换工具支持将原生表格转为评估所需图像,研究者可基于StructuredTables2Images模块扩展自定义数据集。对于轻量级实验,可直接采用MMTU-tiny的60*4均衡样本集进行初步验证。
背景与挑战
背景概述
MMTU(Massive Multimodal Tabular Understanding Benchmark)是由南京大学LAMDA团队于2025年提出的一个多模态表格理解基准数据集,旨在解决现有表格理解基准在领域覆盖、表格图像不确定性及系统性评估能力方面的不足。该数据集由Jun-Peng Jiang、Tao Zhou等研究人员主导构建,收录了来自WTQ、TabFact等来源的8921个问答对,覆盖十多个领域,并首次系统性地将问题划分为个体元素理解、行列解析、组合条件理解及计算推理四大类。作为ICML 2025的收录成果,MMTU通过融合多模态表格图像与结构化数据,推动了表格理解任务向细粒度推理与跨模态分析的方向发展。
当前挑战
MMTU面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,表格理解需突破传统单模态文本分析的局限,解决多模态对齐(如表格图像与文本的语义一致性)、组合条件推理(如嵌套查询的逻辑建模)以及跨领域泛化(如金融到学术表格的迁移)等核心难题。构建过程中,团队需处理原始表格格式的高度异质性(HTML/LaTeX等),开发标准化转换工具StructuredTables2Images以确保视觉表征的一致性,同时通过GPT-4生成与人工校验相结合的方式,消除问答对中的语义歧义与标注噪声。
常用场景
经典使用场景
在跨模态表格理解领域,MMTU数据集通过整合多源异构表格数据(如HTML、CSV、Markdown和LaTeX格式),构建了包含8921个问答对的大规模评测基准。其典型应用场景包括评估多模态大语言模型在四种核心任务上的表现:单个单元格数值提取(IE)、行列语义理解(RC)、复合条件推理(CC)以及数值计算与逻辑推演(CR)。该数据集特别适用于验证模型在金融、教育等十余个垂直领域中对表格结构与内容的联合理解能力。
衍生相关工作
MMTU的发布催生了多个重要研究方向,包括基于对比学习的表格-文本对齐方法、多模态表格预训练框架(如TabBERT)以及复合条件推理的神经符号混合系统。其构建过程中提出的StructuredTables2Images技术已成为表格图像生成领域的基础工具,被后续研究如TableFormer和VisionTab等模型广泛采用。数据集本身也被扩展应用于表格问答鲁棒性测试、跨模态迁移学习等新兴课题。
数据集最近研究
最新研究方向
在表格理解领域,MMTU数据集以其多模态和大规模特性成为研究热点,尤其在金融、教育等跨领域应用中展现出显著优势。最新研究聚焦于提升模型对表格图像的理解能力,通过引入结构化表格转换技术,解决了传统方法在处理HTML、CSV等多样化表格格式时的偏差问题。该数据集通过系统分类的问答任务(如元素理解、行列解析、组合条件处理及计算推理),为多模态大语言模型(MLLMs)提供了更全面的评估基准。相关研究进一步探索了基于GPT-4的自动化问答生成与验证机制,推动了表格理解技术在真实场景中的鲁棒性发展,为智能决策支持系统奠定了重要基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

FROM-GLC全球30米地表覆盖数据集(2017)

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心 收录