MMTU
收藏arXiv2025-06-06 更新2025-06-10 收录
下载链接:
https://github.com/MMTU-Benchmark/MMTU, https://huggingface.co/datasets/MMTU-benchmark/MMTU
下载链接
链接失效反馈官方服务:
资源简介:
MMTU是一个大规模的基准数据集,包含超过3万个问题,跨越25个现实世界的表格任务。该数据集旨在全面评估模型在理解、推理和操作真实表格方面的能力,旨在解决现实世界中专业用户面临的复杂任务。数据集的问题均来源于计算机科学领域几十年的研究,重点关注专业用户面临的复杂任务。MMTU数据集的创建过程包括文献调研、任务选择、数据标准化和整理等步骤,最终形成了一个全面评估模型在表格理解和推理方面的能力的数据集。
MMTU is a large-scale benchmark dataset containing over 30,000 questions spanning 25 real-world table-related tasks. This dataset is designed to comprehensively evaluate models' capabilities in understanding, reasoning over, and manipulating real-world tables, and to address complex tasks faced by professional users in real-world scenarios. The questions within the dataset are sourced from decades of research in the field of computer science, with a focus on complex tasks encountered by professional users. The development process of the MMTU dataset includes steps such as literature review, task selection, data standardization and curation, ultimately resulting in a comprehensive benchmark for evaluating models' table understanding and reasoning abilities.
提供机构:
微软公司
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
MMTU数据集的构建基于对计算机科学领域数十年研究的系统梳理,聚焦专业用户面临的复杂表格任务。研究团队通过文献调研筛选出25种现实任务,从52个异构数据源中标准化了30,647个问题,采用统一的<指令,输入表,真实答案>三元组格式。数据经过GPT-4o隐私过滤和专家抽样验证,确保每个数据集贡献不超过1000个问题,最终形成包含67,886个真实表格的大规模基准。
特点
该数据集涵盖表格转换、匹配、清洗、连接等10大类25个子任务,包含27.8%需要SQL/Pandas编码的问题。其特色在于:1) 任务复杂度高,平均表格含2,659行11列;2) 评估框架支持开放式结构化答案验证;3) 71.4%表格源自真实网络数据;4) 包含独创的表格版'大海捞针'测试,揭示模型在二维表格上下文中的检索缺陷。
使用方法
使用MMTU需通过标准化接口输入表格数据(支持Markdown/CSV/JSON/HTML格式),模型需生成符合任务要求的结构化输出(如SQL代码、JSON匹配对)。评估时采用执行验证(代码类任务)或精确匹配(结构化输出),配套开源框架支持扩展新任务类型。建议结合任务分类雷达图分析模型短板,重点关注列方向推理、长表格上下文理解等薄弱环节。
背景与挑战
背景概述
MMTU(Massive Multi-Task Table Understanding and Reasoning Benchmark)是由密歇根大学和微软的研究团队于2025年提出的一个大规模表格理解与推理基准测试。该数据集旨在全面评估模型在专家级表格任务中的表现,涵盖了25种真实场景下的表格任务,包含超过30,000个问题和67,000个真实表格。MMTU的创建填补了现有评估在表格相关任务上的不足,特别是那些需要复杂理解、推理和操作能力的任务。该数据集的发布推动了结构化数据处理和分析领域的基础模型发展,为相关研究提供了重要的评估工具。
当前挑战
MMTU面临的挑战主要包括两个方面:领域问题的复杂性和数据构建的困难。在领域问题方面,MMTU需要解决包括表格理解、推理和编码在内的多技能组合任务,这对现有前沿模型提出了较高要求,例如在表格转换、模式匹配和数据清理等任务中,模型表现仍有显著提升空间。在数据构建方面,MMTU整合了来自52个异构数据集的数据,需要进行标准化和一致性处理,同时确保任务的客观可评估性和数据隐私安全。此外,长上下文表格的理解和表格排列的鲁棒性也是构建过程中的主要技术挑战。
常用场景
经典使用场景
MMTU数据集在表格理解和推理任务中展现出广泛的应用潜力,尤其在评估大型语言模型(LLMs)处理复杂表格数据的能力方面表现突出。该数据集通过涵盖25种不同的表格任务,如表格转换、表格匹配、数据清洗等,为研究者提供了一个全面的测试平台。例如,在表格转换任务中,模型需要根据输入表格和输出表格的示例生成相应的SQL或Python代码,这直接模拟了数据工程师在实际工作中的操作场景。
实际应用
在实际应用中,MMTU数据集为开发表格处理助手(如Excel Copilot和数据库Copilot)提供了关键支持。例如,在金融领域,模型可利用该数据集中的Table-QA任务快速从财务报表中提取关键指标;在数据清洗场景中,其Data Imputation任务能辅助自动修复缺失值。此外,企业级数据管道构建中的表格连接(Table Join)和模式匹配(Schema Matching)任务,均可通过MMTU的基准测试验证模型可靠性,从而降低对专业数据工程师的依赖。
衍生相关工作
MMTU数据集催生了一系列围绕表格理解的研究工作。例如,基于其语义连接任务开发的Table-GPT通过微调提升了模型在跨表格关系推理中的表现;Auto-Table等研究利用MMTU的表格转换任务验证了无示例关系化方法的有效性。此外,该数据集还被用于评估如DeepSeek-R1等新型推理模型的表格处理能力,推动了如《TableBench: A Comprehensive Benchmark for Table Question Answering》等衍生基准的构建,进一步扩展了表格任务的研究边界。
以上内容由遇见数据集搜集并总结生成



