TabularGSM
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/kevin715/TabularGSM
下载链接
链接失效反馈官方服务:
资源简介:
TabularGSM是一个基于AUTOT2T流程构建的标准化表格数学推理基准,旨在评估模型在推理密集型表格问答任务中的能力和鲁棒性。该数据集包括三个难度递增的子集(Easy、Medium、Hard)以及一个鲁棒性子集,共计约3500个示例。与现有数据集相比,TabularGSM在内容覆盖和构建方法上都有显著优势,为模型推理能力的研究提供了宝贵资源。
TabularGSM is a standardized tabular mathematical reasoning benchmark constructed based on the AUTOT2T pipeline, aiming to evaluate the capability and robustness of models in reasoning-intensive tabular question answering tasks. This dataset includes three subsets with increasing difficulty (Easy, Medium, Hard) plus a robustness subset, totaling approximately 3,500 instances. Compared with existing datasets, TabularGSM has significant advantages in both content coverage and construction methodology, providing a valuable resource for research on model reasoning capabilities.
提供机构:
南京大学
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
TabularGSM数据集的构建采用了创新的自动化生成流程AUTOT2T,该流程通过神经符号方法将数学应用题自动转化为基于表格的推理任务。构建过程分为语义解耦、表格转换和表格增强三个阶段:首先利用形式化语言建模对数学问题进行语义解耦和验证,随后将解耦后的组件转化为结构化表格表示,最后通过行增强、列增强、顺序洗牌和信息修改等多种策略生成不同复杂度的表格变体。这种方法无需人工标注,支持大规模生成多样化的表格推理任务,并通过形式化工具确保转换过程的逻辑严谨性。
特点
TabularGSM作为表格数学推理的标准化基准,具有三个显著特点:1) 系统性难度分级,包含Easy、Medium和Hard三个渐进难度的子集,通过控制表格复杂度来评估模型在不同检索难度下的表现;2) 创新性地引入了Robustness子集,专门评估模型在不完整表格数据下的鲁棒性,其中50%为陷阱问题(包含矛盾条件和缺失信息);3) 数据生成的高度可控性,支持对同一推理问题生成多种表格变体,包括噪声版本,便于进行细粒度的性能分析。数据集基于GSM8K测试集构建,包含约3,500个样本。
使用方法
TabularGSM数据集支持两种主要评估模式:纯推理测试和鲁棒性测试。在纯推理设置中,模型仅基于提供的表格信息回答问题,评估标准推理能力;在鲁棒性设置中,模型需要识别并拒绝无法回答的陷阱问题。使用时可选择序列化格式(键值对)或Markdown格式呈现表格。评估指标包括标准问题的准确率和陷阱问题的拒绝率,特别设计的平衡测试集防止模型通过简单拒绝所有问题获得高分。该数据集适用于评估模型在复杂表格QA任务中推理、检索和识别能力的协同表现,为研究结构化推理机制提供了系统化工具。
背景与挑战
背景概述
TabularGSM数据集由南京大学的研究团队于2025年提出,旨在解决表格问答(Table QA)领域中推理密集型任务的评估瓶颈。该数据集基于自动化生成管道AUTOT2T构建,通过将数学应用题转化为表格推理任务,避免了传统人工标注的高成本问题。作为首个支持系统性评估表格复杂性和模型鲁棒性的基准,TabularGSM包含四个渐进难度的子集(Easy/Medium/Hard/Robust),覆盖3500余个样本,显著推动了复杂表格推理任务的标准化研究进程。其创新性的神经符号生成方法为金融分析、医疗诊断等需要结构化推理的场景提供了可扩展的评估框架。
当前挑战
TabularGSM需应对双重挑战:在领域问题层面,现有模型面临检索与推理的强耦合困境——表格结构复杂性会干扰关键信息定位(如Hard子集准确率较GSM8K下降40%),而隐含变量和矛盾条件(Robust子集)进一步导致模型产生幻觉性回答;在构建层面,需平衡自动化生成效率与逻辑严谨性,包括:1)通过形式化验证工具确保语义解耦的数学等价性;2)设计行/列增强策略时控制噪声注入对原始问题的可解性影响;3)构建陷阱问题时需模拟真实场景的不完整信息(如缺失25%关键字段)与逻辑冲突(如重复列名矛盾)。这些挑战使得该数据集成为检验模型协同推理能力的试金石。
常用场景
经典使用场景
TabularGSM数据集在数学推理密集型表格问答(Table QA)任务中展现了其经典应用场景。通过将数学文字问题自动转换为表格形式,该数据集为研究者在复杂推理场景下的模型性能评估提供了标准化工具。特别是在需要结合数值计算与表格信息检索的多步骤推理任务中,TabularGSM通过控制表格复杂度(如行列扩展、噪声注入)和陷阱问题设计,系统化地模拟了真实场景中结构化数据处理的挑战。
解决学术问题
该数据集有效解决了表格推理研究中的两大瓶颈问题:其一,通过神经符号化生成管道AUTOT2T实现了无需人工标注的大规模数据生产,突破了传统依赖真实表格数据的成本限制;其二,通过同源问题衍生不同表格变体的实验设计,首次实现了对检索-推理耦合机制的定量分析。其构建方法论为理解大语言模型在复杂表格任务中的失败机制提供了可解释性框架,特别是揭示了模型在同步处理信息检索与逻辑推理时的能力缺陷。
衍生相关工作
基于TabularGSM的基准测试催生了多项创新研究:在模型架构层面,TableGPT等专精表格处理的模型开始整合形式化验证模块;在训练方法上,衍生出针对检索-推理协同能力的多任务学习框架。数据集揭示的耦合效应问题更直接推动了如StructLM等工作的出现,这些研究通过解耦检索与推理步骤显著提升了复杂表格任务的性能。
以上内容由遇见数据集搜集并总结生成



