TabularGSM

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/kevin715/TabularGSM

下载链接

链接失效反馈

官方服务：

资源简介：

TabularGSM数据集是一个从GSM8K数据集派生出的基于表格的数学推理问题集合，旨在进行推理模型的标准化评估和公平比较。数据集根据难度和鲁棒性分为四个子集：简单、中等、困难和鲁棒。每个子集都应用了不同的增强策略，以增加复杂性。数据集包含约3200个示例，分为四个子集，分别针对不同的推理能力和鲁棒性进行设计。

The TabularGSM dataset is a tabular mathematical reasoning problem set derived from the GSM8K dataset, intended for standardized evaluation and fair comparison of reasoning models. The dataset is split into four subsets based on difficulty and robustness: Simple, Medium, Hard, and Robust. Distinct augmentation strategies are applied to each subset to enhance complexity. The dataset contains approximately 3,200 examples, with the four subsets each designed to target different reasoning capabilities and robustness requirements.

创建时间：

2025-05-12

原始信息汇总

TabularGSM数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 问答
语言: 英语

数据集配置

默认配置:
- test_easy: TabularGSM_Easy_csv.json
- test_medium: TabularGSM_Medium_csv.json
- test_hard: TabularGSM_Hard_csv.json
- test_robust: TabularGSM_Robustness_csv.json

数据集用途选项

使用CSV文件:
- JSON元数据文件包含CSV文件路径
- 所有CSV文件包含在csv_zip存档中
使用序列化JSON表:
- JSON元数据文件直接包含序列化表格

数据集概览

基础数据源: GSM8K测试集
总样本量: ~3,200例
子集划分:
- Easy: 810样本，简单表格问题
- Medium: 797样本，更复杂的表格结构
- Hard: 797样本，增加列修改等增强
- Robust: 1000样本，专门诊断集

增强策略

子集	RowAug	Shuffle	ColAug	InfMod
Easy	10
Medium	20	✔
Hard	20	✔	4
Robust	20	✔		✔

子集详细信息

Easy -> Hard: 逐步增加表格结构复杂度
Robust:
- 50%定义良好的问题(中等难度)
- 25%包含矛盾信息的陷阱问题
- 25%包含缺失信息的陷阱问题

搜集汇总

数据集介绍

构建方式

TabularGSM数据集基于GSM8K测试集构建，通过定制化的Pipeline处理流程，将原始数学推理问题转化为表格形式。该数据集包含约3,200个样本，根据推理难度和鲁棒性需求划分为四个子集：简单子集采用基础表格结构，中等子集引入行随机排序，困难子集增加了列修改等增强策略，而鲁棒性子集则专门设计了包含逻辑陷阱和信息缺失的测试案例。每个子集都经过精心设计的增强策略处理，以评估模型在不同复杂度表格环境下的推理能力。

使用方法

该数据集提供两种使用方式：CSV文件格式和序列化JSON格式。研究者可通过HuggingFace的datasets库直接加载预处理的JSON元数据文件，其中表格数据以键值对形式存储；或下载CSV压缩包后本地解析。每种格式均包含四个难度级别的子集文件，用户可根据实验需求选择特定难度组合或全量数据进行测试。数据加载后，建议按照官方提供的增强策略说明进行基准测试，以保持评估结果的可比性。

背景与挑战

背景概述

TabularGSM数据集是近年来在数学推理领域兴起的一项重要资源，由研究团队基于著名的GSM8K测试集构建而成。该数据集专注于表格形式的数学推理问题，旨在为模型评估提供标准化基准。数据集通过精心设计的难度分级和鲁棒性测试集，系统性地考察模型在不同复杂度表格环境下的推理能力。其创新性在于将传统数学问题转化为表格形式，并引入多种数据增强策略，为研究表格化数学推理提供了重要实验平台。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，解决现有数学推理模型对表格结构化数据适应性不足的问题，特别是处理行列变换、信息冗余和缺失等复杂情况的能力；在构建技术层面，需要平衡数据增强的多样性与问题合理性，确保不同难度级别的划分具有区分度，同时保持问题的数学严谨性。其中鲁棒性子集的构建尤为关键，需要精确控制矛盾信息和缺失信息的比例，以有效检测模型的抗干扰能力。

常用场景

经典使用场景

在数学推理与表格数据处理领域，TabularGSM数据集通过结构化表格问题为模型评估提供了标准化平台。该数据集最经典的使用场景是评估和比较不同模型在复杂表格环境下的数学推理能力，特别是在处理难度递增和鲁棒性要求不同的任务时。研究人员可以借助其四个子集（Easy、Medium、Hard、Robust）系统性地测试模型从简单信息提取到对抗干扰的全面性能。

解决学术问题

TabularGSM有效解决了表格数学推理研究中缺乏标准化评估基准的痛点。通过精心设计的增强策略（如行/列扰动、信息缺失等），该数据集能够量化模型在结构变异、逻辑一致性等方面的表现差异。其分层难度设置尤其有助于揭示模型在复杂场景下的能力边界，为提升符号推理与数值计算结合的算法提供了重要实验依据。

实际应用

该数据集的实际价值体现在智能教育系统和商业数据分析场景中。在教育领域，其问题框架可辅助开发自动解题系统；在商业分析中，模拟的表格扰动场景能优化数据提取工具的容错性。特别是Robust子集设计的逻辑陷阱，可直接迁移至金融报表验证等需要高可靠性的现实应用场景。

数据集最近研究