tabular-reasoning

Hugging Face2025-11-16 更新2025-11-17 收录

下载链接：

https://huggingface.co/datasets/trl-lab/tabular-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

Tabular Reasoning Test数据集是一个用于评估大型语言模型在表格数据上推理能力和鲁棒性的测试集。它包括不同规模和扰动下的多个子集，支持多种查询类型，如查找、计数、求和、平均值、减法和相关性计算。数据集以JSONL格式存储，每个记录包含一个唯一的标识符、上下文大小、扰动类型、查询类型、自然语言问题、表格数据和正确答案。

创建时间：

2025-11-11

原始信息汇总

Tabular Reasoning Test Dataset 概述

基本信息

数据集名称: Tabular Reasoning Test Dataset
许可证: MIT
语言: 英语
标签: 表格、推理、测试
数据格式: JSONL

数据集规模

测试集样本数量: 7631
下载大小: 6629558字节
数据集大小: 40712710字节

数据特征

字段名	数据类型	描述
id	int64	唯一问题标识符
scale	string	上下文大小（如"1k"、"2k"…"8k"）
perturbation	string	扰动类型：未扰动、缺失值、重复实体、结构变异
qtype	string	查询类型：查找、计数、平均值、求和、减法、相关性
question	string	基于表格数据的自然语言问题
tables	string	包含一个或多个表格的JSON字符串（CSV格式内容）
correct answer	string	用于评估的正确答案

数据集变体

未扰动: 基准的干净基础版本
缺失值: 模拟现实世界中的缺失条目
结构变异: 测试关系不变性的列或行顺序洗牌

任务类型

查找: 直接检索实体或值
计数: 统计匹配条件的实体数量
求和: 计算数值总和
平均值: 计算过滤子集的平均值
减法: 跨列执行算术运算
相关性: 计算统计相关性

评估方法

使用LLM作为评判者进行评估，替代BLEU或BERTScore等脆弱或有偏见的指标。

引用信息

bibtex @inproceedings{wolff2025well, title={How well do LLMs reason over tabular data, really?}, author={Wolff, Cornelius and Hulsebos, Madelon}, booktitle={The 4th Table Representation Learning Workshop at ACL 2025} }

相关资源

论文: https://arxiv.org/abs/2505.07453v3
代码库: https://github.com/trl-lab/tabular-robustness

搜集汇总

数据集介绍

构建方式

该数据集基于TQA-Bench框架进行扩展与优化，通过系统化设计构建了包含7631个测试样本的评估基准。构建过程采用多维度控制策略，将表格数据划分为1k至8k不同规模等级，并引入缺失值、重复实体和结构变异等现实扰动场景。每个样本通过人工标注与自动化流程结合的方式生成，确保问题与表格数据的逻辑一致性，最终以JSONL格式封装多表关联结构和标准答案。

使用方法

使用本数据集时需加载JSONL格式文件，通过解析表格字段重建CSV结构后进行多步推理。评估阶段推荐采用论文提出的LLM-as-a-judge方法，将模型输出与标准答案输入特定提示模板进行语义匹配。实施过程需注意根据扰动类型动态添加上下文说明，例如处理缺失值时需声明空值语义。代码库提供完整的评估流程实现，支持准确性统计与鲁棒性分析等维度验证。

背景与挑战

背景概述

在人工智能领域，表格数据推理作为结构化数据处理的核心环节，长期面临语义理解与逻辑推演的复杂性挑战。tabular-reasoning数据集由阿姆斯特丹数学与计算机科学中心的Cornelius Wolff和Madelon Hulsebos于2025年联合创建，其研究聚焦于评估大语言模型对表格数据的真实推理能力。该数据集基于TQA-Bench框架进行扩展与优化，通过设计多尺度表格结构与扰动场景，系统考察模型在查询解析、数值运算及关联推理等方面的表现，为提升表格认知智能提供了关键基准工具。

当前挑战

该数据集致力于解决表格数据推理中的领域挑战，包括多表关联查询的语义解析、复杂算术运算的逻辑推演，以及统计相关性计算的准确性要求。在构建过程中，研究人员需克服表格规模扩展带来的计算复杂度增长，设计缺失值模拟与结构变异等现实扰动场景，并建立兼顾严谨性与适应性的评估体系，以突破传统文本匹配指标在表格推理任务中的局限性。

常用场景

经典使用场景

在表格数据推理研究领域，该数据集被广泛用于评估大语言模型对结构化数据的理解能力。通过设计多尺度表格和真实扰动场景，研究者能够系统测试模型在查询检索、数值计算和逻辑推理任务中的表现，为表格推理研究提供了标准化评估框架。

解决学术问题

该数据集有效解决了表格推理中模型鲁棒性评估的学术难题。通过引入缺失值、重复实体和结构变异等真实扰动，揭示了语言模型在复杂表格环境下的泛化缺陷，推动了基于LLM-as-a-judge的新型评估范式发展，显著提升了表格推理研究的科学严谨性。

实际应用

在商业智能和数据分析场景中，该数据集支撑的评估方法可直接应用于增强企业报表系统的自然语言查询功能。通过模拟真实数据质量问题，帮助优化金融风控、供应链管理等领域的自动报表生成系统，提升数据驱动决策的准确性与可靠性。

数据集最近研究