five

tabular-reasoning

收藏
Hugging Face2025-11-16 更新2025-11-17 收录
下载链接:
https://huggingface.co/datasets/trl-lab/tabular-reasoning
下载链接
链接失效反馈
官方服务:
资源简介:
Tabular Reasoning Test数据集是一个用于评估大型语言模型在表格数据上推理能力和鲁棒性的测试集。它包括不同规模和扰动下的多个子集,支持多种查询类型,如查找、计数、求和、平均值、减法和相关性计算。数据集以JSONL格式存储,每个记录包含一个唯一的标识符、上下文大小、扰动类型、查询类型、自然语言问题、表格数据和正确答案。
创建时间:
2025-11-11
原始信息汇总

Tabular Reasoning Test Dataset 概述

基本信息

  • 数据集名称: Tabular Reasoning Test Dataset
  • 许可证: MIT
  • 语言: 英语
  • 标签: 表格、推理、测试
  • 数据格式: JSONL

数据集规模

  • 测试集样本数量: 7631
  • 下载大小: 6629558字节
  • 数据集大小: 40712710字节

数据特征

字段名 数据类型 描述
id int64 唯一问题标识符
scale string 上下文大小(如"1k"、"2k"…"8k")
perturbation string 扰动类型:未扰动、缺失值、重复实体、结构变异
qtype string 查询类型:查找、计数、平均值、求和、减法、相关性
question string 基于表格数据的自然语言问题
tables string 包含一个或多个表格的JSON字符串(CSV格式内容)
correct answer string 用于评估的正确答案

数据集变体

  • 未扰动: 基准的干净基础版本
  • 缺失值: 模拟现实世界中的缺失条目
  • 结构变异: 测试关系不变性的列或行顺序洗牌

任务类型

  • 查找: 直接检索实体或值
  • 计数: 统计匹配条件的实体数量
  • 求和: 计算数值总和
  • 平均值: 计算过滤子集的平均值
  • 减法: 跨列执行算术运算
  • 相关性: 计算统计相关性

评估方法

使用LLM作为评判者进行评估,替代BLEU或BERTScore等脆弱或有偏见的指标。

引用信息

bibtex @inproceedings{wolff2025well, title={How well do LLMs reason over tabular data, really?}, author={Wolff, Cornelius and Hulsebos, Madelon}, booktitle={The 4th Table Representation Learning Workshop at ACL 2025} }

相关资源

  • 论文: https://arxiv.org/abs/2505.07453v3
  • 代码库: https://github.com/trl-lab/tabular-robustness
搜集汇总
数据集介绍
构建方式
该数据集基于TQA-Bench框架进行扩展与优化,通过系统化设计构建了包含7631个测试样本的评估基准。构建过程采用多维度控制策略,将表格数据划分为1k至8k不同规模等级,并引入缺失值、重复实体和结构变异等现实扰动场景。每个样本通过人工标注与自动化流程结合的方式生成,确保问题与表格数据的逻辑一致性,最终以JSONL格式封装多表关联结构和标准答案。
使用方法
使用本数据集时需加载JSONL格式文件,通过解析表格字段重建CSV结构后进行多步推理。评估阶段推荐采用论文提出的LLM-as-a-judge方法,将模型输出与标准答案输入特定提示模板进行语义匹配。实施过程需注意根据扰动类型动态添加上下文说明,例如处理缺失值时需声明空值语义。代码库提供完整的评估流程实现,支持准确性统计与鲁棒性分析等维度验证。
背景与挑战
背景概述
在人工智能领域,表格数据推理作为结构化数据处理的核心环节,长期面临语义理解与逻辑推演的复杂性挑战。tabular-reasoning数据集由阿姆斯特丹数学与计算机科学中心的Cornelius Wolff和Madelon Hulsebos于2025年联合创建,其研究聚焦于评估大语言模型对表格数据的真实推理能力。该数据集基于TQA-Bench框架进行扩展与优化,通过设计多尺度表格结构与扰动场景,系统考察模型在查询解析、数值运算及关联推理等方面的表现,为提升表格认知智能提供了关键基准工具。
当前挑战
该数据集致力于解决表格数据推理中的领域挑战,包括多表关联查询的语义解析、复杂算术运算的逻辑推演,以及统计相关性计算的准确性要求。在构建过程中,研究人员需克服表格规模扩展带来的计算复杂度增长,设计缺失值模拟与结构变异等现实扰动场景,并建立兼顾严谨性与适应性的评估体系,以突破传统文本匹配指标在表格推理任务中的局限性。
常用场景
经典使用场景
在表格数据推理研究领域,该数据集被广泛用于评估大语言模型对结构化数据的理解能力。通过设计多尺度表格和真实扰动场景,研究者能够系统测试模型在查询检索、数值计算和逻辑推理任务中的表现,为表格推理研究提供了标准化评估框架。
解决学术问题
该数据集有效解决了表格推理中模型鲁棒性评估的学术难题。通过引入缺失值、重复实体和结构变异等真实扰动,揭示了语言模型在复杂表格环境下的泛化缺陷,推动了基于LLM-as-a-judge的新型评估范式发展,显著提升了表格推理研究的科学严谨性。
实际应用
在商业智能和数据分析场景中,该数据集支撑的评估方法可直接应用于增强企业报表系统的自然语言查询功能。通过模拟真实数据质量问题,帮助优化金融风控、供应链管理等领域的自动报表生成系统,提升数据驱动决策的准确性与可靠性。
数据集最近研究
最新研究方向
在表格推理领域,该数据集聚焦于大语言模型对结构化数据的深度理解能力评估,通过多尺度表格与扰动机制揭示模型鲁棒性瓶颈。前沿研究正探索异构表格的语义对齐技术,结合动态缺失值模拟与实体冗余注入,推动跨表关联推理的可解释性突破。此类工作直接影响金融分析、医疗决策等高风险场景的自动化进程,为构建可信表格智能系统奠定理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作