TOPBENCH

Name: TOPBENCH
Creator: 南京大学·人工智能学院; 南京大学·国家软件新技术重点实验室
Published: 2026-05-01 00:22:51
License: 暂无描述

arXiv2026-05-01 更新2026-05-02 收录

下载链接：

https://github.com/LAMDA-Tabular/TopBench

下载链接

链接失效反馈

官方服务：

资源简介：

TOPBENCH是由南京大学团队构建的隐式预测表格问答基准数据集，涵盖医疗、金融和日常咨询三大领域，包含779个高质量样本。该数据集通过35张历史数据表构建，要求模型从自然语言查询中识别潜在预测意图，并基于历史模式推断未观测结果。数据内容包含单点预测、决策制定、因果效应分析和复杂筛选四类任务，涉及回归与分类双重目标。其构建采用逻辑驱动采样和双视角提示技术，经混合验证流程确保质量，旨在评估大模型在意图识别和预测推理方面的能力，推动表格智能研究发展。

TOPBENCH is a benchmark dataset for implicit predictive tabular question answering developed by the research team from Nanjing University. It covers three major domains: healthcare, finance, and daily consultation, and contains 779 high-quality samples. Constructed using 35 historical tabular datasets, this dataset requires models to identify latent predictive intentions from natural language queries and infer unobserved outcomes based on historical patterns. Its data includes four types of tasks: single-point prediction, decision-making, causal effect analysis, and complex filtering, covering both regression and classification objectives. Adopting logic-driven sampling and dual-perspective prompting techniques during its construction, TOPBENCH ensures data quality through a hybrid validation workflow. It aims to evaluate the capabilities of large language models in intention recognition and predictive reasoning, and promote the development of tabular intelligence research.

提供机构：

南京大学·人工智能学院; 南京大学·国家软件新技术重点实验室

创建时间：

2026-05-01

原始信息汇总

TopBench 数据集详情

概述

TopBench 是一个用于评估语言模型是否能够理解自然语言预测意图并解决相应表格预测任务的基准测试集。该数据集由 LAMDA-Tabular 团队发布，代码基于 MIT 许可证，数据托管在 HuggingFace 平台，要求 Python 3.10 及以上版本。

任务类型

TopBench 包含四大任务族：

任务名称	描述
single_point_prediction（单点预测）	预测某个描述案例的缺失值或类别。
decision_making（决策制定）	在候选预测场景中选择最佳选项。
treatment_effect_analysis（处理效应分析）	估计干预后的效果或趋势。
ranking_and_filtering（排序与过滤）	生成结构化的 CSV 排序或过滤结果。

兼容旧版命名映射关系：

B1 → single_point_prediction
B2 → decision_making
B3 → treatment_effect_analysis
B4 → ranking_and_filtering

推理模式

text_reasoning（文本推理模式）：映射为无工具模式（no_tool）
agentic_workflow（智能体工作流模式）：映射为有工具模式（with_tool），该模式需要在 Docker 沙箱中执行模型生成的 Python 代码

数据布局

数据集下载后需放置或符号链接至以下目录结构：

data/ single_point_prediction/ decision_making/ treatment_effect_analysis/ ranking_and_filtering/

输出结构

推理结果写入 outputs/<模型名称>/<模式>/<任务名称>/ 目录下，其中：

text_reasoning 模式输出到 no_tool 子目录
agentic_workflow 模式输出到 with_tool 子目录

基线方法

Predict-Only 基线 不使用语言模型，直接使用黄金结构化数据，采用自适应集成方法，可选的强表格预测器包括：

HistGradientBoosting
ExtraTrees
XGBoost
LightGBM
CatBoost
TabPFN（需安装）

仓库结构

TopBench/ data/ # 数据集占位目录 docker/ # 沙箱 Dockerfile scripts/ # 推理、评估和基线入口脚本 src/topbench/ # 包源代码 requirements/ # 依赖文件

运行要求

Python 3.10 及以上版本
支持 OpenAI 兼容接口的 API 密钥（如 DeepSeek）
文本推理和 Predict-Only 基线无需 Docker
智能体工作流模式需要 Docker 环境

搜集汇总

数据集介绍

构建方式

TOPBENCH的构建基于从Kaggle精心筛选的涵盖医疗、金融与日常咨询三大领域的真实相关性表格，表格规模从不足千行到超过六百万行不等。研究团队采用多阶段合成流水线：首先通过逻辑驱动采样策略挑选具有相似特征值或高噪声的挑战性样本，以测试模型的判别精度；继而运用双视角提示方法，分别模拟非技术性“用户”与知晓历史数据的“数据持有者”的叙事风格，避免机械式输出；最终经由独立LLM审计员与专家人工审核相结合的混合验证机制，确保每个样本的隐含预测意图具备一致性与可解性。该基准涵盖779个高质量样本，横跨单点预测、决策制定、处理效应分析与排序过滤四项子任务，预测目标在回归与分类间近乎均衡分布。

特点

TOPBENCH的核心特质在于其对隐式预测性表格问答的专注，区别于仅检索或聚合显式事实的传统基准。该基准要求模型首先从自然语言查询中抽象出目标特征轮廓并识别其预测意图，随后基于历史数据执行严格的预测推理以推断未观测结果，构成了从意图识别到预测建模的双重挑战。数据集结构设计精巧：不仅按回归与分类平衡预测目标，还融入了用户与数据持有者双重视角以测试角色适应性。此外，排序过滤任务特别设计了约束与无约束场景，并采用不同长度的候选列表，迫使模型在处理大规模数据时同时执行精确的特征筛选与批量预测排序。

使用方法

TOPBENCH采用双流评估框架以适配不同输出模态。对于单点预测、决策制定和处理效应分析等需生成自然语言推理结论的任务，采用基于LLM-as-a-Judge的管道，该管道不仅提取预测值与置信区间，还通过严格的幻觉验证协议确保提取信息忠实于原始模型输出，并评估推理链的逻辑连贯性。回归精度由结合点估计与区间覆盖的加权复合指标量化，决策与趋势则采用二元精确匹配评分。对于要求输出结构化CSV文件的排序过滤任务，评估转向确定性文件分析，以召回率、NDCG与批次NMAE分别衡量检索完整度、排序质量与数值精度。两种范式均可通过纯文本推理或集成ReAct循环的智能体框架执行。

背景与挑战

背景概述

表格数据作为信息承载的基石，在金融分析、医疗解读与日常管理等关键领域扮演着核心角色。然而，现有的大语言模型在表格问答任务中，多局限于对显式事实的检索或简单聚合，难以应对真实世界中普遍存在的隐式预测性查询——即用户问题蕴含未观测的推断目标，需要模型从历史模式中演绎而非直接提取答案。为填补这一评估空白，来自南京大学LAMDA实验室的An-Yang Ji、Jun-Peng Jiang、De-Chuan Zhan与Han-Jia Ye于2026年创建了TOPBENCH基准。该基准围绕意图识别与预测推理双重挑战，精心构建了涵盖单点预测、决策制定、治疗效果分析与排序筛选四大子任务的779个样本，横跨医疗、金融与日常咨询领域，为评估模型在隐式预测场景下的推理能力树立了全新标准。

当前挑战

TOPBENCH所应对的领域挑战在于，现有基准仅关注事实检索或指令跟随，而真实场景中的查询往往隐晦且要求模型先抽象出结构化预测任务、再执行可靠的因果推断，这一过程对意图歧义消除与预测建模能力均提出了严苛要求。在构建过程中，挑战同样显著：为生成自然且具挑战性的查询，研究团队采用逻辑驱动采样策略来挑选高难度案例（如特征相近的硬负样本），并设计双视角提示框架模拟不同角色口吻，避免机械化的语料产出。此外，为确保样本质量，还需结合LLM奖励模型打分与人工审核进行混合验证，所有样本均通过严格的评分筛选与简化回退机制，兼顾了任务难度与现实合理性。

常用场景

经典使用场景

在表格问答领域，TOPBENCH开创性地将评估范式从显式信息检索延伸至隐式预测推理。该数据集通过设计单点预测、决策制定、因果效应分析及排序筛选四个子任务，系统性地评测模型在理解非结构化查询背后隐含意图的基础上，从历史数据中推断未知结果的能力。与传统TQA基准测试截然不同的是，TOPBENCH中的查询意图并非一目了然，模型需首先对自然语言描述进行结构化抽象，识别出待预测的特征轮廓，进而执行基于数据驱动的严谨建模。这一独特设定使得TOPBENCH成为评估大语言模型在复杂表数据场景下跨步骤推理与潜在目标感知能力的标杆性任务，尤其适用于衡量模型在对抗性噪声和历史模式中提取因果信号的根本性能力。

衍生相关工作

TOPBENCH的诞生催生了一系列聚焦于表格隐式推理的前沿工作。在方法层面，受其启发的后续研究探索了在智能体工作流中集成更鲁棒的预测模型选择与自动化特征工程，例如将TabPFN等基础模型适配至基于自然语言查询的预测情境，以提升小样本下的预测精度。在评估框架上，TOPBENCH采用的LLM-as-a-Judge与结构化文件验证相结合的双模式评估体系，为后续复杂表格任务的评测设计提供了可复用的范式。此外，针对该基准揭示的意图识别失败模式，衍生工作开始关注如何通过意图增强提示（intent-enhanced prompting）或元学习（meta-learning）策略，引导模型在零样本条件下区分查询的检索与预测性质，标志着表格智能研究正从浅层语义理解向深层推理规划过渡。

数据集最近研究