TopBench

github2026-05-06 更新2026-05-08 收录

下载链接：

https://github.com/LAMDA-Tabular/TopBench

下载链接

链接失效反馈

官方服务：

资源简介：

TopBench是一个用于评估语言模型是否能够理解隐式预测意图并解决相应表格问答任务的基准数据集。它包含四个任务家族：单点预测、决策制定、治疗效果分析和排名与过滤。

TopBench is a benchmark dataset for evaluating whether language models can understand implicit predictive intentions and solve corresponding table-based question answering tasks. It encompasses four task families: Single-point Prediction, Decision Making, Treatment Effect Analysis, and Ranking and Filtering.

创建时间：

2026-04-22

原始信息汇总

TopBench 数据集详情

概述

TopBench 是一个用于表格问答中隐式预测与推理的基准数据集，旨在评估语言模型能否理解隐式预测意图并解决相应的表格问答任务。该数据集托管于 Hugging Face：LAMDA-Tabular/TopBench。

任务类别

TopBench 包含四个任务族：

任务	描述
`single_point_prediction`	预测一个缺失值或类别。
`decision_making`	在多个候选预测场景中选择最佳选项。
`treatment_effect_analysis`	估计干预后的效果或趋势。
`ranking_and_filtering`	生成结构化的 CSV 排序或过滤结果。

历史名称映射：

B1 → single_point_prediction
B2 → decision_making
B3 → treatment_effect_analysis
B4 → ranking_and_filtering

数据集结构

下载数据集后，目录布局如下：

data/ single_point_prediction/ decision_making/ treatment_effect_analysis/ ranking_and_filtering/

使用方式

安装

bash conda create -n topbench python=3.10 -y conda activate topbench python -m pip install -U pip python -m pip install -e .

完整基线依赖：

bash python -m pip install -r requirements/full.txt

数据准备

下载数据集：

bash python scripts/download_dataset.py --local-dir data

验证数据集布局：

bash python scripts/validate_dataset.py --data-root data

推理

支持两种模式：

text_reasoning（无工具）
agentic_workflow（有工具，需 Docker 沙箱）

示例：

bash python scripts/run_legacy_inference.py --data-root data --output-root outputs --model deepseek --tasks single_point_prediction decision_making treatment_effect_analysis ranking_and_filtering --modes text_reasoning agentic_workflow --max-files 1 --workers 1

输出路径：

outputs/<model>/<legacy_mode>/<legacy_task>/

评估

使用兼容性评估器：

bash python scripts/reproduce_paper_scores.py --data-root data --inference-root outputs --task decision_making --model deepseek --mode text_reasoning

Predict-Only 基线

不使用 LLM，直接使用结构化数据，集成多种表格预测器（HistGradientBoosting、ExtraTrees、XGBoost、LightGBM、CatBoost、TabPFN 等）。

运行测试：

bash python scripts/run_predict_only_baseline.py --task single_point_prediction --data-root data --output-root outputs --mode predict_only --fast-smoke

仓库结构

TopBench/ data/ # 数据集占位目录 docker/ # 沙箱 Dockerfile scripts/ # 推理、评估和基线入口 src/topbench/ # 包源代码 requirements/ # 依赖文件

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在表格问答领域中，现有基准多聚焦于显式信息检索，而TopBench则开创性地聚焦于隐式预测与推理任务。该数据集通过系统化设计，构建了涵盖单点预测、决策制定、治疗效果分析及排序筛选四大任务族的多维评测体系。每个任务族均包含大量由结构化表格与自然语言问题构成的样本，其问题设计巧妙嵌入隐式预测意图，要求模型不仅解析表格语义，还需进行前瞻性推断。数据构建过程兼顾了现实场景的多样性，融合了多种表格类型与预测目标，确保了基准的广泛代表性与挑战性。

特点

TopBench最显著的特点在于其任务设计的层次性与综合性。单点预测任务考验模型对缺失值的精准补全能力，决策制定任务则模拟多方案择优的复杂场景，治疗效果分析引入因果推理维度，排序筛选任务则要求输出结构化结果。这种设计使基准能够全面评估语言模型在隐式推理、工具调用与多步计算上的综合能力。此外，数据集支持文本推理与智能体工作流两种评测模式，后者通过Docker沙箱执行模型生成的代码，真实模拟了人机协同的预测分析流程。

使用方法

使用者可通过Hugging Face平台便捷下载数据集，并依据官方代码库提供的标准化脚本完成配置。推理阶段支持多种开源模型，用户只需指定任务类型与推理模式（文本推理或智能体工作流）即可启动测试。评估环节提供兼容性评价器，可自动计算各任务的性能指标。对于非深度学习基线，内置的预测集成模型整合了多种经典表格学习器，便于进行方法对比。整个流程从数据准备到结果复现均通过脚本化操作完成，降低了使用门槛并确保了评测的可重复性。

背景与挑战

背景概述

TopBench是由LAMDA-Tabular团队于近期构建的基准数据集，旨在系统评估语言模型在表格问答场景中理解隐含预测意图并进行复杂推理的能力。该数据集聚焦于表格数据（tabular data）这一广泛存在于金融、医疗、科研等领域的结构化信息载体，然而现有模型多侧重显式查询问答，对诸如未来趋势预测、干预效果评估等深层隐含需求的推理能力尚缺乏标准化衡量标准。TopBench包含单点预测、决策制定、治疗效果分析与排名筛选四大任务家族，覆盖从数值填充到结构化排序的多元推理场景。其创建弥补了当前表格推理评估体系中隐性预测维度的空白，为探索语言模型在表格环境中的预测与推理边界提供了关键基准，推动了该领域从浅层理解向深层推理的跃迁。

当前挑战

TopBench所解决的领域核心挑战在于语言模型需理解表格中的隐性预测目标并完成多类型推理任务，这对模型从纯文本生成转向结构化逻辑分析的能力提出了严苛要求。在具体任务中，模型需应对单点预测中的缺失值补全、决策问题中的多方案权衡、治疗效果分析中的因果推断以及排名筛选中的多维比较，这些任务超越了传统问答的检索范畴，需模型融合统计推理与领域知识。构建过程中，团队面临两大挑战：一是设计任务时确保问题“隐含性”，即答案无法通过直接查询获得，需模型主动推导；二是构造多样化的表格样本时，需平衡表格复杂性、任务难度与领域覆盖，避免数据偏差导致评估失真。此外，如何构建安全的沙箱环境以执行模型生成的推理代码，同时保持评估的可复现性，亦构成工程实践上的显著障碍。

常用场景

经典使用场景

在表格问答与隐式推理领域，TopBench基准数据集为评估大语言模型理解隐含预测意图并完成相应表格问答任务提供了标准化测试平台。该数据集精心设计了四大任务族，包括单点预测、决策制定、处理效应分析以及排序与过滤，覆盖了从缺失值预测到结构化结果生成的完整推理链条。研究者可借助此基准系统性地检验语言模型在无需显式指令的情况下，能否从表格数据中自主推断出深层预测逻辑，进而推动模型从基础理解向高阶推理能力迈进。

实际应用

在实际应用层面，TopBench所覆盖的四种任务类型与企业级数据决策场景高度契合。单点预测任务可直接用于客户流失预警或风险评估中的缺失值填补；决策制定任务能够辅助金融投资或医疗方案中的多选项择优；处理效应分析任务则适用于营销活动效果评估或政策干预模拟；排序与过滤任务可应用于人才筛选、商品推荐等场景的结构化排名输出。该数据集通过模拟真实业务中的隐式预测需求，为商业智能系统集成前瞻性推理能力提供了技术验证的关键参考。

衍生相关工作

围绕TopBench数据集已涌现出一系列具有代表性的衍生工作。其中，研究者提出了基于预测纯组装合（predict-only ensemble）的强基线模型，融合了HistGradientBoosting、XGBoost、LightGBM、CatBoost及TabPFN等多种经典表格预测器，形成无需语言模型参与的稳健预测方案。此外，基于代理工作流（agentic workflow）的沙箱化推理框架被设计用于执行模型生成的Python代码，实现了自动化的因果效应计算与结构化数据操作，为后续结合代码生成与表格推理的研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集