TempoBench

Name: TempoBench
Creator: 哥伦比亚大学,美国
Published: 2025-10-31 23:17:55
License: 暂无描述

arXiv2025-10-31 更新2025-11-04 收录

下载链接：

https://github.com/nik-hz/tempobench

下载链接

链接失效反馈

官方服务：

资源简介：

TempoBench是一个用于评估大型语言模型（LLM）在时间推理任务上的性能的基准测试数据集。该数据集由哥伦比亚大学的研究团队创建，旨在通过两个评估基准——时间轨迹评估（TTE）和时间因果评估（TCE）来分解推理能力。TempoBench使用从形式化规范描述的真实世界系统中合成的自动机的时序轨迹，生成结构复杂度可控的时序推理问题。这些数据集是正式验证的，能够帮助研究人员更好地理解LLM在处理时序推理任务时的局限性。

TempoBench is a benchmark dataset for evaluating the performance of Large Language Models (LLMs) on temporal reasoning tasks. Developed by a research team at Columbia University, this dataset aims to decompose reasoning capabilities via two evaluation benchmarks: Temporal Trajectory Evaluation (TTE) and Temporal Causal Evaluation (TCE). TempoBench generates temporal reasoning problems with controllable structural complexity by utilizing temporal traces of automata synthesized from real-world systems described by formal specifications. These datasets are formally verified, enabling researchers to gain a better understanding of the limitations of LLMs when handling temporal reasoning tasks.

提供机构：

哥伦比亚大学,美国

创建时间：

2025-10-31

原始信息汇总

TempoBench 数据集概述

数据集基本信息

名称：TempoBench
类型：LLM基准测试数据集
用途：时序推理评估（基于自动机/轨迹的形式化基础）
存储位置：https://huggingface.co/datasets/nikolausholzer/tempobench

核心特性

任务类型

轨迹接受度
时序因果关系（提供逐特征指标）

支持的后端

OpenRouter/OpenAI（OpenAI兼容接口）
Hugging Face pipelines
vLLM
自定义Python适配器

输出格式

逐行JSONL + CSV格式
包含准确率和F1分数（AP和timestep级别）
支持可复现运行：固定种子、清单友好输出、小型打包样本数据集

数据获取

公开基准测试数据集可通过Hugging Face获取
如需获取推理SFT相关数据集，需联系作者

技术规格

安装方式：pip install tempobench
Python版本：≥ 3.10（推荐）
许可证：MIT

结果模式

每条结果记录包含：

模型标识
标准答案和预测结果
解析后的GT和PRED数据
正确性标识
精确率、召回率和F1分数（AP和timestep级别）
成本统计
生成标识符
原生提示令牌和完成令牌计数

搜集汇总

数据集介绍

构建方式

在时序推理研究领域，TempoBench采用形式化方法构建数据集，通过反应式合成技术将时序逻辑规范转化为可控系统。该数据集基于SYNTCOMP标准库中的TLSF规范，利用LTLsynt工具合成具有输入输出分离特性的HOA控制器。通过HOAX工具生成有限轨迹，结合CORP算法提取因果自动机，确保每个推理任务都具有可验证的最优解。这种端到端的合成框架能够参数化控制问题复杂度，生成4000条TTE轨迹和20000条TCE轨迹，为系统分析大语言模型的推理能力提供坚实基础。

特点

TempoBench的显著特征在于其形式化验证的时序推理问题集合，涵盖两个核心任务：时序轨迹评估和时序因果评估。该数据集通过五个可量化特征精确控制问题难度，包括效应深度、系统状态数、转移数量、因果输入总数和轨迹中独特输入数。其独特优势在于结合了现实系统的时间特性和形式化验证的严谨性，既避免了临时生成数据集的偏差问题，又克服了纯数学证明系统与现实任务脱节的局限。数据集支持精细化的统计分析，能够揭示推理性能与结构复杂度之间的量化关系。

使用方法

使用TempoBench时，研究人员通过标准化的JSON格式与大语言模型交互，采用单样本提示策略引导模型完成时序推理任务。评估过程采用精确率、召回率和F1分数等多维度指标，分别在原子命题和时间步两个层面进行测量。数据集支持对模型推理能力的系统性诊断，通过随机森林回归和SHAP分析揭示各结构特征对推理性能的影响程度。这种使用方法不仅能够评估模型的绝对性能，更能深入分析模型在复杂时序推理任务中的失败模式，为改进大语言模型的推理能力提供具体方向。

背景与挑战

背景概述

在人工智能领域，大型语言模型的推理能力评估一直是研究重点。2025年，哥伦比亚大学研究团队Nikolaus Holzer等人推出了TempoBench基准数据集，专注于时间推理能力的系统化评估。该数据集基于形式化方法构建，采用反应式合成技术从SYNTCOMP基准的时序逻辑规范生成验证数据，填补了现有基准在形式验证和真实系统对齐方面的空白。TempoBench通过参数化难度控制，为分析LLMs在多步因果推理和时序轨迹理解方面的表现提供了诊断性工具，对推动智能代理在商业应用中的可信部署具有重要意义。

当前挑战

TempoBench致力于解决时间推理系统性能评估的核心挑战：现有基准难以在保持形式验证可靠性的同时捕捉真实世界推理过程的决策链结构。构建过程中面临双重挑战：在领域问题层面，需要平衡形式系统的严谨性与现实任务的复杂性，避免模型依赖先验知识而非纯时序推理；在技术实现层面，需从时序逻辑规范合成可控难度的自动机，并确保生成的轨迹既能反映真实系统行为，又能通过因果分析工具进行严格验证。这些挑战使得数据生成管道必须整合反应式合成、轨迹生成和因果提取等多个技术环节的协同工作。

常用场景

衍生相关工作

TempoBench的推出催生了多个重要的衍生研究方向。基于其形式化验证的特性，该数据集为训练具有结构化时序推理能力的大语言模型提供了高质量数据源，推动了因果信用分配和规划任务的研究进展。同时，其参数化难度控制机制启发了新一代诊断性基准的设计理念，促使研究社区从单纯的任务性能评估转向对推理结构本质的深入探索，为构建更可靠的通用人工智能系统奠定了方法论基础。

数据集最近研究