TempusBench

Name: TempusBench
Creator: Simulacrum
Published: 2026-04-13 22:29:34
License: 暂无描述

arXiv2026-04-13 更新2026-04-15 收录

下载链接：

https://github.com/Smlcrm/TempusBench

下载链接

链接失效反馈

官方服务：

资源简介：

TempusBench是由Simulacrum团队开发的一个开源时间序列预测评估框架，旨在解决现有评估框架的四大核心问题。该数据集包含未包含在现有TSFM预训练语料库中的新时间序列数据，覆盖能源、交通、气候等10个领域，具有严格的训练/测试数据隔离机制。其创新性地设计了基于平稳性、季节性和数据质量等统计特性的基准任务类型，并提供了标准化超参数调优流程。该框架通过TensorBoard可视化界面，为研究者和从业者提供了模型性能的直观分析工具，主要应用于时间序列预测模型的公平比较和能力评估。

TempusBench is an open-source time series forecasting evaluation framework developed by the Simulacrum team, which aims to address four core issues of existing evaluation frameworks. This dataset includes novel time series data not covered in current TSFM pre-training corpora, covering 10 domains such as energy, transportation and climate, and features a strict train/test data isolation mechanism. It innovatively designs benchmark task types based on statistical properties including stationarity, seasonality and data quality, and provides a standardized hyperparameter tuning workflow. This framework offers intuitive model performance analysis tools for researchers and practitioners via the TensorBoard visualization interface, and is mainly applied to the fair comparison and capability evaluation of time series forecasting models.

提供机构：

Simulacrum

创建时间：

2026-04-13

原始信息汇总

TempusBench 数据集概述

数据集基本信息

数据集名称: Time Series Forecasting Benchmarking Pipeline (TempusBench)
主要用途: 为时间序列预测模型提供一个统一的基准测试框架。
核心功能: 评估包括传统统计模型和现代基础模型在内的多种时间序列预测模型的性能。

支持的时间序列任务

单变量时间序列任务: 25个，存放于 tempus_bench/tasks/univariate/ 目录下。
- 示例: chickenpox_dense_univariate, coinbase_days_univariate。
多变量时间序列任务: 23个，存放于 tempus_bench/tasks/multivariate/ 目录下。
- 示例: baggage_100_multivariate, madrid_transport_multivariate。

支持的预测模型

传统模型

统计模型: ARIMA, Theta, Seasonal Naive, Exponential Smoothing, Croston Classic。
机器学习模型: XGBoost, Random Forest, SVR。
深度学习模型: LSTM, DeepAR。
集成模型: TabPFN。

基础模型

Chronos (亚马逊), LagLlama, Moirai (微软), TimesFM (谷歌), Tiny Time Mixer, Toto, Moment。

框架关键特性

自动模型发现: 框架自动从 models 目录发现可用模型，所有模型均能无缝处理单变量和多变量数据集。
统一模型接口: 所有模型通过基类（BaseModel）实现一致的接口。
全面的数据处理: 自动处理多种任务格式、灵活的窗口划分、自动频率检测、数据归一化和滚动窗口评估。
灵活的配置系统: 通过配置文件支持模型特定参数、任务配置、评估设置和系统配置。
隔离执行: 每个模型在独立的 Conda 环境中运行，以避免依赖冲突。
超参数调优: 自动优化模型参数。
确定性及随机性预测: 根据任务类型自动路由。

评估指标与聚合

点预测指标: 平均绝对误差 (MAE), 均方根误差 (RMSE), 平均绝对百分比误差 (MAPE), 对称平均绝对百分比误差 (SMAPE)。
概率预测指标: 连续分级概率评分 (CRPS), 区间评分。
性能聚合器:
- 胜率: 计算每个模型的平均胜率。
- 技能评分: 计算每个模型相对于基线模型（默认为 seasonal_naive）的技能评分。

项目结构与安装

项目结构: 包含 config/, tasks/, metrics/, models/, pipeline/, aggregators/, utils/ 等核心模块目录。
安装要求: Python 3.8+ 和 Conda。所有模型必须与 Python 3.0 或更高版本（Python 3.x 系列）兼容。
安装步骤:
1. 克隆代码库。
2. 运行安装脚本 source install.sh。

使用方法

命令行运行: python -m tempus_bench.run_benchmark。
Python API: 使用 BenchmarkRunner 类初始化和运行基准测试。
运行单个模型: 使用 ModelExecutor 执行特定模型和超参数。
添加新模型: 在 tempus_bench/models/ 下创建模型目录，实现 BaseModel 类，并配置 settings.yaml 和 benchmark.yaml。

搜集汇总

数据集介绍

构建方式

在时间序列预测领域，评估框架的构建往往依赖于陈旧且可能存在数据泄露的数据集，这阻碍了时间序列基础模型的公平比较与科学进展。为应对这一挑战，TempusBench采用了一种系统化、多层次的构建策略。该框架精心整合了来自十个不同领域的全新数据集，这些数据均未包含在现有时间序列基础模型的预训练语料库中，从而有效避免了评估过程中的数据泄露问题。其构建过程遵循严谨的评估管道设计，通过滑动窗口机制生成滚动评估样本，严格保持时间顺序以消除前瞻性偏差。每个窗口被划分为上下文、训练和验证段，并采用标准化的超参数调优协议，为所有包含的预测模型（涵盖统计方法、经典机器学习、深度学习及基础模型共20种）进行公平、自动化的超参数搜索，确保了评估结果的一致性与可比性。

特点

TempusBench的核心特点在于其全面性与前瞻性的设计理念，旨在超越传统评估框架的局限。首先，它引入了基于核心统计特性的新颖基准任务分类体系，不仅关注预测长度、频率和领域等传统维度，更深入考量了时间序列的非平稳性、季节性、数据质量（如噪声、测量误差）、稀疏性以及目标变量类型（连续、计数、二元、分类）等长期被忽视的关键属性。其次，该框架实现了评估维度的显著拓展，其内置的基准任务表涵盖了从运动特性、数据质量到具体领域应用的广泛分类，提供了对模型能力更为细致和彻底的检验。最后，TempusBench配套了基于TensorBoard的可视化界面，使得研究人员能够直观地解读和比较不同模型在各种任务上的性能表现，弥补了单纯依赖数值指标的不足，增强了评估结果的解释性。

使用方法

作为开源评估框架，TempusBench为时间序列预测社区提供了一套标准化、可复现的使用流程。研究者可通过其GitHub仓库获取代码，并利用框架内置的评估管道对各类预测模型进行系统化测试。使用过程始于基准任务的选择，框架支持用户根据研究重点，从丰富的任务分类（如特定统计特性、领域或频率）中选取相应的数据集进行评估。随后，评估管道将自动执行包含超参数调优的三步流程：生成滚动评估窗口、为每个窗口选择最优超参数组合、并基于严格的时间顺序计算测试损失。最终，框架不仅输出如平均绝对误差、连续分级概率评分等聚合性能指标，还能通过可视化工具对预测结果进行定性分析。这种集成化的使用方法，旨在推动时间序列预测模型朝着更公平、更全面、更可解释的方向发展。

背景与挑战

背景概述

时间序列预测领域在基础模型浪潮的推动下正经历深刻变革，传统评估框架的局限性日益凸显。TempusBench由Simulacrum团队于2026年提出，旨在构建一个全面、无数据泄露且标准化的时间序列基础模型评估框架。该框架针对现有基准测试中普遍存在的评估数据集陈旧、统计特性覆盖不足、超参数调优标准缺失以及可视化工具匮乏等核心问题，通过整合新颖数据集、拓展任务维度、建立自动化超参数调优流程并集成可视化界面，为时间序列预测模型的公平比较与性能解读提供了系统性解决方案。TempusBench的出现标志着时间序列预测评估从分散的基准测试向标准化、可复现的评估生态演进，对推动领域内模型研发与性能评估的规范化具有重要奠基意义。

当前挑战

TempusBench致力于解决时间序列预测领域评估体系存在的多重挑战。在领域问题层面，传统评估框架依赖如M3等过时数据集，且测试数据常与模型预训练语料重叠，导致零样本泛化能力评估失真；现有基准任务定义维度狭窄，忽视非平稳性、季节性等核心统计特性，难以全面衡量模型能力；不同模型间缺乏统一的超参数调优标准，致使传统统计模型与基础模型间的比较有失公允；评估结果过度依赖数值指标，缺乏可视化工具支持深度性能解读。在构建过程中，团队需克服新数据集的采集与标注、多维任务分类体系的设计、自动化超参数搜索协议的标准化以及可视化接口的集成等技术障碍，确保评估框架的严谨性与易用性。

常用场景

经典使用场景

在时间序列预测领域，评估框架的标准化与全面性一直是推动模型发展的关键瓶颈。TempusBench作为一个开源评估框架，其最经典的使用场景在于为时间序列基础模型（TSFMs）提供系统化、无数据泄露的基准测试环境。该框架通过整合新颖的数据集、超越传统维度的任务分类（如平稳性、季节性、数据质量等）、标准化的超参数调优流程以及基于TensorBoard的可视化界面，构建了一个多维度的评估生态系统。研究人员能够在此框架下公平比较不同预测模型（包括统计方法、机器学习模型及TSFMs）的性能，从而准确识别各模型在特定时间序列特性下的优势与局限。

解决学术问题

TempusBench致力于解决时间序列预测领域长期存在的若干核心学术问题。首先，它通过引入未包含在现有TSFM预训练语料库中的新数据集，有效避免了测试数据泄露问题，从而确保了对模型零样本泛化能力的真实评估。其次，框架超越了传统基准任务仅关注预测长度、频率和领域等狭窄维度，将统计特性如非平稳性、季节性纳入评估体系，使得模型能力的检验更为全面。此外，通过为所有模型提供标准化的超参数自动调优协议，TempusBench消除了传统评估中因调优不一致而导致的不公平比较，为统计模型与复杂TSFMs之间的性能对比奠定了科学基础。

衍生相关工作

TempusBench的推出催生了一系列围绕时间序列基础模型评估的经典研究工作。其设计理念与评估范式直接影响了后续基准框架的构建，例如在更细粒度的任务分类、动态基准测试以及跨领域泛化评估等方面的拓展。框架中集成的多种模型（如LAFN、TimesFM、Moirai、Chronos等）的性能对比结果，为学术界提供了模型架构改进的关键洞察，促进了参数高效型设计、概率预测能力以及零样本学习机制等方面的创新。同时，TempusBench强调的数据去污染与标准化评估流程，也为时间序列预测领域的可复现性研究设立了新的标杆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集