Impermanent

Name: Impermanent
Creator: 牛津大学; ELLIS研究所·蒂宾根; Mila·魁北克人工智能研究所·蒙特利尔大学; 亚马逊网络服务
Published: 2026-03-10 01:59:00
License: 暂无描述

arXiv2026-03-10 更新2026-03-11 收录

下载链接：

https://github.com/TimeCopilot/impermanent

下载链接

链接失效反馈

官方服务：

资源简介：

Impermanent是由TimeCopilot团队联合多所顶尖学术机构构建的动态时序预测基准数据集，聚焦GitHub开源生态中400个高星仓库的四种开发活动（议题创建、拉取请求、推送事件和新增关注者）。该数据集以GH Archive事件流为原始数据源，通过滚动窗口机制实现每日更新，包含小时级至月级的非平稳时间序列，具有显著的概念漂移特性。数据集构建采用预序评估框架，严格隔离训练与测试时段以避免数据泄漏，旨在评估模型在开放环境下的时序泛化能力。其核心应用场景是验证时间序列基础模型在真实动态系统中的持续预测性能，解决传统静态评估导致的过拟合和性能虚高问题。

Impermanent is a dynamic time series prediction benchmark dataset jointly constructed by the TimeCopilot team and several leading academic institutions. It focuses on four development activities (issue creation, pull requests, push events, and new follower additions) of 400 high-star repositories within the GitHub open-source ecosystem. The dataset uses GH Archive event streams as its raw data source and is updated daily via a rolling window mechanism. It contains non-stationary time series with granularities spanning from hourly to monthly, exhibiting significant concept drift. The dataset is built using a temporal-split evaluation framework that strictly isolates training and test time periods to prevent data leakage, with the goal of evaluating the temporal generalization ability of models in open environments. Its core application scenario is to validate the sustained prediction performance of time series foundation models in real-world dynamic systems, addressing the issues of overfitting and inflated performance induced by traditional static evaluations.

提供机构：

牛津大学; ELLIS研究所·蒂宾根; Mila·魁北克人工智能研究所·蒙特利尔大学; 亚马逊网络服务

创建时间：

2026-03-10

搜集汇总

数据集介绍

构建方式

在时间序列预测领域，静态评估基准常因数据泄露和测试集污染问题而难以准确衡量模型在动态环境中的泛化能力。Impermanent基准通过构建一个持续演化的实时数据流来应对这一挑战，其数据源来自GitHub软件开发生态系统。该数据集选取了按星标数排名前400的代码仓库，针对四种事件类型（新开议题、拉取请求、推送事件和新加星标）构建了多频率时间序列，涵盖小时、日、周和月四种预测粒度。数据管道基于GH Archive事件流，通过自动化流程进行实时采集、聚合与更新，并设置了严格的数据完整性阈值，确保评估序列在时间维度上的连续性与可靠性。

使用方法

使用Impermanent基准需遵循其预设的序贯评估协议，该协议模拟了真实部署场景。在每个截止时间点，模型仅能基于历史观测窗口生成未来一定步长的点预测与概率预测，且必须在真实值产生前提交预测结果。评估采用滚动窗口方式，截止点按预测步长等间隔推进，最新截止点因数据可能不完整而被排除。性能度量综合了针对点预测精度的平均绝对缩放误差（MASE）与针对概率预测的连续分级概率评分（CRPS），并通过零模型进行标准化以增强跨子数据集的可比性。所有评估流程通过自动化管道执行，结果在公开排行榜上动态更新，支持对模型在持续分布变化下的性能稳定性与排名动态进行长期追踪与分析。

背景与挑战

背景概述

在时间序列预测领域，随着预训练基础模型的兴起，对模型泛化能力的评估需求日益凸显。传统静态基准测试往往采用固定的训练-测试分割，难以反映模型在动态、非平稳环境下的真实性能。为此，TimeCopilot团队于2026年推出了Impermanent数据集，这是一个基于GitHub开源活动构建的实时基准测试平台。该数据集聚焦于400个高星存储库，涵盖问题开启、拉取请求、推送事件和新增关注者四类时间序列，旨在通过连续更新的数据流和顺序评估协议，系统考察预测模型在开放世界中的时间泛化能力，为时间序列基础模型的可靠性验证提供了创新性工具。

当前挑战

Impermanent数据集致力于解决时间序列预测中时间泛化评估的核心挑战。传统静态基准测试常因数据泄露和测试集污染导致性能评估失真，无法有效衡量模型在分布漂移和结构突变下的稳健性。该数据集通过实时、防泄漏的评估框架，要求模型在真实观测值产生前进行预测，从而直面时间序列中的非平稳性、突发性以及跨存储库行为异质性等难题。在构建过程中，团队需处理GitHub活动数据的高度间歇性和规模差异性，设计多频率、多指标的聚合管道，并建立自动化、可复现的评估基础设施，以确保基准测试的持续性和公正性。

常用场景

经典使用场景

在时间序列预测领域，随着预训练基础模型的兴起，评估其泛化能力成为关键挑战。Impermanent作为首个专注于时间泛化评估的实时基准，其经典使用场景在于对预测模型进行序列化评估，即在持续更新的GitHub活动数据流上，模型需在真实观测值出现前生成预测，随后依据实际数据评分。这一过程模拟了真实世界中的动态环境，使得研究者能够系统考察模型在非平稳数据分布下的持续表现，而非依赖静态数据集的一次性准确率。

解决学术问题

该数据集主要解决了时间序列预测中模型泛化能力评估的局限性问题。传统静态基准常因数据泄露或测试集污染而高估性能，无法反映模型在时间演变中的稳健性。Impermanent通过实时、防泄漏的评估协议，使时间泛化变得可测量，能够有效分析模型在分布漂移、外部冲击下的鲁棒性，以及排名稳定性。这为验证基础模型是否真正具备跨时间泛化能力提供了严谨的实证基础，推动了预测方法学向更贴近实际部署场景的范式转变。

实际应用

Impermanent的实际应用场景紧密关联于软件工程与开源生态系统管理。基于GitHub活动数据，该数据集可用于预测代码仓库的问题提交、拉取请求、推送事件及星标增长等关键指标，帮助项目维护者预见开发活跃度波动，优化资源分配。在更广泛的业务环境中，类似的实时评估框架可迁移至金融、零售或物联网等领域，用于监控时间序列预测模型在生产环境中的性能衰减，支持动态决策系统的可靠性维护。

数据集最近研究