TSCom-Bench

Name: TSCom-Bench
Creator: 中国科学院计算机网络信息中心, 北京科技大学, 华北电力大学, 中国联通软件研究院
Published: 2025-09-25 18:52:48
License: 暂无描述

arXiv2025-09-25 更新2025-11-21 收录

下载链接：

https://anonymous.4open.science/r/TSCom-Bench-8262/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

TSCom-Bench是一个用于时间序列模型的无损压缩评估框架，它通过将连续时间序列映射到离散序列，然后利用时间序列模型进行概率建模，最后通过算术编码器进行压缩，从而评估模型对时间序列数据的捕捉能力。该框架旨在弥补现有评估方法的不足，提供一个严格和统一的信息论标准来评估时间序列模型的建模能力。

TSCom-Bench is a lossless compression evaluation framework for time series models. It evaluates the capability of models in capturing time series data by mapping continuous time series to discrete sequences, performing probabilistic modeling with time series models, and finally conducting compression via arithmetic encoders. This framework aims to address the limitations of existing evaluation methods, providing a rigorous and unified information-theoretic criterion for assessing the modeling capabilities of time series models.

提供机构：

中国科学院计算机网络信息中心, 北京科技大学, 华北电力大学, 中国联通软件研究院

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在时间序列建模领域，传统评估范式存在分布建模能力验证的局限性。TSCom-Bench通过引入无损压缩作为核心评估任务，构建了基于香农信源编码理论的标准化框架。该数据集采用IEEE-754 32位浮点编码将多元时间序列映射为离散字节流，通过自回归概率建模与算术编码的协同架构，建立了压缩长度与负对数似然间的严格等价关系。其构建过程涵盖字节流序列化、概率分布预测和熵编码三个核心模块，确保从连续值到符号流的双射转换能够完整保留原始数据的熵结构。

特点

该数据集的核心特征体现在其理论严谨性与评估全面性的统一。基于信息论的评估机制将模型压缩效率直接关联于数据生成分布的近似程度，能够揭示传统任务忽略的尾部风险和分布偏移问题。其多模态评估体系涵盖PEMS08、Traffic等六个真实场景数据集与Enwik9等压缩基准，通过比特每字节、压缩比和吞吐量三维指标实现建模能力的多角度量化。特别值得注意的是，该框架对预压缩数据与高冗余数据的敏感识别能力，如对Solar数据集周期性特征的精准捕捉，彰显了其超越传统功能验证的分布建模评估优势。

使用方法

该数据集的使用遵循标准化评估协议，研究者可将时间序列模型作为概率生成器接入压缩流水线。具体流程包括：将原始时间序列通过规范编码转换为字节流，利用自回归模型逐符号预测条件概率分布，最终通过算术编码器生成压缩比特流。评估阶段需固定预处理流程与超参数，在独立测试集上计算压缩效率指标。开源框架TSCom-Bench提供了完整的编码函数、参考编解码器及评估脚本，支持Transformer架构与线性模型等各类时间序列模型的即插即用，确保不同方法在统一信息论准则下的可比性与可复现性。

背景与挑战

背景概述

时间序列建模作为机器学习的重要分支，在金融、医疗和工业领域具有广泛应用。传统评估范式主要聚焦于预测、填补、异常检测和分类四项任务，但这些方法难以全面衡量模型对数据生成分布的捕获能力。TSCom-Bench由中国科学院计算机网络信息中心等机构的研究团队于2026年提出，创新性地引入无损压缩作为评估时间序列模型的新范式。该数据集基于香农信源编码定理，通过建立压缩长度与负对数似然间的等价关系，为模型能力评估提供了统一的信息论框架，推动了时间序列建模从功能验证向分布建模的范式转变。

当前挑战

在领域问题层面，传统时间序列评估任务存在固有局限：预测任务仅约束条件均值而忽略高阶统计特征，填补任务受限于特定掩码模式，异常检测仅关注正常数据分布，分类任务则完全脱离数据本身的生成过程建模。这些任务无法有效评估模型对全局熵结构的捕获能力。在构建过程中，需要解决连续时间序列到离散符号流的双射映射问题，确保信息熵在转换过程中的守恒性；同时需设计标准化的编码协议与概率建模接口，协调算术编码器与时序模型的协同工作，并保证数值计算的稳定性与可复现性。

常用场景

经典使用场景

在时间序列建模领域，TSCom-Bench作为首个基于无损压缩原理的评估基准，其经典应用场景主要体现在对深度时序模型分布建模能力的系统性检验。该框架通过将连续时间序列映射为离散字节流，利用算术编码技术构建起概率建模与压缩效率之间的等价关系，为Transformer、PatchTST等主流架构提供了超越传统任务的评估维度。实验表明，在PEMS08、Traffic等多元时序数据集上，压缩性能能够有效揭示模型对数据熵结构的捕捉能力，尤其擅长检测那些在预测任务中表现良好但实际分布建模存在缺陷的模型。

衍生相关工作

该数据集的发布催生了时序建模研究的新范式，衍生出多个重要研究方向。基于压缩预训练的时序表征学习成为新兴热点，研究者将TSCom-Bench作为预训练目标开发出UniTS等通用架构；模型架构设计领域涌现出专门针对字节流建模的TemporalByte等新型网络，在保持压缩效率的同时提升推理速度。在评估体系方面，衍生出C-TSCom等考虑计算复杂度的多目标基准，以及面向边缘设备的轻量化压缩评估框架。这些工作共同推动了时序建模从任务导向到分布建模的范式转变。

数据集最近研究