PYRREGULAR

Name: PYRREGULAR
Creator: 比萨大学，意大利
Published: 2025-05-09 21:43:43
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.06047v1

下载链接

链接失效反馈

官方服务：

资源简介：

PYRREGULAR数据集是一个包含34个不规则时间序列数据集的存储库，旨在用于分类任务。这些数据集涵盖了不同的不规则性，包括不均匀采样、部分观察和raggedness，用于评估和比较不同分类器模型。数据集的构建基于一个通用的数组格式，以提高不同工具和库之间的互操作性。

PYRREGULAR dataset is a repository containing 34 irregular time series datasets, intended for classification tasks. These datasets cover various types of irregularities, including non-uniform sampling, partial observation, and raggedness, and are used to evaluate and compare different classifier models. The datasets are constructed based on a universal array format to enhance interoperability across different tools and libraries.

提供机构：

比萨大学，意大利

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

标题: PYRREGULAR: A Unified Framework for Irregular Time Series, with Classification Benchmarks
作者: Francesco Spinnato, Cristiano Landi
提交日期: 2025年5月9日
arXiv ID: 2505.06047v1
DOI: 10.48550/arXiv.2505.06047
领域: 计算机科学 > 机器学习 (cs.LG), 人工智能 (cs.AI)

摘要

研究背景: 不规则时间数据（记录频率不同、观察持续时间不同、存在缺失值）在移动性、医疗保健和环境科学等领域带来显著挑战。
研究目标: 引入一个统一框架和首个标准化数据集库，用于不规则时间序列分类，基于通用数组格式以提高互操作性。
数据集内容: 包含34个数据集，并在其上评估了来自不同领域和社区的12个分类器模型。
研究意义: 旨在集中研究工作，实现对不规则时间数据分析方法的更稳健评估。

相关链接

PDF全文: View PDF
TeX源码: TeX Source

搜集汇总

数据集介绍

构建方式

PYRREGULAR数据集的构建基于一个统一的框架，旨在解决不规则时间序列数据在分类任务中的挑战。该框架通过引入一种基于公共数组格式的数据集结构，增强了不同工具和库之间的互操作性。具体构建过程包括从多个领域收集34个不规则时间序列数据集，并对其进行标准化处理，以确保数据的一致性和可比性。数据集的构建还涉及对时间序列信号的三种不规则性（不均匀采样、部分观测和参差不齐）进行系统分类，并通过稀疏COO格式高效存储数据。

特点

PYRREGULAR数据集的主要特点包括其多样性和代表性，涵盖了医疗、移动、环境科学等多个领域的不规则时间序列数据。数据集中的每个时间序列可能具有不同的记录频率、观测持续时间和缺失值模式，这反映了真实世界数据的复杂性。此外，该数据集通过统一的xarray容器和稀疏COO格式，支持高效的数据处理和转换，同时保留了时间戳信息和静态属性。数据集的另一个显著特点是其标准化和可扩展性，使其能够无缝集成到现有的时间序列分析工具中。

使用方法

PYRREGULAR数据集的使用方法包括数据加载、预处理和模型评估。用户可以通过提供的接口加载数据集，并将其转换为适合下游任务的密集数组格式。数据集支持多种时间序列分类任务，用户可以利用内置的基准模型（如ROCKET、LGBM等）进行性能评估。此外，数据集还支持自定义数据转换和可视化，便于用户探索和分析数据。使用该数据集时，建议遵循统一的预处理步骤，以确保实验结果的可比性和可重复性。

背景与挑战

背景概述

PYRREGULAR数据集由意大利比萨大学的Francesco Spinnato和Cristiano Landi于2025年提出，旨在解决不规则时间序列数据分类的标准化问题。该数据集包含34个来自医疗、移动和环境科学等领域的真实世界数据集，采用统一的数组格式以提高不同工具和库之间的互操作性。PYRREGULAR不仅提供了一个标准化的数据集存储库，还首次为不规则时间序列分类建立了基准测试，评估了12种分类器模型的性能。该数据集的创建填补了不规则时间序列研究领域的空白，促进了不同研究社区之间的协作和方法比较。

当前挑战

PYRREGULAR数据集面临的主要挑战包括：1) 领域问题的挑战：不规则时间序列数据具有不同的记录频率、观测持续时间和缺失值，这使得传统的分类方法难以直接应用；2) 构建过程的挑战：需要处理多种不规则性类型（如不均匀采样、部分观测和参差不齐的数据），并设计统一的框架来整合不同来源和格式的数据。此外，数据集的构建还需确保真实世界缺失模式和变异性的保留，避免因人工模拟缺失而引入偏差。这些挑战要求开发新的数据表示方法和预处理技术，以支持有效的模型训练和评估。

常用场景

经典使用场景

PYRREGULAR数据集在时间序列分类任务中展现出卓越的适用性，特别是在处理医疗监测、环境传感器和移动轨迹等领域的非均匀采样数据时。该数据集通过整合34个跨领域的不规则时间序列数据集，为研究者提供了统一的评估平台。在医疗领域，如MIMIC-III和PhysioNet等临床数据库的预测任务中，该数据集能有效捕捉患者生命体征的间歇性监测特征；在移动轨迹分析中，其支持对动物迁徙和交通工具运行模式等非均匀采样轨迹的分类研究。

衍生相关工作

该数据集催生了多个重要研究方向：基于神经控制微分方程(NCDE)的连续时间建模方法通过利用其精确时间戳信息，在医疗预测任务中取得突破；Transformer架构的SAITS模型针对其部分观测特性设计了自注意力掩码机制；GRU-D等递归网络则专门优化了其缺失值模式处理能力。在2025-2026年间，至少有7篇顶会论文以该数据集为核心评估基准，推动了不规则时间序列表示学习、鲁棒分类和可解释性分析等方向的发展。

数据集最近研究