five

PYRREGULAR

收藏
arXiv2025-05-09 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.06047v1
下载链接
链接失效反馈
官方服务:
资源简介:
PYRREGULAR数据集是一个包含34个不规则时间序列数据集的存储库,旨在用于分类任务。这些数据集涵盖了不同的不规则性,包括不均匀采样、部分观察和raggedness,用于评估和比较不同分类器模型。数据集的构建基于一个通用的数组格式,以提高不同工具和库之间的互操作性。

PYRREGULAR dataset is a repository containing 34 irregular time series datasets, intended for classification tasks. These datasets cover various types of irregularities, including non-uniform sampling, partial observation, and raggedness, and are used to evaluate and compare different classifier models. The datasets are constructed based on a universal array format to enhance interoperability across different tools and libraries.
提供机构:
比萨大学,意大利
创建时间:
2025-05-09
原始信息汇总

数据集概述

基本信息

  • 标题: PYRREGULAR: A Unified Framework for Irregular Time Series, with Classification Benchmarks
  • 作者: Francesco Spinnato, Cristiano Landi
  • 提交日期: 2025年5月9日
  • arXiv ID: 2505.06047v1
  • DOI: 10.48550/arXiv.2505.06047
  • 领域: 计算机科学 > 机器学习 (cs.LG), 人工智能 (cs.AI)

摘要

  • 研究背景: 不规则时间数据(记录频率不同、观察持续时间不同、存在缺失值)在移动性、医疗保健和环境科学等领域带来显著挑战。
  • 研究目标: 引入一个统一框架和首个标准化数据集库,用于不规则时间序列分类,基于通用数组格式以提高互操作性。
  • 数据集内容: 包含34个数据集,并在其上评估了来自不同领域和社区的12个分类器模型。
  • 研究意义: 旨在集中研究工作,实现对不规则时间数据分析方法的更稳健评估。

相关链接

搜集汇总
数据集介绍
main_image_url
构建方式
PYRREGULAR数据集的构建基于一个统一的框架,旨在解决不规则时间序列数据在分类任务中的挑战。该框架通过引入一种基于公共数组格式的数据集结构,增强了不同工具和库之间的互操作性。具体构建过程包括从多个领域收集34个不规则时间序列数据集,并对其进行标准化处理,以确保数据的一致性和可比性。数据集的构建还涉及对时间序列信号的三种不规则性(不均匀采样、部分观测和参差不齐)进行系统分类,并通过稀疏COO格式高效存储数据。
特点
PYRREGULAR数据集的主要特点包括其多样性和代表性,涵盖了医疗、移动、环境科学等多个领域的不规则时间序列数据。数据集中的每个时间序列可能具有不同的记录频率、观测持续时间和缺失值模式,这反映了真实世界数据的复杂性。此外,该数据集通过统一的xarray容器和稀疏COO格式,支持高效的数据处理和转换,同时保留了时间戳信息和静态属性。数据集的另一个显著特点是其标准化和可扩展性,使其能够无缝集成到现有的时间序列分析工具中。
使用方法
PYRREGULAR数据集的使用方法包括数据加载、预处理和模型评估。用户可以通过提供的接口加载数据集,并将其转换为适合下游任务的密集数组格式。数据集支持多种时间序列分类任务,用户可以利用内置的基准模型(如ROCKET、LGBM等)进行性能评估。此外,数据集还支持自定义数据转换和可视化,便于用户探索和分析数据。使用该数据集时,建议遵循统一的预处理步骤,以确保实验结果的可比性和可重复性。
背景与挑战
背景概述
PYRREGULAR数据集由意大利比萨大学的Francesco Spinnato和Cristiano Landi于2025年提出,旨在解决不规则时间序列数据分类的标准化问题。该数据集包含34个来自医疗、移动和环境科学等领域的真实世界数据集,采用统一的数组格式以提高不同工具和库之间的互操作性。PYRREGULAR不仅提供了一个标准化的数据集存储库,还首次为不规则时间序列分类建立了基准测试,评估了12种分类器模型的性能。该数据集的创建填补了不规则时间序列研究领域的空白,促进了不同研究社区之间的协作和方法比较。
当前挑战
PYRREGULAR数据集面临的主要挑战包括:1) 领域问题的挑战:不规则时间序列数据具有不同的记录频率、观测持续时间和缺失值,这使得传统的分类方法难以直接应用;2) 构建过程的挑战:需要处理多种不规则性类型(如不均匀采样、部分观测和参差不齐的数据),并设计统一的框架来整合不同来源和格式的数据。此外,数据集的构建还需确保真实世界缺失模式和变异性的保留,避免因人工模拟缺失而引入偏差。这些挑战要求开发新的数据表示方法和预处理技术,以支持有效的模型训练和评估。
常用场景
经典使用场景
PYRREGULAR数据集在时间序列分类任务中展现出卓越的适用性,特别是在处理医疗监测、环境传感器和移动轨迹等领域的非均匀采样数据时。该数据集通过整合34个跨领域的不规则时间序列数据集,为研究者提供了统一的评估平台。在医疗领域,如MIMIC-III和PhysioNet等临床数据库的预测任务中,该数据集能有效捕捉患者生命体征的间歇性监测特征;在移动轨迹分析中,其支持对动物迁徙和交通工具运行模式等非均匀采样轨迹的分类研究。
衍生相关工作
该数据集催生了多个重要研究方向:基于神经控制微分方程(NCDE)的连续时间建模方法通过利用其精确时间戳信息,在医疗预测任务中取得突破;Transformer架构的SAITS模型针对其部分观测特性设计了自注意力掩码机制;GRU-D等递归网络则专门优化了其缺失值模式处理能力。在2025-2026年间,至少有7篇顶会论文以该数据集为核心评估基准,推动了不规则时间序列表示学习、鲁棒分类和可解释性分析等方向的发展。
数据集最近研究
最新研究方向
近年来,PYRREGULAR数据集在时间序列分析领域引起了广泛关注,特别是在处理不规则时间序列数据方面。该数据集通过提供一个统一的框架和标准化的数据集存储库,解决了现有研究中工具和方法碎片化的问题。PYRREGULAR数据集涵盖了34个不同领域的数据集,并对其中的12种分类器模型进行了基准测试。这一工作不仅集中了研究努力,还为不规则时间序列数据分析方法的评估提供了更加稳健的基础。在医疗、环境科学和移动性分析等领域,PYRREGULAR数据集的应用显著提升了对动态变化数据的处理能力。其前沿研究方向包括:开发能够显式利用不规则性的通用方法,如时间戳信息或缺失性质;扩展框架以支持更广泛的任务,如回归、预测和异常检测;以及集成更多时间序列库中的方法,以增强其跨领域适用性。PYRREGULAR数据集的发布为时间序列研究社区提供了一个重要的资源,推动了该领域的标准化和协作。
相关研究论文
  • 1
    PYRREGULAR: A Unified Framework for Irregular Time Series, with Classification Benchmarks比萨大学,意大利 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作