five

CSTS

收藏
arXiv2025-05-21 更新2025-05-22 收录
下载链接:
http://arxiv.org/abs/2505.14596v1
下载链接
链接失效反馈
官方服务:
资源简介:
CSTS是一个针对多元时间序列数据中发现相关性结构的合成基准。它为研究人员提供了一个清晰的基准,通过区分相关性结构恶化和聚类算法及验证方法的局限性,使他们能够隔离和识别聚类失败的具体原因。CSTS包括两个独立的合成时间序列数据集,每个数据集包含30个主体,每个主体包含100个不同长度的片段,片段长度从15分钟到10小时不等。CSTS旨在帮助研究人员系统地评估聚类算法和验证方法,并在不同的数据条件下进行客观比较。

CSTS is a synthetic benchmark for discovering correlational structures in multivariate time series data. It provides researchers with a clear framework to isolate and identify specific causes of clustering failures, by distinguishing between deteriorating correlational structures and the limitations of clustering algorithms and validation methods. CSTS includes two independent synthetic time series datasets, each consisting of 30 subjects, with each subject containing 100 segments of variable lengths ranging from 15 minutes to 10 hours. This benchmark is designed to help researchers systematically evaluate clustering algorithms and validation methods, and conduct objective comparisons across different data conditions.
提供机构:
布里斯托尔大学计算机科学学院, 布里斯托尔大学工程数学与技术学院, 南京大学人工智能学院, 都柏林大学学院工程与建筑学院
创建时间:
2025-05-21
原始信息汇总

数据集概述:CSTS: A Benchmark for the Discovery of Correlation Structures in Time Series Clustering

基本信息

  • 标题: CSTS: A Benchmark for the Discovery of Correlation Structures in Time Series Clustering
  • 作者: Isabella Degen, Zahraa S Abdallah, Henry W J Reeve, Kate Robson Brown
  • 提交日期: 2025年5月20日
  • arXiv标识符: arXiv:2505.14596v1
  • DOI: https://doi.org/10.48550/arXiv.2505.14596
  • 领域: 计算机科学 > 机器学习 (cs.LG); 机器学习 (stat.ML)
  • MSC分类: 62H30, 62H20, 62-11, 68T10, 62M10
  • ACM分类: I.5.3; H.2.8; G.3; I.2.6

摘要

CSTS(Correlation Structures in Time Series)是一个用于评估多元时间序列数据中相关结构发现的合成基准。该基准通过区分相关结构退化与聚类算法和验证方法的局限性,帮助研究人员精确诊断方法限制。主要贡献包括:

  1. 一个全面的相关结构发现基准,包含不同的相关结构、系统变化的数据条件、性能阈值和评估协议。
  2. 实证验证了相关结构在降采样中的适度失真,以及分布偏移和稀疏化的最小影响。
  3. 一个可扩展的数据生成框架,支持以结构为先的聚类评估。

数据集详情

  • 内容: 9页正文 + 32页总内容,2个主图 + 6个附录图,1个主表 + 17个附录表。
  • 可用资源:
    • 数据集: 可通过提供的URL访问。
    • 代码: 可通过提供的URL访问。

引用信息

  • BibTeX: 可通过页面提供的工具导出。
  • 其他引用方式: NASA ADS, Google Scholar, Semantic Scholar等。

相关链接

  • PDF: 可通过页面提供的链接查看。
  • HTML: 实验性查看选项。
  • TeX源码: 可获取。
搜集汇总
数据集介绍
main_image_url
构建方式
CSTS数据集通过合成多元时间序列数据构建,专注于评估相关性结构的发现能力。数据生成过程包括四个阶段:原始数据生成、相关性编码、非正态分布转换和下采样。每个阶段均设置了不同的数据完整性水平(100%、70%和10%),以模拟真实世界中的不同数据条件。数据集包含30个受试者,每个受试者包含100个时间序列段,每段采用随机选择的相关性结构模式,并通过固定随机种子确保可重复性。
特点
CSTS数据集的核心特点在于其结构优先的设计理念,提供了23种明确的相关性结构模式,覆盖了强正相关、可忽略相关和强负相关等多种情况。数据集通过系统性地引入分布偏移、稀疏化和下采样等数据变化,为研究者提供了评估聚类算法鲁棒性的丰富场景。此外,CSTS还包含了66种预定义的退化聚类结果,覆盖了Jaccard指数的全范围,为验证聚类质量提供了客观标准。
使用方法
CSTS数据集支持通过Hugging Face平台直接加载,提供了探索性和验证性两个独立的数据集分割。研究者可利用标准化的评估协议,包括聚类到真实标签的映射、内部有效性指标(如轮廓系数和Davies-Bouldin指数)计算,以及外部验证(如Jaccard指数)。数据集特别适用于评估基于相关性的时间序列聚类算法、预处理技术效果以及验证方法的有效性,其生成框架还支持自定义相关性结构和参数调整。
背景与挑战
背景概述
CSTS(时间序列聚类中相关性结构发现基准)是由Isabella Degen等研究人员于2025年提出的一个合成基准数据集,旨在解决时间序列聚类领域缺乏验证基准的问题。该数据集由布里斯托大学、南京大学和都柏林大学的研究团队共同开发,专注于评估多元时间序列数据中相关性结构的发现能力。CSTS的核心研究问题是为时间序列聚类提供具有明确真实标签的基准,从而区分算法局限性、验证方法不当与数据本身缺乏结构这三种导致聚类失败的情况。该数据集通过提供23种明确定义的相关性结构模式、系统变化的数据条件(分布偏移、稀疏化和降采样)以及预定义的退化聚类结果,显著提升了时间序列聚类方法评估的严谨性,推动了该领域从经验性探索向科学验证的转变。
当前挑战
CSTS数据集主要解决两个层面的挑战:在领域问题层面,时间序列聚类长期面临缺乏客观评估标准的困境,现有基准(如UCR存档)基于分类边界而非数据结构特性,导致算法性能评估存在偏差;在构建过程层面,数据集创建面临三大技术挑战:1)需要设计能够生成所有有效相关性结构模式的数学框架,特别是处理23种半正定相关矩阵的松弛问题;2)必须精确控制数据退化条件(如降采样对负相关结构的显著影响)并量化其对各模式的影响差异;3)需建立结构保持性验证体系,包括开发针对相关性结构的专用评估指标(如基于L5范数的轮廓系数)和性能阈值。此外,数据集还需解决非正态分布转换、不规则采样模拟等技术难题,以确保生成的合成数据既具有数学严谨性又保留真实数据的典型特征。
常用场景
经典使用场景
在时间序列聚类研究中,CSTS数据集被广泛应用于评估算法在多元时间序列数据中发现相关结构的能力。该数据集通过提供具有明确相关结构的合成数据,使研究人员能够精确控制数据条件,从而系统性地测试聚类算法在不同数据变异(如分布偏移、稀疏化和降采样)下的表现。经典使用场景包括验证聚类算法是否能准确识别预设的相关模式,以及评估算法对数据质量变化的鲁棒性。
解决学术问题
CSTS数据集解决了时间序列聚类领域缺乏可靠基准的关键问题。传统方法依赖分类数据集(如UCR存档),其分类边界未必反映数据结构特性,导致算法性能评估存在偏差。CSTS通过提供基于统计结构(而非分类边界)的合成数据,使研究者能区分算法局限性与数据结构退化。该数据集特别针对相关结构发现,填补了现有基准在验证拓扑、几何和统计结构特异性方面的空白,推动了聚类评估从“艺术”向“科学”的转变。
衍生相关工作
CSTS的提出催生了一系列针对结构特异性聚类评估的研究。基于其框架,后续工作扩展至其他数据结构(如拓扑结构)的基准构建;启发了对内部验证指标(如轮廓系数)在相关结构场景下的阈值研究;并被用于优化TICC等算法的超参数敏感性分析。数据集内置的退化聚类结果(如错误分段、误分类片段)为开发新型验证指标(如改进的Jaccard指数)提供了标准化测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作