five

UCR time series classification archive|时间序列分类数据集|基准测试数据集

收藏
arXiv2025-03-26 更新2025-03-28 收录
时间序列分类
基准测试
下载链接:
http://www.cs.ucr.edu/~eamonn/time_series_data/
下载链接
链接失效反馈
资源简介:
UCR时间序列分类档案是一个包含128个异构单变量时间序列数据集的存储库,来自于各种应用领域,其中112个数据集具有相等的序列长度。该数据集被广泛用于时间序列分类方法的研究和评估。文中指出,当前基准数据集中有许多数据集的表格特征较为明显,或者已经进行了良好的分段,这使得时间信息在分类中的重要性降低。为此,作者提出了UCR Augmented基准,通过向数据集中引入失配来减少表格特征的影响,强调时间信息的重要性。
提供机构:
新南威尔士大学
创建时间:
2025-03-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
UCR时间序列分类档案的构建基于多元化的实际应用场景,涵盖了128个异构的单变量时间序列数据集。这些数据集来自不同领域,其中112个具有等长序列,确保了基准的统一性和可比性。数据集的构建过程严格遵循时间序列的标准化处理流程,包括归一化和分段对齐,以保留时间序列的时序特征。此外,数据集通过手动或基于领域知识的预处理,确保了数据的质量和一致性,为时间序列分类研究提供了可靠的基准。
使用方法
使用UCR时间序列分类档案时,研究者可通过标准化流程加载和预处理数据,确保实验的可重复性。数据集通常用于评估分类器在原始序列和经过时序置换的序列上的性能差异,以验证时序信息的贡献。此外,通过引入UCR Augmented基准,用户可进一步测试分类器在强调时序信息的环境下的表现。具体操作包括对原始序列添加高斯随机游走填充以引入错位,从而削弱表格化特征的影响,迫使分类器依赖时序信息进行分类。
背景与挑战
背景概述
UCR时间序列分类档案库作为时间序列分类领域最具影响力的基准数据集之一,由加州大学河滨分校团队于2015年创建。该档案库收录了来自光谱分析、医疗监测、工业传感等多元领域的128个单变量时间序列数据集,其中112个具有等长序列特性。其核心价值在于为学术界提供了评估时序分类算法提取时间依赖特征能力的标准化平台,推动了动态时间规整(DTW)、形状变换(STC)等系列重要算法的发展。Chen等人通过统一的数据预处理和评估协议,显著提升了不同研究方法间的可比性,使该档案库成为近十年时间序列分类领域方法创新的核心验证基准。
当前挑战
该数据集面临的双重挑战主要体现在:从领域问题维度,约34%的数据集经置换检验揭示其分类性能不受时序信息破坏的影响,暴露出当前基准对真正依赖时序特征的分类任务评估存在偏差,部分数据集实质上更接近表格数据特性;从构建过程维度,数据集存在完美对齐和过度分割现象——光谱分析类数据因固定波长索引失去时序意义,而人工标注数据则因过度清洗削弱了真实时序的相位变化。这些局限性促使研究者提出UCR Augmented新基准,通过高斯随机游走填充策略引入可控的错位,强化时序特征在分类中的决定性作用。
常用场景
经典使用场景
UCR时间序列分类档案作为时间序列分类领域的黄金标准,广泛应用于算法性能评估和模型比较研究。该数据集包含128个异构单变量时间序列数据集,涵盖医疗监测、运动识别、光谱分析等多个领域,为研究者提供了丰富的基准测试场景。特别是在评估基于形状、间隔和特征的时间序列分类方法时,UCR档案能够有效验证算法捕捉时序模式的能力。
解决学术问题
该数据集解决了时间序列分类中时序信息重要性评估的关键问题。通过引入置换测试和UCR Augmented基准,研究者能够区分真正依赖时序信息的分类任务与本质上是表格数据的伪时序任务。这项工作纠正了长期以来对时序分类器评估的偏差,为开发真正利用时序特征的算法提供了理论依据,推动了时间序列分类研究向更严谨的方向发展。
实际应用
在实际工业应用中,UCR档案指导了故障预测、行为识别等重要场景的模型开发。例如在设备状态监测中,基于该基准优化的Shapelet变换分类器能准确识别机械振动异常;在医疗领域,通过UCR Augmented验证的Mini-Rocket算法可有效分析心电图时序特征。这些应用显著提升了工业预测性维护和医疗诊断的准确率。
数据集最近研究
最新研究方向
在时间序列分类领域,UCR时间序列分类档案作为最广泛使用的基准数据集,近期研究揭示了其部分数据集对时间信息的依赖性较低。通过引入时间信息去除测试,研究发现约34%的数据集在时间信息被破坏后分类准确率未显著下降,表明这些数据集本质上更接近表格数据。为解决这一问题,研究者提出了UCR Augmented基准,通过引入高斯随机游走填充来增强时间信息的重要性。实验表明,传统依赖表格特征的方法(如Rotation Forest)在新基准上性能显著下降,而基于形状的方法(如STC)则展现出更强的鲁棒性。这一发现为时间序列分类器的评估提供了更严谨的框架,并推动了对相位无关方法的重新关注。
相关研究论文
  • 1
    Revisit Time Series Classification Benchmark: The Impact of Temporal Information for Classification新南威尔士大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录