foxy-steve/monash_uea_ucr_tser
收藏Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/foxy-steve/monash_uea_ucr_tser
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于时间序列外回归(TSER)研究的数据集集合,旨在学习时间序列与连续标量变量之间的关系。数据集包含多个特征,如时间戳、静态分类特征、预测目标、时间序列数据等,并分为训练集和测试集。数据集的创建目的是为了评估预测未来单点估计的全局预测模型。
该数据集是一个用于时间序列外回归(TSER)研究的数据集集合,旨在学习时间序列与连续标量变量之间的关系。数据集包含多个特征,如时间戳、静态分类特征、预测目标、时间序列数据等,并分为训练集和测试集。数据集的创建目的是为了评估预测未来单点估计的全局预测模型。
提供机构:
foxy-steve
原始信息汇总
数据集概述
数据集名称
- 名称: Appliances Energy Regression Dataset
- 别名: Time Series Extrinsic Regression
数据集特征
- start: 时间戳,数据类型为
timestamp[s] - feat_static_cat: 分类特征,数据类型为
uint64 - to_predict: 预测目标,数据类型为
float32 - timeseries: 时间序列数据,数据类型为
float32 - item_id: 标识符,数据类型为
string
数据集结构
- 数据实例: 包含时间戳、静态分类特征、预测目标、时间序列数据和项目ID。
- 数据字段:
start: 每个时间序列数据记录的开始时间。feat_static_cat: 记录的原始标识符。timeseries: 时间序列本身,可能是单变量或多变量。to_predict: 预测的连续变量。item_id: 每个记录的标识符。
数据集划分
- 训练集: 包含95个样本,总大小为1325820字节。
- 测试集: 包含42个样本,总大小为586152字节。
数据集大小
- 下载大小: 1020749字节
- 数据集总大小: 1911972字节
许可信息
- 许可证: GNU General Public License (GPL) 3
任务类别
- 任务: 时间序列预测
语言
- 语言: 英语
大小分类
- 大小范围: 10K<n<100K
搜集汇总
数据集介绍

构建方式
在时间序列分析领域,构建高质量的数据集对于推动回归模型的发展至关重要。Monash_UEA_UCR时间序列外生回归数据集由多个权威机构联合整理,其构建过程严格遵循学术规范。原始数据来源于公开的多元时间序列集合,经过精心筛选与整合,确保涵盖不同领域的实际应用场景。数据预处理环节最大限度地保留了原始特征,采用sktime兼容的.ts格式存储,便于研究者直接调用。训练集与测试集按照时间顺序以约70:30的比例划分,这种时序分割策略模拟了现实世界中的预测任务,增强了数据集的实用性与挑战性。
特点
该数据集的核心特征在于其专注于时间序列外生回归这一前沿任务,旨在探索时间序列与连续标量变量之间的复杂映射关系。数据集包含多元与单变量时间序列,结构清晰,每条记录均包含起始时间戳、静态分类特征、时间序列数据、待预测的连续值及唯一项目标识符。这种设计既支持传统的回归分析,也为深度学习模型提供了丰富的输入维度。数据集规模适中,涵盖多样化的真实世界场景,为算法评估提供了坚实的基准,其格式兼容主流时间序列分析库,极大提升了研究的可复现性与对比效率。
使用方法
使用本数据集时,研究者可借助Hugging Face平台直接加载,或通过提供的原始代码仓库获取数据。典型应用流程包括数据读取、特征工程、模型训练与评估。由于数据已划分为训练集和测试集,用户可直接用于构建预测模型,以时间序列为输入,预测对应的连续数值目标。建议参考配套的学术论文与基准结果,深入理解数据特性与任务定义。在模型开发过程中,应注意遵循数据的时间分割原则,避免未来信息泄露,确保评估结果的科学性与可靠性。
背景与挑战
背景概述
时间序列外生回归(TSER)作为时间序列分析领域的一个新兴研究方向,旨在探索时间序列数据与连续标量变量之间的复杂映射关系。该数据集由莫纳什大学、东英吉利大学和加州大学河滨分校的研究团队于2020年联合创建,核心研究人员包括Chang Wei Tan、Christoph Bergmeir、François Petitjean和Geoffrey I. Webb等。其研究焦点在于突破传统时间序列分类任务的局限,推动回归模型在预测连续数值方面的应用,为能源消耗预测、环境监测等实际场景提供了重要的基准资源。该数据集的建立显著促进了时间序列外生回归算法的发展,成为该领域评估模型性能的关键工具。
当前挑战
时间序列外生回归任务面临的核心挑战在于如何有效捕捉时间序列的动态模式与连续目标变量之间的非线性关联,尤其是在多元时间序列中存在高维特征交互时,模型容易受到噪声干扰而导致预测精度下降。数据构建过程中的挑战主要体现在原始数据来源的异构性,不同领域的时间序列在采样频率、长度和分布上存在显著差异,需进行复杂的归一化与对齐处理。此外,数据标注的连续性要求严格的领域专业知识,以确保目标变量的准确性与一致性,这增加了数据集的构建难度与质量控制成本。
常用场景
经典使用场景
在时间序列分析领域,时间序列外生回归任务旨在探索时间序列数据与连续标量变量之间的复杂关联。该数据集作为Monash、UEA和UCR时间序列外生回归档案的核心组成部分,为研究者提供了标准化的基准测试平台。其经典使用场景集中于评估和比较各类回归模型在多元时间序列预测中的性能,例如通过分析电器能耗数据集中的多变量时间序列,预测未来某一时刻的能耗数值。这种场景不仅验证了模型从历史数据中提取时序模式的能力,还强调了模型对连续目标变量的精准回归预测。
实际应用
在实际应用层面,该数据集支撑了众多与时间序列预测紧密相关的现实场景。例如,在能源管理领域,基于电器能耗数据的时间序列外生回归模型可用于精准预测家庭或工业设备的未来能耗,从而优化能源分配、实现智能电网调度。在工业物联网中,类似方法可应用于设备状态监测,通过传感器时序数据回归预测关键性能指标(如温度、压力),以提前预警故障、安排维护。这些应用不仅提升了资源利用效率,还增强了系统的自动化与可靠性,体现了时间序列回归技术在智慧城市、智能制造等领域的实用价值。
衍生相关工作
围绕该数据集,学术界已衍生出一系列经典研究工作,主要集中在时间序列外生回归算法的创新与评估框架的构建。例如,原始论文中提出的基准测试体系为后续研究设立了性能比较标准。基于此,研究者们开发了多种深度学习和传统机器学习模型,如基于Transformer的时序回归架构、集成学习方法以及特征提取技术,以提升预测精度与效率。这些工作不仅扩展了时间序列回归的方法论,还催生了针对多元、长序列数据的专用模型,进一步丰富了时间序列分析的研究生态,并为相关竞赛和开源项目提供了核心数据支持。
以上内容由遇见数据集搜集并总结生成



