five

SerieSet

收藏
github2024-09-13 更新2024-09-15 收录
下载链接:
https://github.com/liaoyuhua/serieset
下载链接
链接失效反馈
官方服务:
资源简介:
SerieSet 是一个易于使用的时间序列数据集构建工具,专为时间序列模型训练设计。它依赖于 PyTorch、Pandas 和 Numpy,提供了简单且相对通用的数据集构建功能。

SerieSet is an easy-to-use time series dataset construction tool specifically designed for time series model training. It relies on PyTorch, Pandas and Numpy, and provides simple yet relatively universal dataset construction functions.
创建时间:
2024-09-13
原始信息汇总

SerieSet: Easy Time Series Dataset with PyTorch

概述

SerieSet 是一个用于时间序列模型训练的简单且相对通用的数据集构建工具。该项目仅依赖于 PyTorchPandasNumpy

安装

shell pip install serieset

API 详情

  • data (pandas.DataFrame): 包含单个或多个时间序列的数据框,预期包含 group_iddate_coltarget_col 列,features 列可选。
  • inp_len (int): 输入序列长度,例如 96。
  • pred_len (int): 预测序列长度,例如 14。
  • target_col (str): 目标时间序列列名,例如机场流量、商店销售额。
  • date_col (str): 日期列名,例如 "date"。
  • group_id (Union[str, List[str]]): 组ID列名,例如 "store_name" 或 ["store_name", "product_id"]。
  • features (Optional[Union[str, List[str]]]): 特征列名,例如 "volume" 或 ["volume", "price"]。所有特征应为数值型。
  • train_val_split_date (str): 训练-验证分割日期,例如 "2019-01-01"。默认值为 None,如果为 last,则使用最后 inp_len + pred_len 的数据进行验证。
  • dtype (str): torch 数据张量的数据类型,默认值为 "float32"。
  • mode (str): 训练或验证模式。

示例

python import pandas as pd from serieset import TimeSeriesDataset

data = pd.read_csv("./data/ETTh1.csv") data["group_id"] = "ETTh1"

print(data.head()) print(f"minimum date: {data[date].min()}") print(f"maximum date: {data[date].max()}")

params = { target_col: OT, features: ["HUFL", "HULL"], group_id: group_id, date_col: date, inp_len: 36, pred_len: 12, train_val_split_date: 2018-01-01 00:00:00, mode: train, }

torch_dataset = TimeSeriesDataset( data=data, **params )

搜集汇总
数据集介绍
main_image_url
构建方式
在时间序列分析领域,SerieSet数据集的构建旨在为模型训练提供一个简便且相对通用的数据集生成工具。该数据集的构建主要依赖于PyTorch、Pandas和Numpy,通过定义输入序列长度(inp_len)、预测序列长度(pred_len)、目标列(target_col)、日期列(date_col)、分组ID(group_id)以及可选的特征列(features),实现对时间序列数据的灵活处理。此外,通过设定训练与验证数据的分裂日期(train_val_split_date),数据集能够自动划分训练与验证集,确保模型训练的科学性与有效性。
特点
SerieSet数据集的主要特点在于其高度灵活性和易用性。首先,它支持单个或多个时间序列的处理,能够适应不同复杂度的数据需求。其次,通过定义输入和预测序列长度,数据集能够精确控制模型输入输出的时间跨度,满足不同预测任务的需求。此外,数据集还支持多种特征的引入,增强了模型的预测能力。最后,其基于PyTorch的实现,使得数据集能够无缝集成到现有的深度学习框架中,便于研究人员和开发者快速上手。
使用方法
使用SerieSet数据集时,用户首先需要安装相应的Python包,并通过Pandas读取时间序列数据。随后,用户需根据具体需求设定参数,如目标列、特征列、分组ID、日期列、输入和预测序列长度等。通过调用TimeSeriesDataset类,用户可以轻松生成适用于PyTorch模型训练的数据集。此外,用户还可以通过设定训练与验证数据的分裂日期,自动划分数据集,确保模型训练的科学性与有效性。总体而言,SerieSet数据集的使用方法简便直观,能够大幅提升时间序列模型训练的效率。
背景与挑战
背景概述
SerieSet数据集的创建旨在为时间序列模型的训练提供一个简单且相对通用的数据集构建工具。该数据集由主要研究人员或机构开发,旨在解决时间序列分析中的模型训练问题。其核心研究问题是如何高效地构建和处理时间序列数据,以便于模型的训练和验证。SerieSet的推出对时间序列分析领域具有重要影响,为研究人员提供了一个基于PyTorch、Pandas和Numpy的便捷工具,极大地简化了数据预处理和模型训练的流程。
当前挑战
SerieSet数据集在构建过程中面临的主要挑战包括:1) 如何确保数据集的通用性,使其适用于多种时间序列分析任务;2) 如何高效地处理和分割时间序列数据,以满足不同模型的输入和预测需求;3) 如何处理多维特征和多组时间序列数据的整合,确保数据集的多样性和复杂性。此外,数据集的构建还需考虑数据类型的统一和数据质量的保证,以确保模型训练的准确性和稳定性。
常用场景
经典使用场景
SerieSet数据集在时间序列模型训练中展现了其经典应用。通过提供易于使用的API,研究者能够快速构建和处理时间序列数据,特别适用于需要多组时间序列数据进行模型训练的场景。例如,在预测机场客流量或商店销售额时,SerieSet能够高效地处理输入序列长度和预测序列长度的设定,从而为模型训练提供标准化的时间序列数据集。
实际应用
在实际应用中,SerieSet数据集被广泛用于商业预测、金融分析和物联网数据处理等领域。例如,零售企业可以利用SerieSet进行销售预测,金融机构则可用于市场趋势分析。其灵活的API设计和高效的性能使得SerieSet成为处理大规模时间序列数据的理想选择,极大地提升了数据驱动的决策效率。
衍生相关工作
SerieSet数据集的推出激发了一系列相关研究和工作。例如,基于SerieSet的改进算法和模型在时间序列预测比赛中取得了显著成绩,推动了时间序列分析技术的进步。此外,SerieSet还促进了开源社区对时间序列数据处理工具的开发和优化,形成了丰富的生态系统,进一步扩展了其应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作