thuml/UTSD

Name: thuml/UTSD
Creator: thuml
Published: 2025-06-19 11:32:08
License: 暂无描述

Hugging Face2025-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/thuml/UTSD

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

Unified Time Series Dataset (UTSD) 是一个包含7个不同领域的时间序列数据集，总计高达10亿个时间点，分为四个不同规模的子集（UTSD-1G, UTSD-2G, UTSD-4G, UTSD-12G）。数据集来源于公开的在线数据仓库和实际机器操作数据，涵盖了能源、环境、健康、物联网、自然、交通和网络等多个领域。每个数据集都经过平稳性和可预测性分析，以评估其复杂性。数据集旨在促进大规模模型和时间序列预训练领域的研究。

提供机构：

thuml

原始信息汇总

数据集概述

数据集名称

名称: Unified Time Series Dataset (UTSD)

数据集描述

描述: UTSD是一个包含7个领域，最多达10亿时间点的时间序列数据集，旨在促进大规模模型研究和时间序列领域的预训练。该数据集精心整合了公开可访问的在线数据资源和来自实际机器操作的经验数据。

数据集配置

配置名称:
- default
- UTSD-1G
- UTSD-2G
- UTSD-4G
- UTSD-12G
数据文件路径:
- default: */*.arrow
- UTSD-1G: UTSD-1G/*.arrow
- UTSD-2G: UTSD-2G/*.arrow
- UTSD-4G: UTTSD-4G/*.arrow
- UTSD-12G: UTSD-12G/*.arrow

数据集任务类别

任务类别:
- 时间序列预测

数据集标签

标签:
- 时间序列预测
- 时间序列分析
- 时间序列

数据集大小

大小类别:
- 100M<n<1B

数据集详细信息

领域:
- Energy
- Environment
- Health
- IoT
- Nature
- Transportation
- Web
数据集详情:
- 每个数据集通过平稳性和预测性进行分析，以描述每个数据集固有的复杂性水平。
- 详细信息包括时间点、文件大小、频率、ADF值和预测性。

数据集使用

加载示例: python import datasets UTSD_12G = datasets.load_from_disk(UTSD-12G)

数据集许可证

许可证:
- Apache-2.0

搜集汇总

数据集介绍

构建方式

UTSD数据集精心构建于多种公开可用的在线数据资源和来自真实世界机器操作的实证数据。所有数据集根据其来源被分类为七个不同的领域：能源、环境、健康、物联网（IoT）、自然、交通和网络，具有多样化的采样频率。数据集的构建过程中，对每个数据集进行了平稳性和可预测性的分析，以表征每个数据集固有的复杂性水平。

特点

UTSD数据集的特点在于其统一性和多样性。它涵盖了七个领域，包含多达十亿个时间点，并分为四个层次的容量：UTSD-1G、UTSD-2G、UTSD-4G和UTSD-12G。每个较小的数据集都是较大数据集的子集，较大的子集意味着更高的数据难度和多样性，适合进行详细的扩展实验。

使用方法

用户可以通过访问和加载UTSD数据集，使用提供的代码库中的脚本进行数据下载和加载。由于数据集的构建包含不同长度的序列，用户可以根据自己的需求构建数据组织逻辑。此外，还提供了用于评估时间序列数据集的代码，用户可以使用该脚本评估Huggingface格式的数据集。

背景与挑战

背景概述

UTSD（Unified Time Series Dataset）是由清华大学机器学习组精心构建的综合性时间序列数据集，涵盖了从能源、环境、健康到物联网等多个领域的数据。该数据集于2024年10月发布，旨在推动大规模时间序列模型和预训练技术的发展。UTSD包含多达1亿个时间点，分为四个层次的容量，以适应不同复杂度和多样性的研究需求。其核心研究问题在于如何有效利用大规模时间序列数据进行模型训练和预测，从而提升时间序列分析的准确性和效率。该数据集的发布对时间序列预测和分析领域具有重要影响，为研究人员提供了一个统一且多样化的数据平台，促进了相关技术的创新与应用。

当前挑战

UTSD数据集在构建过程中面临多项挑战。首先，数据来源广泛，涉及多个领域和不同的采样频率，如何确保数据的一致性和质量是一个重要问题。其次，时间序列数据通常具有非平稳性和复杂性，这增加了模型训练的难度。此外，数据集的规模庞大，对存储和计算资源提出了高要求，如何在有限的资源下高效处理和分析数据是一个技术挑战。最后，不同层次的数据集在复杂度和多样性上存在差异，如何设计有效的实验和评估方法以验证模型的泛化能力也是一个关键问题。

常用场景

经典使用场景

UTSD数据集在时间序列预测领域中具有广泛的应用，尤其适用于大规模时间序列模型的预训练和微调。其丰富的数据来源和多样的采样频率使其成为研究时间序列复杂性和预测性能的理想选择。通过分析不同领域的时间序列数据，研究人员可以深入探讨时间序列的平稳性和可预测性，从而优化预测模型。

衍生相关工作

UTSD数据集的发布催生了一系列相关研究工作，特别是在时间序列预测和大规模模型预训练方面。例如，基于UTSD的研究已经提出了多种新型的时间序列预测模型，这些模型在多个基准测试中表现优异。此外，UTSD还激发了关于时间序列数据复杂性和可预测性的深入探讨，推动了时间序列分析领域的理论和方法创新。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集