five

thuml/UTSD|时间序列分析数据集|多领域数据集数据集

收藏
hugging_face2024-06-19 更新2024-06-12 收录
时间序列分析
多领域数据集
下载链接:
https://hf-mirror.com/datasets/thuml/UTSD
下载链接
链接失效反馈
资源简介:
Unified Time Series Dataset (UTSD) 是一个包含7个不同领域的时间序列数据集,总计高达10亿个时间点,分为四个不同规模的子集(UTSD-1G, UTSD-2G, UTSD-4G, UTSD-12G)。数据集来源于公开的在线数据仓库和实际机器操作数据,涵盖了能源、环境、健康、物联网、自然、交通和网络等多个领域。每个数据集都经过平稳性和可预测性分析,以评估其复杂性。数据集旨在促进大规模模型和时间序列预训练领域的研究。

Unified Time Series Dataset (UTSD) 是一个包含7个不同领域的时间序列数据集,总计高达10亿个时间点,分为四个不同规模的子集(UTSD-1G, UTSD-2G, UTSD-4G, UTSD-12G)。数据集来源于公开的在线数据仓库和实际机器操作数据,涵盖了能源、环境、健康、物联网、自然、交通和网络等多个领域。每个数据集都经过平稳性和可预测性分析,以评估其复杂性。数据集旨在促进大规模模型和时间序列预训练领域的研究。
提供机构:
thuml
原始信息汇总

数据集概述

数据集名称

  • 名称: Unified Time Series Dataset (UTSD)

数据集描述

  • 描述: UTSD是一个包含7个领域,最多达10亿时间点的时间序列数据集,旨在促进大规模模型研究和时间序列领域的预训练。该数据集精心整合了公开可访问的在线数据资源和来自实际机器操作的经验数据。

数据集配置

  • 配置名称:
    • default
    • UTSD-1G
    • UTSD-2G
    • UTSD-4G
    • UTSD-12G
  • 数据文件路径:
    • default: */*.arrow
    • UTSD-1G: UTSD-1G/*.arrow
    • UTSD-2G: UTSD-2G/*.arrow
    • UTSD-4G: UTTSD-4G/*.arrow
    • UTSD-12G: UTSD-12G/*.arrow

数据集任务类别

  • 任务类别:
    • 时间序列预测

数据集标签

  • 标签:
    • 时间序列预测
    • 时间序列分析
    • 时间序列

数据集大小

  • 大小类别:
    • 100M<n<1B

数据集详细信息

  • 领域:
    • Energy
    • Environment
    • Health
    • IoT
    • Nature
    • Transportation
    • Web
  • 数据集详情:
    • 每个数据集通过平稳性和预测性进行分析,以描述每个数据集固有的复杂性水平。
    • 详细信息包括时间点、文件大小、频率、ADF值和预测性。

数据集使用

  • 加载示例: python import datasets UTSD_12G = datasets.load_from_disk(UTSD-12G)

数据集许可证

  • 许可证:
    • Apache-2.0
AI搜集汇总
数据集介绍
main_image_url
构建方式
UTSD数据集精心构建于多种公开可用的在线数据资源和来自真实世界机器操作的实证数据。所有数据集根据其来源被分类为七个不同的领域:能源、环境、健康、物联网(IoT)、自然、交通和网络,具有多样化的采样频率。数据集的构建过程中,对每个数据集进行了平稳性和可预测性的分析,以表征每个数据集固有的复杂性水平。
特点
UTSD数据集的特点在于其统一性和多样性。它涵盖了七个领域,包含多达十亿个时间点,并分为四个层次的容量:UTSD-1G、UTSD-2G、UTSD-4G和UTSD-12G。每个较小的数据集都是较大数据集的子集,较大的子集意味着更高的数据难度和多样性,适合进行详细的扩展实验。
使用方法
用户可以通过访问和加载UTSD数据集,使用提供的代码库中的脚本进行数据下载和加载。由于数据集的构建包含不同长度的序列,用户可以根据自己的需求构建数据组织逻辑。此外,还提供了用于评估时间序列数据集的代码,用户可以使用该脚本评估Huggingface格式的数据集。
背景与挑战
背景概述
UTSD(Unified Time Series Dataset)是由清华大学机器学习组精心构建的综合性时间序列数据集,涵盖了从能源、环境、健康到物联网等多个领域的数据。该数据集于2024年10月发布,旨在推动大规模时间序列模型和预训练技术的发展。UTSD包含多达1亿个时间点,分为四个层次的容量,以适应不同复杂度和多样性的研究需求。其核心研究问题在于如何有效利用大规模时间序列数据进行模型训练和预测,从而提升时间序列分析的准确性和效率。该数据集的发布对时间序列预测和分析领域具有重要影响,为研究人员提供了一个统一且多样化的数据平台,促进了相关技术的创新与应用。
当前挑战
UTSD数据集在构建过程中面临多项挑战。首先,数据来源广泛,涉及多个领域和不同的采样频率,如何确保数据的一致性和质量是一个重要问题。其次,时间序列数据通常具有非平稳性和复杂性,这增加了模型训练的难度。此外,数据集的规模庞大,对存储和计算资源提出了高要求,如何在有限的资源下高效处理和分析数据是一个技术挑战。最后,不同层次的数据集在复杂度和多样性上存在差异,如何设计有效的实验和评估方法以验证模型的泛化能力也是一个关键问题。
常用场景
经典使用场景
UTSD数据集在时间序列预测领域中具有广泛的应用,尤其适用于大规模时间序列模型的预训练和微调。其丰富的数据来源和多样的采样频率使其成为研究时间序列复杂性和预测性能的理想选择。通过分析不同领域的时间序列数据,研究人员可以深入探讨时间序列的平稳性和可预测性,从而优化预测模型。
衍生相关工作
UTSD数据集的发布催生了一系列相关研究工作,特别是在时间序列预测和大规模模型预训练方面。例如,基于UTSD的研究已经提出了多种新型的时间序列预测模型,这些模型在多个基准测试中表现优异。此外,UTSD还激发了关于时间序列数据复杂性和可预测性的深入探讨,推动了时间序列分析领域的理论和方法创新。
数据集最近研究
最新研究方向
在时间序列分析领域,UTSD数据集的最新研究方向主要集中在利用大规模预训练模型进行时间序列预测和分析。随着数据集规模的不断扩大,研究人员正探索如何通过深度学习模型,特别是Transformer架构,来捕捉时间序列中的复杂模式和长期依赖关系。此外,UTSD数据集的多领域特性为跨领域时间序列分析提供了丰富的资源,促进了领域间知识的迁移和融合。这些研究不仅提升了时间序列预测的准确性,还为实际应用如能源管理、健康监测和物联网数据分析提供了强有力的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

REFIT Smart Home dataset

REFIT Smart Home数据集是一个公开可用的智能家居数据集。

github 收录