Salesforce/cloudops_tsf

Name: Salesforce/cloudops_tsf
Creator: Salesforce
Published: 2025-01-21 09:25:54
License: 暂无描述

Hugging Face2025-01-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Salesforce/cloudops_tsf

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集是用于CloudOps领域时间序列预测的预训练数据集，包括azure_vm_traces_2017、borg_cluster_data_2011和alibaba_cluster_trace_2018。每个数据集都包含训练测试集和预训练集，特征包括开始时间、目标值、项目ID、静态分类特征、静态实数特征和过去动态实数特征。数据集的大小从100M到1B不等，适用于时间序列预测任务。

These datasets are pretrained datasets for time series forecasting in the CloudOps domain, including azure_vm_traces_2017, borg_cluster_data_2011, and alibaba_cluster_trace_2018. Each dataset contains training-testing sets and pretraining sets, with features covering start time, target value, project ID, static categorical features, static real-valued features, and past dynamic real-valued features. The sizes of these datasets range from 100M to 1B, and they are applicable to time series forecasting tasks.

提供机构：

Salesforce

原始信息汇总

数据集概述

许可证

CC BY 4.0

任务类别

时间序列预测

数据集名称

cloud

数据集大小

100M<n<1B

数据集详情

azure_vm_traces_2017

特征:
- train_test: [start, target, item_id, feat_static_cat, feat_static_real, past_feat_dynamic_real]
- pretrain: [start, target, item_id, feat_static_cat, feat_static_real, past_feat_dynamic_real]
行数:
- train_test: 17568
- pretrain: 159472

borg_cluster_data_2011

特征:
- train_test: [start, target, item_id, feat_static_cat, past_feat_dynamic_real]
- pretrain: [start, target, item_id, feat_static_cat, past_feat_dynamic_real]
行数:
- train_test: 11117
- pretrain: 143386

alibaba_cluster_trace_2018

特征:
- train_test: [start, target, item_id, feat_static_cat, past_feat_dynamic_real]
- pretrain: [start, target, item_id, feat_static_cat, past_feat_dynamic_real]
行数:
- train_test: 6048
- pretrain: 58409

数据集配置

名称: azure_vm_traces_2017
版本: 1.0.0
预测长度: 48
频率: 5T
步长: 48
单变量: True
多变量: False
可选字段:
- feat_static_cat, feat_static_real, past_feat_dynamic_real
滚动评估: 12
测试分割日期: 2016-12-13 15:55
特征静态类别基数:
- pretrain: (vm_id, 177040), (subscription_id, 5514), (deployment_id, 15208), (vm_category, 3)
- train_test: (vm_id, 17568), (subscription_id, 2713), (deployment_id, 3255), (vm_category, 3)
目标维度: 1
特征静态实数维度: 3
过去特征动态实数维度: 2

搜集汇总

数据集介绍

构建方式

在云计算运维领域，时间序列预测对于资源管理至关重要。该数据集整合了三大云平台的历史监控数据，包括Azure VM Traces 2017、Borg Cluster Data 2011和Alibaba Cluster Trace 2018。构建过程中，原始数据经过清洗和标准化处理，划分为预训练与训练测试两个子集，每个子集均包含起始时间、目标序列、项目标识及静态与动态特征字段。数据以5分钟为频率采样，预测长度设定为48个时间步，通过滚动评估策略确保时间序列的连续性，同时提供了明确的数据分割时间点，以复现论文中的实验设置。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库便捷加载。首先安装指定版本的依赖库，然后调用load_dataset函数并传入数据集名称与相应配置标识，如'azure_vm_traces_2017'。加载后，数据以DatasetDict形式呈现，包含pretrain和train_test两个子集，每个子集具有一致的特征结构。用户可根据提供的test_split_date过滤测试数据，确保与原始研究保持一致。此外，利用load_dataset_builder可获取详细配置信息，如预测长度和特征维度，辅助模型设计与评估。数据集的标准化格式使其能够无缝集成到主流时间序列预测框架中。

背景与挑战

背景概述

在云计算运维领域，时间序列预测对于资源管理与成本优化至关重要。Salesforce于2023年发布的cloudops_tsf数据集，由Gerald Woo等研究人员构建，旨在探索预训练模型在云运维时序预测中的极限。该数据集整合了Azure VM Traces 2017、Borg Cluster Data 2011和Alibaba Cluster Trace 2018三大公开云平台轨迹，聚焦于多变量时序数据的长期预测问题，为云资源动态调度与异常检测提供了标准化基准，推动了人工智能在运维自动化中的应用。

当前挑战

该数据集致力于解决云运维中复杂时间序列预测的挑战，包括处理高维度、非平稳性及多周期模式的数据，以提升资源利用率预测的准确性。在构建过程中，面临原始数据异构性整合、缺失值处理与隐私信息脱敏等难题，同时需确保预测长度与频率设置符合实际运维场景，并平衡预训练与测试数据的分割策略，以支持模型泛化能力评估。

常用场景

经典使用场景

在云计算运维领域，时间序列预测是资源管理与性能优化的核心任务。Salesforce/cloudops_tsf数据集通过整合Azure、Borg和Alibaba等大规模云平台的真实监控轨迹，为研究者提供了一个标准化的基准环境。该数据集最经典的使用场景在于支持时间序列预训练模型的开发与评估，特别是针对多变量、长周期预测任务，能够有效模拟云环境中虚拟机资源利用率、集群负载等动态指标的波动规律，为算法验证提供了高度逼真的数据基础。

解决学术问题

该数据集主要解决了云计算运维中时间序列预测的若干关键学术问题。传统方法往往受限于数据规模不足或领域特异性弱，难以捕捉复杂云环境中的长期依赖与突变模式。通过提供大规模、多源、细粒度的真实运维数据，该数据集助力研究者探索预训练技术在时间序列领域的迁移能力，推动了对序列表征学习、跨域泛化以及少样本预测等前沿课题的深入探讨，显著提升了预测模型的鲁棒性与可扩展性。

实际应用

在实际应用层面，该数据集为云服务提供商和大型企业的运维团队提供了宝贵的参考资源。基于数据集训练的预测模型能够应用于云资源自动扩缩容、异常检测、容量规划以及能耗管理等场景。例如，通过精准预测虚拟机负载趋势，系统可以动态调整计算资源分配，避免过度配置或性能瓶颈，从而降低运营成本并提升服务可靠性。这些应用直接支撑了智能化运维体系的构建，促进了云计算基础设施的高效与稳定运行。

数据集最近研究