Azure VM Trace

github2018-01-06 更新2024-05-31 收录

下载链接：

https://github.com/mascor1331/AzurePublicDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含微软Azure在一个地理区域内的代表性第一方虚拟机工作负载子集。数据集大小为117GB，压缩后为78.5GB，包含128个文件，记录了30天的连续数据，涉及2,013,767个虚拟机和5,958个Azure订阅。数据包括每5分钟的VM CPU利用率读数、VM信息表和订阅表（主要字段加密）。

This dataset comprises a representative subset of first-party virtual machine workloads within a specific geographic region on Microsoft Azure. The dataset, with a size of 117GB (compressed to 78.5GB), includes 128 files documenting 30 consecutive days of data, involving 2,013,767 virtual machines and 5,958 Azure subscriptions. It contains VM CPU utilization readings at 5-minute intervals, along with VM information tables and subscription tables (with primary fields encrypted).

创建时间：

2018-01-06

原始信息汇总

数据集概述

数据集描述

本数据集包含Microsoft Azure在某一地理区域内的一方虚拟机工作负载（VM）的代表性子集。该数据集是Azure VM工作负载的净化子集，详细描述见SOSP’17论文"Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms"。此外，本仓库包含一个jupyter notebook，用于比较两个数据集的主要特征，显示它们在质量上非常相似。

VM Trace详情

主要特征

数据集大小：117GB
压缩后数据集大小：78.5GB
文件数量：128个文件
持续时间：30天连续数据
总VM数量：2,013,767
总Azure订阅数量：5,958
时间序列数据：每5分钟VM CPU利用率读数，VM信息表和订阅表（主要字段加密）
总VM小时数：104,371,713
总VM CPU利用率读数：1,246,539,221
总虚拟核心小时数：237,815,104

数据集架构

加密的订阅ID
加密的部署ID
首次创建VM的时间戳（秒）
创建的VM数量
部署大小（与Azure在论文中的定义不同）
加密的VM ID
VM创建时间戳
VM删除时间戳
最大CPU利用率
平均CPU利用率
最大CPU利用率的P95值
VM类别
VM虚拟核心计数
VM内存（GB）
每5分钟的时间戳
5分钟内的最小CPU利用率
5分钟内的最大CPU利用率
5分钟内的平均CPU利用率

下载说明

点击此处下载数据集。

联系方式

如有任何问题或疑问，请通过邮件列表联系我们。

搜集汇总

数据集介绍

构建方式

Azure VM Trace数据集的构建是基于Microsoft Azure在某一地理区域内第一方虚拟机工作负载的代表性子集。该数据集是从SOSP’17论文中描述的Azure VM工作负载中提取并经过脱敏处理的子集，旨在为研究人员提供一种可用于理解和预测大型云平台工作负载的资源管理工具。

特点

该数据集的主要特点包括：数据规模达117GB，压缩后为78.5GB，包含128个文件，覆盖了连续30天的时序数据，涉及2,013,767个虚拟机实例和5,958个Azure订阅信息。数据以5分钟为时间粒度，记录了虚拟机的CPU利用率，同时提供了虚拟机信息表和订阅信息表（主要字段加密）。

使用方法

使用该数据集时，用户可以通过提供的Jupyter Notebook进行数据分析和特性比较。数据集以原始形式提供，但Microsoft愿意提供帮助以协助研究人员理解和使用这些数据。在使用该数据集进行研究时，需确保引用相关SOSP’17论文。数据集可通过提供的链接下载。

背景与挑战

背景概述

Azure VM Trace数据集源于微软Azure云平台，该数据集是微软在SOSP’17会议上发表的研究工作中的一部分。该数据集涵盖了Azure在某一地理区域的第一方虚拟机工作负载的代表性子集，其目的是为了理解和预测大型云平台中的工作负载，以优化资源管理。数据集包含了30天连续的虚拟机CPU利用率读数、虚拟机信息表以及订阅信息表，为研究云计算资源管理、工作负载分析和预测等领域提供了宝贵的实证资料。

当前挑战

该数据集的构建和使用面临着多方面的挑战：首先，数据集的隐私保护是一个重大挑战，所有的订阅ID、部署ID和虚拟机ID都经过了加密处理。其次，数据集规模巨大，总大小达到117GB，如何高效地存储、处理和分析这些数据是另一个挑战。此外，对于不同的研究领域，如资源管理、工作负载预测等，如何从数据集中提取有效的特征和模式，也是当前研究需要解决的问题。

常用场景

经典使用场景

Azure VM Trace数据集作为云计算领域的重要资源，其经典使用场景主要集中于对大规模云计算平台工作负载的理解与预测。该数据集通过提供一组代表性的虚拟机使用记录，使得研究者能够深入分析虚拟机资源的使用模式，从而为资源管理提供决策支持。

实际应用

在实际应用中，Azure VM Trace数据集的价值体现在对云计算服务提供商的资源调度和容量规划提供实证数据。通过分析该数据集，服务提供商可以更好地理解客户的工作负载模式，从而实现资源的合理分配与优化，降低运营成本，提高服务质量。

衍生相关工作

基于Azure VM Trace数据集，学术界和产业界衍生出了一系列相关工作，包括但不限于构建资源预测模型、工作负载特征分析、资源优化分配算法等。这些工作不仅推动了云计算资源管理领域的研究进展，也为实际应用中的资源调度与优化提供了理论依据和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集