AzurePublicDataset

github2020-07-23 更新2024-05-31 收录

下载链接：

https://github.com/ik2sb/AzurePublicDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含微软Azure的公开工作负载跟踪，包括2017年和2019年的虚拟机工作负载跟踪以及2019年两周的Azure Functions调用跟踪。这些跟踪数据用于帮助研究和学术社区进行相关研究。

This dataset comprises publicly available workload traces from Microsoft Azure, including virtual machine workload traces from 2017 and 2019, as well as a two-week trace of Azure Functions invocations from 2019. These traces are utilized to aid the research and academic communities in conducting relevant studies.

创建时间：

2020-07-23

原始信息汇总

数据集概述

本数据集包含Microsoft Azure的公开发布跟踪数据，旨在为研究和学术社区提供支持。数据集主要分为两类：

虚拟机（VM）工作负载跟踪：
- 包含2017年和2019年两个代表性跟踪数据，分别涵盖约200万和260万个虚拟机，以及12亿和19亿次利用率读数。
- 提供了与完整VM工作负载的直接比较，展示了两年的工作负载变化。
Azure Functions调用跟踪：
- 包含2019年7月两周内的跟踪数据，涉及Azure Functions上运行的应用程序子集。
- 数据包括每分钟匿名函数的调用次数、触发器组、函数和应用程序的匿名分组、执行时间和内存使用的分布。

引用要求

使用VM工作负载跟踪时，请引用SOSP’17论文 "Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms"。
使用Azure Functions跟踪时，请引用ATC20论文 "Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider"。

联系方式

如有任何问题或疑问，请通过电子邮件联系我们的邮件列表。

搜集汇总

数据集介绍

构建方式

AzurePublicDataset的构建基于微软Azure平台的实际工作负载数据，涵盖了虚拟机（VM）和Azure Functions两类代表性数据。VM工作负载数据分别采集于2017年和2019年，覆盖了数百万台虚拟机和数十亿条资源利用率记录。Azure Functions数据则采集于2019年7月，记录了函数调用频率、执行时间分布、内存使用情况等关键指标。所有数据均经过脱敏处理，以确保用户隐私安全，并通过Jupyter Notebook提供了与完整工作负载的对比分析，验证了数据的代表性。

特点

该数据集的特点在于其真实性和广泛性。VM工作负载数据展示了Azure平台在两年间的演变，反映了云计算工作负载的动态变化。Azure Functions数据则提供了无服务器计算场景下的详细调用模式和执行特性，为研究无服务器架构的性能优化和资源管理提供了宝贵资源。数据集还附带了详细的对比分析工具，帮助研究者直观理解数据的代表性及其与完整工作负载的差异。

使用方法

研究者可通过GitHub获取数据集，并使用提供的Jupyter Notebook进行初步分析。VM工作负载数据可用于研究云计算资源管理、工作负载预测等方向，而Azure Functions数据则适用于无服务器计算性能优化、函数调用模式分析等领域。使用该数据集时，需引用相关研究论文，如SOSP’17论文《Resource Central》和ATC’20论文《Serverless in the Wild》，以确保学术规范性。如有疑问，可通过邮件联系数据集维护团队获取支持。

背景与挑战

背景概述

AzurePublicDataset是由微软Azure与微软研究院合作创建的一个公开数据集，旨在为研究和学术界提供云计算平台的工作负载数据。该数据集首次发布于2017年，包含了两类主要的数据追踪：一类是2017年和2019年收集的虚拟机（VM）工作负载追踪，另一类是2019年收集的Azure Functions调用追踪。这些数据追踪为研究人员提供了深入了解云计算平台资源管理和工作负载特征的机会，尤其是在大规模云平台中的资源分配和优化方面。该数据集的核心研究问题集中在如何通过分析工作负载数据来改进云平台的资源管理效率，相关研究已在SOSP’17和ATC’20等顶级会议上发表，对云计算领域的研究产生了深远影响。

当前挑战

AzurePublicDataset在解决云计算资源管理问题时面临多重挑战。首先，虚拟机工作负载的多样性和动态性使得数据收集和分析变得复杂，尤其是在大规模分布式环境中，如何确保数据的代表性和准确性是一个关键问题。其次，Azure Functions的调用模式具有高度不确定性，如何捕捉和量化这些无服务器计算的工作负载特征，尤其是在短时间内的高并发场景下，是另一个重要挑战。在数据构建过程中，数据的匿名化和去敏感化处理也带来了技术难题，如何在保护用户隐私的同时保持数据的可用性和研究价值，是数据集构建过程中必须克服的障碍。此外，随着云计算技术的快速发展，如何确保数据集能够反映最新的工作负载趋势，也是未来需要持续关注的问题。

常用场景

经典使用场景

AzurePublicDataset数据集广泛应用于云计算领域的研究，特别是在虚拟机和服务器无服务架构的工作负载分析中。研究者利用该数据集中的虚拟机（VM）工作负载跟踪和Azure Functions调用跟踪，深入探讨云计算平台中的资源管理、性能优化和成本效益分析。这些数据为理解大规模云平台中的工作负载动态提供了宝贵的实证基础。

解决学术问题

AzurePublicDataset数据集解决了云计算研究中关于工作负载特征分析和资源管理优化的关键问题。通过提供2017年和2019年的虚拟机工作负载跟踪，以及2019年的Azure Functions调用跟踪，研究者能够分析工作负载的演变趋势、资源利用率的变化以及无服务器架构的性能特征。这些数据为改进云平台的资源分配策略和预测模型提供了重要的参考依据。

衍生相关工作

AzurePublicDataset数据集衍生了一系列经典研究工作，特别是在云计算资源管理和无服务器架构优化领域。例如，基于该数据集的SOSP’17论文《Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms》深入分析了2017年Azure虚拟机工作负载的特征。此外，ATC’20论文《Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider》则利用2019年的Azure Functions跟踪数据，揭示了无服务器架构在实际应用中的性能特征和优化潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集