AzurePublicDataset|云平台数据集|资源管理数据集

github2024-05-23 更新2024-05-31 收录

云平台

资源管理

下载链接：

https://github.com/Azure/AzurePublicDataset

下载链接

链接失效反馈

资源简介：

该仓库包含Microsoft Azure的公共数据集，旨在为研究和学术社区提供帮助。数据集包括虚拟机工作负载的跟踪，Azure Functions调用的跟踪，以及LLM推理调用的跟踪。这些数据集用于研究和优化大型云平台的资源管理。

This repository contains public datasets from Microsoft Azure, designed to assist the research and academic communities. The datasets include traces of virtual machine workloads, traces of Azure Functions invocations, and traces of LLM (Large Language Model) inference calls. These datasets are utilized for research and optimization of resource management in large-scale cloud platforms.

创建时间：

2017-08-19

原始信息汇总

数据集概述

本数据集包含Microsoft Azure的公开发布跟踪数据，旨在支持研究与学术社区。数据集分为以下几类：

VM Traces
- 2017年与2019年收集的虚拟机（VM）工作负载代表性跟踪数据。
- 专门用于研究打包算法的VM请求跟踪数据。
Azure Functions Traces
- 2019年两周内收集的Azure Functions调用跟踪数据。
- 2020年11月至12月收集的Azure Functions blob访问跟踪数据。
Azure LLM Inference Traces
- 2023年11月收集的LLM推理调用跟踪数据，包含输入和输出令牌。

VM Traces详细信息

AzurePublicDatasetV1
- 基于2017年Azure VM工作负载的数据，包含约200万VM和12亿利用率读数。
- 链接：AzurePublicDatasetV1
AzurePublicDatasetV2
- 基于2019年Azure VM工作负载的数据，包含约260万VM和19亿利用率读数。
- 链接：AzurePublicDatasetV2

Azure Traces for Packing

AzureTracesForPacking2020
- 用于评估打包算法的Azure计算工作负载数据集。
- 包含VM请求及其优先级、每个请求VM的寿命及分配给每种VM类型的资源（已归一化）。
- 链接：AzureTracesForPacking2020

Azure Functions Traces

Function Invocations
- AzureFunctionsDataset2019
  - 2019年7月Azure Functions上运行的应用程序子集的跟踪数据。
  - 包含每分钟每个匿名函数的调用次数、触发器组、函数和应用程序的分组信息、执行时间和内存使用分布。
  - 链接：AzureFunctionsDataset2019
- AzureFunctionsInvocationTrace2021
  - 2021年1月31日起两周的函数调用跟踪数据。
  - 包含调用到达和离开时间、应用程序ID（加密）、函数ID（加密）、调用结束时间戳和持续时间。
  - 链接：AzureFunctionsInvocationTrace2021
Functions Blob Accesses
- AzureFunctionsBlobDataset2020
  - 2020年11月23日至12月6日收集的Azure Functions blob访问样本。
  - 链接：AzureFunctionsBlobDataset2020

Azure LLM Inference Traces

AzureLLMInferenceDataset2023
- 包含两个Azure中LLM推理服务的样本，包括输入和输出令牌。
- 链接：AzureLLMInferenceDataset2023

AI搜集汇总

数据集介绍

构建方式

AzurePublicDataset数据集的构建基于微软Azure云平台的实际工作负载，通过采集和分析虚拟机（VM）、Azure Functions以及大规模语言模型（LLM）推理服务的运行数据，形成了一系列具有代表性的数据子集。这些数据子集经过匿名化和标准化处理，确保了数据的真实性和可用性。具体而言，VM Traces包括2017年和2019年的虚拟机工作负载数据，Azure Functions Traces涵盖了2019年和2020年的函数调用及Blob访问记录，而Azure LLM Inference Traces则提供了2023年LLM推理服务的输入输出令牌数据。

特点

AzurePublicDataset数据集的显著特点在于其高度的代表性和多样性。首先，数据集涵盖了不同时间段的Azure云平台工作负载，反映了云计算环境的变化趋势。其次，数据集包括多种类型的服务记录，如虚拟机、函数调用和LLM推理，为研究者提供了丰富的分析维度。此外，数据集的匿名化和标准化处理确保了数据的安全性和易用性，使其适用于广泛的学术和研究用途。

使用方法

使用AzurePublicDataset数据集时，研究者可以通过GitHub页面下载相应的数据子集，并参考提供的Jupyter Notebook进行数据分析。数据集的README文件中详细描述了每个子集的结构和内容，以及相关的引用文献，确保研究者能够正确理解和使用数据。此外，数据集维护团队提供了邮件支持，研究者可以通过邮件列表提出问题或反馈，获得进一步的帮助和指导。

背景与挑战

背景概述

AzurePublicDataset是由微软Azure与微软研究院合作创建的公开数据集，旨在为研究与学术界提供微软Azure云平台的实际工作负载数据。该数据集的核心研究问题集中在资源管理、虚拟机分配、无服务器计算以及大规模语言模型推理等关键领域。自2017年以来，该数据集已多次更新，涵盖了2017年、2019年、2020年及2023年的数据，主要研究人员包括微软Azure团队及微软研究院的专家。这些数据对于理解云平台的工作负载特性、优化资源分配算法以及提升无服务器计算性能具有重要意义，已在多个顶级学术会议上发表，如SOSP、ATC、OSDI和ISCA。

当前挑战

AzurePublicDataset在构建过程中面临多项挑战。首先，数据集需要处理海量的虚拟机和函数调用数据，确保数据的准确性和一致性。其次，随着云平台工作负载的动态变化，如何捕捉并反映这些变化，以提供有代表性的数据样本，是一个持续的挑战。此外，数据集的匿名化和隐私保护也是关键问题，确保用户数据的安全性和合规性。最后，随着无服务器计算和大规模语言模型推理的快速发展，数据集需要不断更新以适应新的技术趋势和研究需求，这要求数据集的维护和扩展具有高度的灵活性和前瞻性。

常用场景

经典使用场景

AzurePublicDataset 数据集的经典使用场景主要集中在云计算和资源管理领域。通过分析虚拟机（VM）的工作负载和Azure Functions的调用情况，研究人员可以深入理解云平台的资源分配和优化策略。例如，2017年和2019年的VM Traces数据集被广泛用于预测和优化大规模云平台中的资源管理，而Azure Functions Traces则有助于分析和优化无服务器计算环境中的工作负载。

衍生相关工作

AzurePublicDataset 数据集催生了多项经典研究工作。例如，2017年的VM Traces数据集被用于“Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms”研究，该研究发表于SOSP'17。2019年的Azure Functions Traces数据集则被用于“Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider”研究，发表于ATC'19。此外，最新的Azure LLM Inference Traces数据集为“Splitwise: Efficient generative LLM inference using phase splitting”研究提供了数据支持，该研究预计发表于ISCA'24。

数据集最近研究