Huawei Public Cloud and Huawei Private Cloud datasets

github2023-12-19 更新2024-05-31 收录

下载链接：

https://github.com/sir-lab/data-release

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含华为公有云和华为私有云的数据，用于分析长期生产服务器无服务工作负载的趋势。数据集提供了200个函数在141天内的详细性能指标，包括请求数、函数延迟、平台延迟、CPU使用率、内存使用率等。

This dataset encompasses data from Huawei's public cloud and private cloud, aimed at analyzing trends in idle workloads on long-term production servers. It provides detailed performance metrics for 200 functions over a span of 141 days, including the number of requests, function latency, platform latency, CPU usage, and memory usage.

创建时间：

2023-08-30

原始信息汇总

数据集概述

华为私有云数据集

收集时间：141天（总收集时间为235天）
功能数量：200个功能
数据类型：
- 请求：每分钟和每秒的请求数
- 功能延迟：每分钟和每秒的功能执行时间
- 平台延迟：每分钟和每秒的平台延迟
- CPU使用率：每分钟的CPU使用百分比
- 内存使用率：每分钟的内存使用百分比
- CPU限制：每分钟的CPU分配
- 内存限制：每分钟的内存分配（MB）
- 实例数：每分钟的实例数

华为公有云数据集

收集时间：26天
功能数量：5093个功能
数据类型：
- 请求：每分钟的请求数

数据下载链接

华为私有云数据集

请求：
- 每分钟：链接
- 每秒：链接
功能延迟：
- 每分钟：链接
- 每秒：链接
平台延迟：
- 每分钟：链接
- 每秒：链接
CPU使用率：链接
内存使用率：链接
CPU限制：链接
内存限制：链接
实例数：链接

华为公有云数据集

请求：链接

数据集文件结构

华为私有云数据集

每个指标的数据按天分割成多个CSV文件，覆盖235天。

华为公有云数据集

请求数据按天分割成多个CSV文件，覆盖26天。

搜集汇总

数据集介绍

构建方式

Huawei Public Cloud和Huawei Private Cloud数据集的构建基于华为云的无服务器计算平台，涵盖了公共云和私有云环境下的服务器工作负载数据。数据采集过程涉及多个区域和长时间跨度的监控，具体包括2025年的31天时间序列数据以及2023年的235天时间序列数据。数据采集的粒度从每分钟到每秒不等，确保了数据的多样性和全面性。这些数据经过严格的清洗和预处理，以支持后续的学术研究和分析。

特点

该数据集的特点在于其丰富的时间序列数据，涵盖了多个关键性能指标，如冷启动时间、请求响应时间等。2025年的数据集包含19个指标，覆盖了5个区域的31天数据，而2023年的数据集则包含8个指标，时间跨度为235天。此外，数据集还提供了详细的请求和冷启动事件表，便于深入分析无服务器计算平台的性能特征。数据的多样性和高粒度使其成为研究无服务器计算平台长期趋势和冷启动问题的理想选择。

使用方法

该数据集的使用方法较为灵活，用户可以通过提供的Jupyter Notebook快速上手。数据以压缩文件形式提供，用户可以使用7zip工具选择性提取所需文件。数据集附带的演示代码（如`demo_cold_start.ipynb`和`demo_private.ipynb`）提供了数据加载和可视化的示例，帮助用户快速理解数据结构和分析方法。此外，数据集还支持多种编程语言和工具，用户可以根据需求进行自定义分析和建模。

背景与挑战

背景概述

Huawei Public Cloud and Huawei Private Cloud datasets是由华为云发布的公开数据集，旨在支持无服务器计算领域的深入研究。该数据集首次发布于2023年，并在2025年进一步扩展，涵盖了华为云公共和私有无服务器平台的多维度性能数据。数据集的核心研究问题聚焦于无服务器计算中的冷启动现象及其长期工作负载趋势，相关研究成果已在EuroSys 2025和ACM SoCC 2023等顶级会议上发表。这些数据为学术界和工业界提供了宝贵的资源，推动了无服务器计算性能优化和资源管理策略的发展。

当前挑战

该数据集在解决无服务器计算冷启动和工作负载分析问题时面临多重挑战。首先，冷启动现象的复杂性和动态性使得数据采集和建模难度显著增加，尤其是在多区域、多时间粒度的情况下。其次，长期工作负载数据的采集需要克服数据存储和处理的规模挑战，尤其是在分钟级和秒级时间粒度下。此外，数据集的构建过程中还需解决隐私保护和数据脱敏问题，以确保敏感信息的安全。这些挑战不仅对数据采集和存储技术提出了高要求，也为后续的数据分析和模型构建带来了复杂性。

常用场景

经典使用场景

Huawei Public Cloud和Huawei Private Cloud数据集在无服务器计算领域的研究中具有重要地位。该数据集常用于分析无服务器平台中的冷启动现象，尤其是在多区域、长时间跨度的场景下，研究者可以通过这些数据深入探讨冷启动的频率、持续时间及其对系统性能的影响。此外，数据集还被广泛用于研究无服务器工作负载的长期趋势，帮助理解生产环境中无服务器函数的调用模式和资源利用率。

实际应用

在实际应用中，Huawei Public Cloud和Huawei Private Cloud数据集为云服务提供商和开发者提供了宝贵的参考。通过分析这些数据，云服务提供商可以优化无服务器平台的资源调度策略，减少冷启动对用户体验的影响。开发者则可以利用这些数据设计更高效的无服务器应用，提升应用的响应速度和资源利用率。此外，数据集还为无服务器计算的性能监控和故障诊断提供了数据支持。

衍生相关工作

基于该数据集，学术界和工业界衍生了一系列经典研究工作。例如，EuroSys 2025论文《Serverless Cold Starts and Where to Find Them》深入探讨了冷启动现象的分布规律及其优化方法。ACM SoCC 2023论文《How Does It Function? Characterizing Long-term Trends in Production Serverless Workloads》则通过分析长期工作负载数据，揭示了无服务器函数在生产环境中的调用模式和资源利用趋势。这些研究为无服务器计算领域的进一步发展奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集