Google cluster usage trace datasets

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/nishantk2106/GoogleSvrLog_dataset_python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于模拟云数据中心的资源利用情况，通过分析真实世界的服务器日志来帮助研究人员和系统管理员理解资源管理方案在特定云计算环境中的行为。

This dataset is designed to simulate resource utilization in cloud data centers. By analyzing real-world server logs, it assists researchers and system administrators in understanding the behavior of resource management schemes within specific cloud computing environments.

创建时间：

2020-05-29

原始信息汇总

数据集概述

数据集名称

GoogleSvrLog_dataset_python

数据集目的

提供数据驱动的任务放置回放模拟，用于云数据中心的资源利用分析。

数据集内容

使用Google集群使用跟踪数据集中的真实世界服务器日志进行回放模拟。

数据集应用

帮助研究人员和系统管理员理解云计算环境中资源管理方案的行为。

作者

Nishant Kumar

依赖项

环境依赖：
- defaults
- conda-forge
软件依赖：
- _libgcc_mutex=0.1=main
- ca-certificates=2020.6.24=0
- certifi=2018.8.24=py35_1
- libedit=3.1.20191231=h7b6447c_0
- libffi=3.2.1=hd88cf55_4
- libgcc-ng=9.1.0=hdf63c60_0
- libstdcxx-ng=9.1.0=hdf63c60_0
- ncurses=6.2=he6710b0_1
- nodejs=10.13.0=he6710b0_0
- openssl=1.0.2u=h7b6447c_0
- pip=10.0.1=py35_0
- python=3.5.6=hc3d631a_0
- readline=7.0=h7b6447c_5
- setuptools=40.2.0=py35_0
- sqlite=3.32.3=h62c20be_0
- tk=8.6.10=hbc83047_0
- wheel=0.31.1=py35_0
- xz=5.2.5=h7b6447c_0
- yarn=1.22.4=0
- zlib=1.2.11=h7b6447c_3
Python包依赖：
- backcall==0.2.0
- decorator==4.4.2
- ipykernel==5.3.1
- ipython==7.9.0
- ipython-genutils==0.2.0
- jedi==0.17.1
- jupyter-client==6.1.5
- jupyter-core==4.6.3
- numpy==1.18.5
- pandas==0.25.3
- parso==0.7.0
- pexpect==4.8.0
- pickleshare==0.7.5
- prompt-toolkit==2.0.10
- ptyprocess==0.6.0
- py4j==0.10.7
- pygments==2.6.1
- pyspark==2.4.5
- python-dateutil==2.8.1
- pytz==2020.1
- pyzmq==19.0.1
- six==1.15.0
- tornado==6.0.4
- traitlets==4.3.3
- wcwidth==0.2.5

运行代码步骤

在ICHEC服务器上创建环境。
安装上述依赖项。
安装Python 3.5和Spark 2.3.3。
安装Spark的前置条件：Scala和Java。
解压Spark的tgz文件。
创建虚拟环境并安装pyspark 2.4.5。
将.ipynb文件导入JupyterHub并运行。

搜集汇总

数据集介绍

构建方式

Google集群使用跟踪数据集（Google cluster usage trace datasets）的构建基于真实世界的服务器日志，旨在为云计算环境中的资源管理方案提供深入理解。该数据集通过记录大规模生产云集群的实际工作负载，捕捉了任务调度算法的动态性和异构性。研究人员利用这些数据，能够重放历史任务放置操作，并在任意时刻提供云数据中心的全局状态视图。这种数据驱动的任务放置重放模拟，依赖于大数据技术的支持，为云计算资源利用率的分析提供了坚实的基础。

使用方法

使用Google集群使用跟踪数据集时，首先需要在ICHEC服务器上创建环境，并安装所需的依赖项。安装Python 3.5和Spark 2.3.3后，通过pip命令在环境中安装pyspark 2.4.5。安装完成后，将.ipynb文件导入jupyterhub并运行即可。该数据集的使用方法依赖于Spark应用程序的运行环境，确保研究人员能够高效地分析和重放云数据中心的资源管理行为。

背景与挑战

背景概述

Google集群使用跟踪数据集（Google cluster usage trace datasets）是由Google公司提供的一个大规模云计算集群资源使用日志数据集。该数据集由Nishant Kumar等研究人员在2010年代初期创建，旨在通过真实的生产环境数据，帮助研究人员和系统管理员深入理解云计算环境中资源管理方案的行为。该数据集的核心研究问题在于如何通过历史任务调度数据的重放模拟，提供对云计算数据中心资源利用率的全局视角，从而优化任务调度算法，提升资源利用效率。这一数据集对云计算领域的研究具有深远影响，尤其是在任务调度、资源管理和数据中心优化等方面。

当前挑战

Google集群使用跟踪数据集在解决云计算资源利用率问题时面临多重挑战。首先，云计算环境的动态性和异构性使得任务调度算法的实际表现往往与理论分析结果存在显著差异，这要求数据集能够准确反映真实环境中的复杂性和不确定性。其次，构建该数据集的过程中，研究人员需要处理海量的服务器日志数据，这些数据具有高维度、高噪声和高度动态变化的特性，对数据清洗、存储和分析提出了极高的技术要求。此外，如何通过重放模拟技术实现对历史任务调度的精确还原，并从中提取有价值的洞察，也是该数据集构建和应用中的一大挑战。

常用场景

经典使用场景

Google集群使用跟踪数据集在云计算资源管理领域具有重要应用。该数据集通过记录大规模生产云集群中的任务调度和资源利用情况，为研究人员提供了一个真实的实验平台。经典的使用场景包括任务调度算法的性能评估、资源利用率的优化分析以及数据中心能耗管理的研究。通过模拟历史任务调度操作，研究人员能够深入理解不同调度策略在实际环境中的表现，从而为算法改进提供数据支持。

解决学术问题

该数据集解决了云计算环境中任务调度算法的实际性能与理论分析之间的差距问题。由于云数据中心的动态性和异构性，传统的分析方法往往难以准确预测算法的实际表现。通过提供真实的任务调度日志，该数据集使研究人员能够进行任务调度的重放模拟，从而更准确地评估算法的性能。这不仅为资源管理策略的优化提供了数据基础，还推动了云计算领域的研究从理论分析向数据驱动的转变。

实际应用

在实际应用中，Google集群使用跟踪数据集被广泛用于云服务提供商的资源管理优化。通过分析数据集中的任务调度和资源利用模式，云服务提供商能够优化任务调度算法，提高资源利用率并降低运营成本。此外，该数据集还被用于数据中心能耗管理的研究，帮助数据中心设计更高效的冷却系统和能源分配策略，从而减少碳排放并提升可持续性。

数据集最近研究