Spark job executions on Google Cloud

Name: Spark job executions on Google Cloud
Creator: 柏林工业大学，德国；格拉斯哥大学，英国
Published: 2025-02-28 21:40:44
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

https://github.com/dos-group/flora

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由柏林工业大学和格拉斯哥大学的研究人员创建，包含在Google Cloud Platform上执行的180个不同类型的Spark作业。这些作业涵盖了文本、向量和表格数据类型，并在10种不同的云配置上运行，以探究不同资源分配对作业执行时间的影响。数据集旨在为分布式数据流作业的成本优化云资源配置提供实证基础。

This dataset was created by researchers from the Technical University of Berlin and the University of Glasgow. It contains 180 Spark jobs of various types executed on the Google Cloud Platform. These jobs cover text, vector, and tabular data types, and were run across 10 distinct cloud configurations to investigate the impact of different resource allocations on job execution time. This dataset aims to provide an empirical foundation for cost-optimized cloud resource configuration of distributed stream processing jobs.

提供机构：

柏林工业大学，德国；格拉斯哥大学，英国

创建时间：

2025-02-28

原始信息汇总

Flora 数据集概述

数据集名称

Flora

数据集描述

用于评估CCGrid 25会议提交的论文《Flora: Efficient Cloud Resource Selection for Big Data Processing via Job Classification》中的资源选择算法。

使用说明

需要安装Python依赖项：使用pip install --user -r requirements.txt。
运行评估实验：执行python resource_allocation_evaluation.py。

搜集汇总

数据集介绍

构建方式

该数据集由在Google Cloud上执行的180个Spark作业的执行数据组成，用于评估Flora方法的成本优化效果。数据集中包含了不同类型的数据处理算法和不同大小的输入数据集，以探索不同配置下的运行时间和成本。每个作业都在10个不同的Google Cloud配置上执行，以收集运行时间数据，并用于基础设施分析。数据集的构建通过在多种配置上执行测试作业并记录其运行时间来完成，这些数据用于帮助用户根据作业的数据访问模式对作业进行分类，并根据当前资源成本对云配置选项进行排名。

特点

Spark job executions on Google Cloud数据集具有以下特点：多样性，包括不同的数据处理算法和不同大小的输入数据集；规模性，包含180个Spark作业的执行数据；实用性，用于评估Flora方法的成本优化效果。数据集的构建方式确保了数据的准确性和可靠性，同时为研究分布式数据流系统中的资源分配和成本优化提供了有价值的资源。

使用方法

Spark job executions on Google Cloud数据集可用于评估和改进资源分配和成本优化方法。研究人员可以使用这些数据来验证和比较不同资源分配策略的效果，并研究如何根据作业的数据访问模式来选择合适的云配置。此外，数据集还可以用于开发新的资源分配和成本优化算法，以帮助用户在云环境中更有效地处理大数据。

背景与挑战

背景概述

在大数据处理领域，分布式数据流系统如Spark和Flink使得在云资源集群上对大型数据集进行并行处理成为可能。然而，为数据流作业选择合适的计算资源往往具有挑战性。为了高效执行，单个资源分配，如内存和CPU核心，必须满足作业的特定资源需求。与此同时，云配置的选择通常很多，尤其是在公共云中，并且可用资源选项的当前成本可能会波动。针对这一挑战，本文提出了一种名为Flora的低开销方法，用于优化大数据处理的云集群配置成本。Flora允许用户根据其数据访问模式对作业进行分类，并从相同类别中测试作业的执行中导出合适的集群资源配置，同时考虑当前资源成本。在Google Cloud上对包含180个Spark作业执行的新数据集进行的评估中，Flora的集群资源选择表现出低于最优化解决方案平均6%的偏差，最大偏差低于24%。

当前挑战

Flora方法面临的主要挑战包括：1) 作业分类的准确性；2) 云配置选项的动态成本结构；3) 作业的非重复性。Flora依赖于用户对作业进行分类，这需要用户对数据访问模式有准确的理解。此外，云资源成本的波动性要求Flora能够适应不断变化的价格。最后，由于Flora不假设作业的重复性，因此它必须能够从历史作业中提取有用的信息，即使这些作业与当前作业不完全相同。

常用场景

经典使用场景

在大数据处理的分布式数据流系统中，如Spark和Flink，选择适当的计算资源对于数据流任务来说是一项挑战。Flora是一个低开销的方法，旨在优化云集群配置，以实现大数据处理。它允许用户根据其数据访问模式对作业进行分类，并从相同类别测试作业的执行中推导出适合的集群资源配置，同时考虑当前资源成本。Flora的数据集包含了180个Spark作业在Google Cloud上的执行，这些数据被用于评估Flora的集群资源选择的有效性。

衍生相关工作

Flora的提出，推动了大数据处理中资源优化方法的研究。例如，Juggler和Crispy等研究工作，通过分析作业的特征，来优化云资源配置。此外，Flora还启发了其他研究工作，如RUPAM和Perona，它们使用基础设施分析来学习可用的配置选项，并在配置选择过程中应用这些知识。

数据集最近研究