Alibaba GPU Cluster Dataset 2023
收藏github2024-06-24 更新2024-06-25 收录
下载链接:
https://github.com/alibaba/alibaba-lingjun-dataset-2023
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2023年8月两周内在我们的生产GPU集群中运行的所有DLT作业信息(例如,作业ID、开始时间、结束时间、资源分配等)。该集群包括超过800个主机,通过三层Clos网络互连。数据集详细记录了作业、工人和网络拓扑的信息。
This dataset contains detailed information on all DLT jobs running on our production GPU cluster across the two-week window in August 2023, including job ID, start time, end time, resource allocation, and other related metrics. The cluster comprises over 800 hosts interconnected via a three-tier Clos network. The dataset thoroughly documents information pertaining to jobs, workers, and network topologies.
创建时间:
2024-06-12
原始信息汇总
Alibaba GPU Cluster Dataset 2023
数据集概述
该数据集描述了2023年8月在阿里云生产GPU集群中运行的深度学习训练(DLT)作业的信息,持续时间为两周。该集群包含超过800个主机,通过三层Clos网络互连。
数据集内容
数据集包含以下文件:
-
job.csv: 包含每个作业的信息,如作业名称、ID、类型(例如PyTorch和TensorFlow)、模型(例如ResNet、GPT和LLama)、开始时间、结束时间等。 -
worker.csv: 包含每个作业的每个工作者的信息,如关联的主机IP和资源使用情况(例如GPU和CPU)等。 -
topo.csv: 包含集群网络拓扑的信息。每行对应一个主机,并指定其在三层Clos网络中的位置,即连接到哪个ASW(ToR交换机)、PSW(汇聚交换机)和DSW(核心交换机)。
数据集用途
基于上述信息,可以识别在任何给定时间哪些作业(和模型)在哪些主机的GPU上运行,以及这些GPU之间的互连。通过进一步假设计算和通信工作负载(因为我们不知道运行作业的具体超参数),可以估计集群上计算和通信的整体分布。
搜集汇总
数据集介绍

构建方式
该数据集详细记录了2023年8月在阿里巴巴生产GPU集群中运行的深度学习训练(DLT)作业的信息。数据集涵盖了两周内的作业数据,集群由超过800台主机组成,并通过三层Clos网络互连。为保护敏感信息,如用户ID、集群ID和租户ID等已被匿名化处理。数据集包括三个主要文件:`job.csv`记录了每个作业的详细信息,如作业名称、ID、类型、模型、开始和结束时间等;`worker.csv`提供了每个作业的工作者信息,包括关联的主机IP和资源使用情况;`topo.csv`则描述了集群的网络拓扑结构,每行对应一个主机,并指定了其在三层Clos网络中的位置。
特点
此数据集的显著特点在于其对GPU集群中深度学习训练作业的全面记录,涵盖了作业的类型、模型、时间信息以及资源使用情况。此外,数据集还提供了详细的网络拓扑信息,有助于分析和优化集群中的通信竞争问题。通过匿名化处理,数据集在保护隐私的同时,仍能提供丰富的研究价值。
使用方法
使用该数据集时,研究者可以分析不同作业在GPU集群中的分布情况,评估计算和通信负载的分布,并进一步优化资源分配和通信调度策略。首先,通过`job.csv`和`worker.csv`文件,可以了解每个作业的详细信息及其资源使用情况。其次,结合`topo.csv`文件中的网络拓扑信息,可以分析主机间的通信模式和瓶颈。最后,基于这些信息,研究者可以提出并验证新的调度算法,以提高深度学习训练的效率和性能。
背景与挑战
背景概述
阿里巴巴GPU集群数据集2023(Alibaba GPU Cluster Dataset 2023)是由阿里巴巴云团队于2023年发布的一个专门用于研究深度学习训练(DLT)作业在GPU集群中通信竞争的数据集。该数据集的核心研究问题集中在如何高效调度GPU集群中的通信资源,以优化深度学习训练的性能。主要研究人员包括Jiamin Cao、Yu Guan、Kun Qian等,他们的研究成果将在2024年的ACM SIGCOMM会议上发表。该数据集的发布不仅为学术界提供了一个宝贵的资源,也为工业界在优化GPU集群管理方面提供了重要的参考。
当前挑战
该数据集在构建过程中面临了多个挑战。首先,数据集涵盖了2023年8月两周内在一个包含800多个主机的生产GPU集群中运行的DLT作业信息,这要求对大规模数据进行高效处理和存储。其次,为了保护敏感信息,如用户ID、集群ID和租户ID,数据集进行了匿名化处理,这增加了数据处理的复杂性。此外,数据集还包含了网络拓扑信息,这需要精确的网络建模和分析。最后,由于缺乏具体作业的超参数信息,研究人员需要通过假设计算和通信工作负载来估计集群的整体计算和通信分布,这增加了数据分析的不确定性。
常用场景
经典使用场景
在深度学习训练(DLT)任务中,Alibaba GPU Cluster Dataset 2023 数据集被广泛用于研究GPU集群中的通信竞争问题。通过分析`job.csv`、`worker.csv`和`topo.csv`文件,研究者能够详细了解不同作业在集群中的分布情况,以及这些作业在GPU资源上的使用模式。这种分析有助于优化资源分配策略,提升集群的整体性能。
实际应用
在实际应用中,Alibaba GPU Cluster Dataset 2023 数据集被用于优化大型GPU集群的资源管理策略。通过分析数据集中的作业分布和资源使用情况,企业可以更有效地调度GPU资源,减少通信竞争带来的性能瓶颈,从而提升深度学习训练任务的效率和成功率。这种优化策略在云计算和大数据处理领域具有广泛的应用前景。
衍生相关工作
基于Alibaba GPU Cluster Dataset 2023 数据集,研究者们开展了一系列相关工作,包括但不限于通信调度优化、资源分配策略改进和网络拓扑分析。例如,Jiamin Cao等人在ACM SIGCOMM 2024会议上发表的论文《Crux: GPU-Efficient Communication Scheduling for Deep Learning Training》,就是基于该数据集进行深入研究的重要成果。这些工作不仅丰富了学术研究的内容,也为实际应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



