Qinghao/AcmeTrace

Name: Qinghao/AcmeTrace
Creator: Qinghao
Published: 2024-03-12 19:03:08
License: 暂无描述

Hugging Face2024-03-12 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/Qinghao/AcmeTrace

下载链接

链接失效反馈

官方服务：

资源简介：

Acme Trace数据集由上海AI实验室发布，涵盖了2023年3月至2023年8月的工作负载。数据集主要用于学术研究，包含两个独立的GPU集群的工作负载信息。数据集的主要特征包括：总大小为80GB（在HuggingFace上），持续时间为6个月，包含880,740个作业，其中470,497个是GPU作业。数据集结构包括作业跟踪文件和资源利用率文件，作业跟踪文件提供了每个集群中提交到调度器的所有作业的详细信息，资源利用率文件则包含了从DCGM、IPMI和Prometheus收集的集群资源利用率监控数据。

The Acme Trace Dataset was released by Shanghai AI Laboratory, covering workloads spanning from March 2023 to August 2023. It is primarily designed for academic research, and includes workload information from two independent GPU clusters. Its core characteristics are as follows: total size of 80 GB (hosted on HuggingFace), a 6-month duration, 880,740 total jobs with 470,497 of them being GPU jobs. The dataset comprises two types of files: job trace files and resource utilization files. The job trace files deliver detailed information for all jobs submitted to the schedulers in each cluster, whereas the resource utilization files contain cluster resource utilization monitoring data collected from DCGM, IPMI, and Prometheus.

提供机构：

Qinghao

原始信息汇总

Acme Trace 数据集概述

数据集基本信息

数据集名称: Acme Trace
数据集大小: 109MB
全数据集大小: 80GB (存储于HuggingFace)
数据收集时间: 2023年3月至2023年8月
数据集持续时间: 6个月
独立GPU集群数量: 2
总作业数量: 880,740
GPU作业数量: 470,497

数据集结构

📦AcmeTrace ┣ 📂data ┃ ┣ 📂job_trace ┃ ┃ ┣ 📂trace_previous_work (先前作业跟踪用于比较) ┃ ┃ ┃ ┣ 📜helios_trace.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📜trace_kalos.csv (从调度器收集的作业跟踪文件) ┃ ┃ ┗ 📜trace_seren.csv ┃ ┣ 📂utilization ┃ ┃ ┣ 📂ipmi (从IPMI收集的Seren中不同服务器模型的电源) ┃ ┃ ┃ ┣ 📜CPU_D_Power.csv ┃ ┃ ┃ ┣ 📜GPU_AB_Power.csv ┃ ┃ ┃ ┗ 📜GPU_C_Power.csv ┃ ┃ ┣ 📂kalos (从DCGM和Prometheus收集的资源利用日志) ┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📂seren ┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📂util_pkl (用于绘图的已处理pickle文件) ┃ ┃ ┃ ┣ 📜gpu_power_kalos.pkl ┃ ┃ ┃ ┣ 📜xxx.pkl ┃ ┣ 📜cluster_summary.csv ┃ ┣ 📜generate_utilization_pkl.ipynb (解析利用率文件并生成pickles) ┃ ┗ 📜utils.py ┣ 📂figure (跟踪可视化示例) ┃ ┣ 📜bar_job_state.pdf ┃ ┣ 📜xxx.pdf ┣ 📜LICENSE.txt ┣ 📜README.md ┗ 📜analysis.ipynb (绘图脚本)

数据集内容详细描述

1. 作业跟踪

描述: 提供每个集群中提交给调度器的所有作业的丰富信息。
示例文件: trace_seren.csv, trace_kalos.csv
模式:
- job_id, user, node_num, gpu_num, cpu_num, type, state, submit_time, start_time, end_time, duration, queue, gpu_time
- 仅在Kalos中: mem_per_pod_GB, shared_mem_per_pod, fail_time, stop_time

2. 资源利用

描述: 集群资源利用监控数据，从DCGM、IPMI和Prometheus收集。
示例文件: NODE_CPU_UTILIZATION.csv
模式:
- Time (采样时间戳，间隔为15秒)
- 10.140.xx.xx (服务器IP)

搜集汇总

数据集介绍

构建方式

在数据中心大语言模型开发领域，AcmeTrace数据集通过系统化采集与整合构建而成。其核心数据源自上海人工智能实验室两个独立GPU集群（Kalos与Seren）的调度器日志，覆盖了2023年3月至8月长达六个月的时间跨度。构建过程中，研究人员从调度器直接提取了超过88万条作业轨迹，并同步收集了通过DCGM、IPMI及Prometheus等监控工具获取的细粒度资源利用率数据，包括GPU功耗、CPU与内存使用率等指标。这些原始数据经过清洗、对齐与结构化处理，最终形成了包含作业轨迹与资源监控两大部分、总计约80GB的综合性数据集，为深入分析数据中心内LLM开发的工作负载特征奠定了坚实的数据基础。

特点

该数据集在刻画大语言模型开发工作负载方面展现出显著特点。其时间跨度长达六个月，收录了超过47万项GPU作业的详细轨迹，并涵盖两个异构集群的监控数据，提供了多维度的对比视角。数据内容极为丰富，不仅包含作业的提交、执行状态、资源请求量等调度信息，还整合了服务器级别的实时资源利用率时序数据，采样间隔精细至15秒。特别值得注意的是，数据集对作业类型、终止状态（如完成、取消、失败）进行了明确标注，并计算了GPU时间消耗等衍生指标，能够支持从作业调度效率到集群能效的广泛研究。其结构化存储与清晰的模式定义也极大提升了数据的可访问性与分析便利性。

使用方法

研究人员可利用该数据集进行数据中心工作负载表征与系统优化研究。数据集以标准目录结构组织，用户可通过HuggingFace平台获取。核心分析通常始于`data/job_trace`目录下的CSV文件（如`trace_kalos.csv`），其中包含了按时间戳排序的作业记录，可通过`pandas`等工具加载并进行统计分析，如作业提交模式、资源需求分布及成功率计算。同时，`data/utilization`目录下存储的各类资源监控CSV文件，可与作业轨迹进行时间戳对齐，用于分析作业执行期间的资源使用模式与能效。数据集附带的`analysis.ipynb`脚本及工具函数（`utils.py`）提供了数据解析与可视化的范例，辅助用户快速绘制集群利用率曲线、作业状态分布等图表，从而深入探究大语言模型开发任务对数据中心基础设施带来的实际影响。

背景与挑战

背景概述

在数据中心资源管理与调度领域，大规模语言模型（LLM）开发的迅猛增长对计算基础设施提出了前所未有的需求。上海人工智能实验室于2023年3月至8月期间构建的AcmeTrace数据集，正是为了深入刻画这一新兴负载模式而诞生。该数据集收录了两个独立GPU集群长达六个月的工作负载轨迹，涵盖超过88万项作业的详细记录，为研究LLM开发在数据中心环境下的资源消耗、作业调度与能效特征提供了宝贵的一手资料。其相关研究成果发表于NSDI '24会议，显著推动了高性能计算与云计算交叉领域对于智能计算负载的理解与优化。

当前挑战

AcmeTrace数据集致力于应对数据中心内大规模语言模型开发负载的精准表征与优化挑战，其核心在于解析异构GPU集群中作业调度、资源利用及能效动态的复杂关联。在构建过程中，研究团队面临多重挑战：首先，需从分布式调度器、DCGM监控工具及IPMI接口中持续采集多维度时序数据，并确保高达80GB原始数据在长达六个月周期内的一致性与完整性；其次，不同集群（如Kalos与Seren）在架构与监控指标上存在差异，需设计统一的数据模式以支持跨集群对比分析；此外，作业轨迹中异常状态（如失败、取消）的归因分析，以及资源利用率与功耗数据的精准对齐，均对数据清洗与集成提出了较高要求。

常用场景

经典使用场景

在数据中心资源管理与调度研究领域，AcmeTrace数据集为分析大规模语言模型开发工作负载提供了关键实证基础。该数据集通过记录两个独立GPU集群长达六个月的任务轨迹与资源利用率数据，使研究者能够深入探究LLM开发过程中作业提交模式、资源需求特征以及集群性能动态。经典应用场景包括构建高保真的工作负载模拟器，用于评估新型调度算法在真实LLM开发环境下的效能，同时为异构计算资源的容量规划与能效优化提供数据驱动的决策支持。

解决学术问题

该数据集有效解决了数据中心计算资源管理中的若干核心学术问题。通过提供细粒度的作业级轨迹与系统级监控数据，研究者能够精确刻画LLM开发工作负载的时空分布特性，揭示任务失败率、排队延迟与资源碎片化之间的内在关联。其意义在于突破了以往基于合成负载或小规模集群分析的局限，为构建可扩展的资源调度理论模型提供了大规模实证验证平台，显著推动了高性能计算与云计算交叉领域的学术进展。

衍生相关工作

基于AcmeTrace衍生的经典研究工作主要集中在智能调度与系统优化方向。例如，相关研究利用其作业轨迹数据训练深度强化学习模型，实现动态环境下的多目标资源调度；另有工作结合资源利用率时序数据，构建了面向LLM训练任务的能效感知调度框架。这些成果不仅发表于NSDI等顶级系统会议，更催生了开源调度器优化项目，形成了从数据表征到系统创新的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集