Qinghao/AcmeTrace
收藏Acme Trace 数据集概述
数据集基本信息
- 数据集名称: Acme Trace
- 数据集大小: 109MB
- 全数据集大小: 80GB (存储于HuggingFace)
- 数据收集时间: 2023年3月至2023年8月
- 数据集持续时间: 6个月
- 独立GPU集群数量: 2
- 总作业数量: 880,740
- GPU作业数量: 470,497
数据集结构
📦AcmeTrace ┣ 📂data ┃ ┣ 📂job_trace ┃ ┃ ┣ 📂trace_previous_work (先前作业跟踪用于比较) ┃ ┃ ┃ ┣ 📜helios_trace.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📜trace_kalos.csv (从调度器收集的作业跟踪文件) ┃ ┃ ┗ 📜trace_seren.csv ┃ ┣ 📂utilization ┃ ┃ ┣ 📂ipmi (从IPMI收集的Seren中不同服务器模型的电源) ┃ ┃ ┃ ┣ 📜CPU_D_Power.csv ┃ ┃ ┃ ┣ 📜GPU_AB_Power.csv ┃ ┃ ┃ ┗ 📜GPU_C_Power.csv ┃ ┃ ┣ 📂kalos (从DCGM和Prometheus收集的资源利用日志) ┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📂seren ┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv ┃ ┃ ┃ ┣ 📜xxx.csv ┃ ┃ ┣ 📂util_pkl (用于绘图的已处理pickle文件) ┃ ┃ ┃ ┣ 📜gpu_power_kalos.pkl ┃ ┃ ┃ ┣ 📜xxx.pkl ┃ ┣ 📜cluster_summary.csv ┃ ┣ 📜generate_utilization_pkl.ipynb (解析利用率文件并生成pickles) ┃ ┗ 📜utils.py ┣ 📂figure (跟踪可视化示例) ┃ ┣ 📜bar_job_state.pdf ┃ ┣ 📜xxx.pdf ┣ 📜LICENSE.txt ┣ 📜README.md ┗ 📜analysis.ipynb (绘图脚本)
数据集内容详细描述
1. 作业跟踪
- 描述: 提供每个集群中提交给调度器的所有作业的丰富信息。
- 示例文件:
trace_seren.csv,trace_kalos.csv - 模式:
job_id,user,node_num,gpu_num,cpu_num,type,state,submit_time,start_time,end_time,duration,queue,gpu_time- 仅在Kalos中:
mem_per_pod_GB,shared_mem_per_pod,fail_time,stop_time
2. 资源利用
- 描述: 集群资源利用监控数据,从DCGM、IPMI和Prometheus收集。
- 示例文件:
NODE_CPU_UTILIZATION.csv - 模式:
Time(采样时间戳,间隔为15秒)10.140.xx.xx(服务器IP)




