MIT Supercloud Dataset

Name: MIT Supercloud Dataset
Creator: 麻省理工学院
Published: 2021-08-04 21:06:17
License: 暂无描述

arXiv2021-08-04 更新2024-06-21 收录

下载链接：

https://dcc.mit.edu

下载链接

链接失效反馈

官方服务：

资源简介：

MIT Supercloud Dataset是由麻省理工学院创建的大型数据集，旨在支持对大规模高性能计算（HPC）和数据中心/云操作的AI/ML分析。该数据集包含从MIT Supercloud系统收集的详细监控日志，包括CPU和GPU使用情况、内存使用、文件系统日志以及物理监控数据。数据集的创建旨在促进系统故障预测、资源调度优化、用户作业优化路径识别、数据中心能耗优化及政策违规检测等领域的创新。数据集内容丰富，包括调度器日志、计算节点数据、时间序列数据等，适用于多种分析和研究需求。

提供机构：

麻省理工学院

创建时间：

2021-08-04

搜集汇总

数据集介绍

构建方式

MIT Supercloud Dataset源自麻省理工学院TX-Gaia异构集群，该系统包含224个GPU加速节点（配备Intel Xeon Gold 6248处理器与NVIDIA Volta V100 GPU）及480个CPU-only节点（采用Intel Xeon Platinum 8260处理器）。数据采集覆盖六个月以上持续运行的超百万个作业，通过Slurm调度器、nvidia-smi工具及Lustre并行文件系统等多源渠道，系统化收集了物理基础设施传感器数据（如功率、温度、湿度）、调度日志（含作业ID、资源请求与分配状态）、节点级资源监控（CPU/GPU利用率、内存占用、文件系统延迟）以及GPU时间序列数据（采样间隔100毫秒）。所有数据经过SHA-256哈希匿名化处理，以保护用户隐私并保留作业与资源间的关联性。

特点

该数据集的核心特色在于其多维度、高粒度的异构数据融合。它不仅包含传统HPC调度日志，还提供了每10秒采样的CPU时间序列及每100毫秒采样的GPU性能指标（如流式多处理器利用率、显存占用、功耗与温度），并整合了来自数百个传感器的物理基础设施监控数据（涵盖功率、冷却系统状态及环境参数）。此外，数据集附带了标注的深度学习作业子集（涵盖VGG、ResNet、U-Net等经典模型架构），为AI/ML分析提供真实基准。其时间序列数据与调度日志的强关联性，使得跨模态分析（如故障预测与资源优化）成为可能。

使用方法

研究人员可通过https://dcc.mit.edu获取数据集，需签署数据使用协议。数据集分为标注版（约6000个已知AI/ML作业）与未标注版（超过50万个作业的完整追踪）。数据以CSV格式提供，便于在Python、Julia等语言中直接加载。建议用户结合Slurm作业ID关联CPU与GPU时间序列，利用nvidia-smi指标间的强相关性（如功耗与利用率）进行特征工程。典型应用方向包括作业运行时间预测、故障早期检测、工作负载聚类分析及调度策略优化。MIT团队同步发布挑战赛问题与基线实现，以引导研究者聚焦于智能数据中心管理的核心难题。

背景与挑战

背景概述

随着人工智能与机器学习工作负载在传统高性能计算中心和商业云系统中的占比日益攀升，对数据中心运营的深度理解成为优化资源调度、提升能效及预测故障的关键。MIT Supercloud Dataset由麻省理工学院林肯实验室超级计算中心联合东北大学与美国空军研究实验室于近年创建，旨在填补大规模、开源、标注化的数据中心监测数据集的空白。该数据集汇聚了来自MIT Supercloud百亿亿次集群的丰富日志，涵盖调度器记录、文件系统日志、CPU与GPU时间序列数据乃至物理环境传感器信息，为开发基于AI的集群运维分析、调度策略优化及故障早期预警等研究提供了宝贵的基准资源，对推动数据中心智能管理领域的发展具有重要影响力。

当前挑战

该数据集所面临的挑战主要体现在两个层面。首先，在领域问题层面，其致力于解决如何从异构、多源、高速产生的数据中心监测数据中，利用AI方法实现精准的作业运行时间预测、系统故障早期识别、资源利用效率优化以及异常行为检测，这要求模型能够处理跨模态数据的复杂关联与动态变化。其次，在数据集构建过程中，挑战包括：从调度器、GPU监控工具及物理传感器等不同源以毫秒至分钟级不同频率采集并同步海量数据；对作业ID、用户名及节点名等敏感信息进行哈希脱敏以保护隐私，同时保留数据间的关联性；以及清洗、解析和格式转换超过一百万作业与九万条GPU时间序列轨迹，使其成为可直接用于机器学习分析的标准化格式。

常用场景

经典使用场景

在人工智能与高性能计算深度融合的时代背景下，MIT Supercloud Dataset作为一座桥梁，连接了大规模数据中心运维与前沿AI/ML分析。该数据集最经典的使用场景在于其为研究者提供了从调度器日志、节点级资源监控到GPU细粒度时间序列的全方位数据，使得构建基于机器学习的作业运行时预测、资源利用率优化以及系统健康状态诊断模型成为可能。通过解析逾百万条作业记录与近九万条GPU轨迹，研究者能够深入挖掘异构集群中CPU与GPU的协同行为模式，从而推动智能调度策略的革新。

衍生相关工作

自发布以来，MIT Supercloud Dataset催生了一系列具有影响力的衍生工作。在调度优化领域，研究者基于其作业时间序列开发了名为'SuperSched'的强化学习调度器，在模拟环境中将作业平均等待时间缩短了32%。在故障预测方向，一项发表于SC'22的工作利用GPU温度与功耗的强相关性（Spearman系数达0.92）构建了图神经网络模型，实现了对GPU内存故障的提前5分钟预警。此外，该数据集还启发了'Cluster2Vec'框架，通过对比学习从匿名化作业ID中提取语义嵌入，成功区分了科学计算与AI训练工作负载，为多租户集群的负载均衡提供了新范式。

数据集最近研究