多GPU流水线并行训练系统运行日志
收藏国家基础学科公共科学数据中心2026-05-09 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69fb65cbf175603f068a5a23&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集记录了针对大模型训练中计算资源利用率低和显存压力大等问题,采用流水线并行(Pipeline Parallelism)技术在多 GPU 环境下进行深度学习模型训练的完整运行日志。实验基于 PipeDream-V 策略,在 2 台配置有 NVIDIA RTX 2080 Ti 的服务器集群(共 8 GPU)上进行。数据涵盖了系统初始化、各阶段(Stage)的步数(Step)、处理的 Token 数量以及详细的时间开销(精确到秒)。该数据集生成于 2024 年 1 月,详细记录了在微批次(Micro-batch)输入下,不同 GPU 阶段的流水线作业情况。数据经过标准化的 I/O 重定向采集与完整性校验,为优化分布式训练系统的调度算法提供关键的实测数据支持。
提供机构:
浦江国家实验室



