five

三维并行融合调度训练系统运行日志

收藏
国家基础学科公共科学数据中心2026-04-25 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69eb93b1f175603f068227c6&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
针对千亿参数级超大模型训练中显存墙与通信墙的挑战,本数据集记录了基于“数据并行+张量并行+流水线并行”的三维并行融合调度训练系统的运行情况。实验于 2024 年 6 月在包含 64 张 NVIDIA V100 GPU 的高性能集群上进行,针对 18B(180亿)参数模型进行了训练测试。日志详细记录了并行策略配置(TP=8, PP=4, DP=2)、混合精度(FP16)设置、以及训练过程中的计算时间、通信时间、样本消耗率等细粒度性能指标。该数据对于分析大规模分布式训练中的计算-通信重叠(Overlap)效率及资源调度算法的优化效果具有重要意义。数据经过标准化的 I/O 重定向采集与完整性校验,为优化分布式训练系统的调度算法提供关键的实测数据支持。
提供机构:
浦江国家实验室
二维码
社区交流群
二维码
科研交流群
商业服务