分布式深度学习训练框架实验数据
收藏国家基础学科公共科学数据中心2025-11-15 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6914af13195d264cf53a179d&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集来源于国家重点研发计划课题:业务链智能闭环编排高效部署多目标优化,于2024年3月至2024年7月期间在浙江大学玉泉校区开展了分布式深度学习训练框架性能测试工作,测试平台包括一个8张NVIDIA V100 GPU构成的计算集群与一个8张NVIDIA 3090 GPU构成的计算集群。数据集涵盖了三种典型框架:NetPlacer基于负载平衡的新型模型并行策略,综合考虑计算与通信负载的均衡分配,并通过数学建模与优化算法求解近似最优解,从而实现更高效的多设备训练;D-Credit引入了一种基于动态滑动窗口的张量通信机制,通过合理划分通信与计算阶段,并结合理论分析与启发式算法确定最优窗口大小,从而有效减少每次迭代中的通信等待时间;PipeSFL提出了一种细粒度的流水线并行框架,结合服务器端优先级调度与混合训练模式,显著提升了异构客户端环境下的训练效率。数据集首先根据不同的GPU规模和客户端数量设置了异构模型并行训练场景、多节点通信瓶颈模拟场景和异构客户端联邦学习场景,在训练过程中记录了各个框架的图像吞吐率、训练时间等关键性能数据,单位为 images/s、tokens/s 或 s,数据精度达到小数点后两位。实验结果显示,三种分布式深度学习训练框架相比于各类经典分布式深度学习框架,均能够保持优异的加速比和低能耗,显著提高了资源利用率。该数据集支撑了课题多维时空资源模型的构建与训练过程,用于实现单个NFVI算法作用域业务链部署时延<20μs的目标。数据集格式为Excel,大小13KB。
提供机构:
浙江大学



