five

高性能集群的DeepSeek大模型分布式训练与推理RDMA网络状态监控数据集

收藏
国家基础学科公共科学数据中心2026-05-20 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a0b37c3f175603f068f83e3&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集针对微小型虚拟原位数据中心大语言模型(DeepSeek)的分布式运行过程开展通信优化研究,全面覆盖了模型的分布式推理与分布式训练场景,重点关注RDMA网络在模型推理过程中的性能表现和优化策略,以及训练过程中的梯度同步效率和ZeRO优化器的网络通信特性。主要模拟了DeepSeek分布式环境下数据通信模式和网络负载的变化,采集了RDMA网络的流量变化和资源变化。数据集记录了分布式推理与训练过程中RDMA网络的实时监控数据,包括网络端口状态和带宽利用率、RDMA队列对(QueuePair)和完成队列(CompletionQueue)等关键对象计数、内存区域(MemoryRegion)和保护域(ProtectionDomain)资源使用情况、数据包收发统计和错误计数、RoCE(RDMAoverConvergedEthernet)协议相关性能指标、网络拥塞控制和错误恢复机制统计、大规模梯度同步通信模式分析数据等。数据按单文件CSV时间序列保存;汇交数据预估总量约40M条记录(包含推理与训练两个阶段,含表头与多节点/多进程记录)。采集环境是西北工业大学高性能计算集群,由管理节点、16台计算节点、2台大内存节点、2台异构加速节点及存储系统构成,节点间通过100GbpsRoCE网络互联并配套MellanoxCX6/mlx5系列RDMA网卡。采用自主开发的RDMA监控程序对运行过程中的网络通信进行实时采集。采样频率为1秒/次,通过ibstat和ethtool命令从mlx5系列RDMA设备的端口实时查询设备状态。采集时间分为两个阶段,推理过程采集于2025年12月10日15:43:53至16:33:58,训练过程(持续约40分钟)采集于2025年12月10日16:04:38至16:48:18。
提供机构:
西北工业大学
二维码
社区交流群
二维码
科研交流群
商业服务