five

面向混合专家模型的稀疏激活并行训练系统

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=686a8dc6195d2621a90dbfc6&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本工作围绕混合专家(MoE)结构中的稀疏激活问题,提出了高效的专家并行训练系统 FastMoE。该系统引入性能建模与负载感知的自动调度机制,应对专家激活负载不均、通信成本高、通信拓扑不匹配等问题。FastMoE 提供透明的模型表达接口,通过动态影子专家技术提升专家负载均衡性,并通过通信-计算重叠和拓扑感知的专家调度策略,大幅降低训练时间并加速模型收敛。系统设计广泛适用于通用 MoE 架构,支持灵活扩展。
提供机构:
清华大学
二维码
社区交流群
二维码
科研交流群
商业服务