PAI灵骏智算服务

Name: PAI灵骏智算服务
Creator: 阿里云计算有限公司
License: 暂无描述

北京国际大数据交易所2024-03-01 收录

下载链接：

https://webs.bjidex.com/sys-bsc-home/#/bscConsole/tradingMarket/detail?id=588

下载链接

链接失效反馈

官方服务：

资源简介：

产品介绍选择PAI灵骏，您可以轻松构建具有以下优势的智能集群：算力即服务。提供高性能、高弹性异构算力服务，支持万张GPU规模的资源弹性，单集群网络容量4Pbps，时延低至2微秒。高资源效率。资源利用率提升3倍，并行计算效率90%以上。融合算力池。支持AI+HPC场景算力的统一分配和融合调度，无缝连接。算力管理监控。为异构算力深度定制IT运维管理平台，实现异构算力到池化资源到使用效率的全流程监控管理。为什么选择PAI灵骏选择PAI灵骏，您可以轻松构建具有以下优势的智能集群：算力即服务。提供高性能、高弹性异构算力服务，支持万张GPU规模的资源弹性，单集群网络容量4Pbps，时延低至2微秒。高资源效率。资源利用率提升3倍，并行计算效率90%以上。融合算力池。支持AI+HPC场景算力的统一分配和融合调度，无缝连接。算力管理监控。为异构算力深度定制IT运维管理平台，实现异构算力到池化资源到使用效率的全流程监控管理。产品优势加速AI创新。全链路性能提速，计算密集型项目迭代效率可提升2倍以上。最大化ROI。高效的池化异构算力调度技术，确保每一份算力投入都能得到充分利用，资源利用率可提升3倍。无惧规模挑战。轻松应对大模型和大规模工程仿真的算力需求，让创新不受算力限制。可视又可控。简单的管理异构算力的分配，并持续的监控和优化。应用场景PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。大规模分布式训练。超大规模GPU算力系统。全对等网络架构，全资源池化，可以搭配PAI（机器学习平台）使用，支持多种训练框架（Pytorch、TensorFlow、Caffe、Keras、Xgboost、Mxnet等），可以满足多种规模的AI训练和推理业务。AI基础设施。平滑扩容。满足不同规模GPU算力需求，平滑扩容，性能线性拓展。智能数据加速。针对AI训练场景提供数据智能加速，主动预热训练所需数据，提升训练效率。更高资源利用率。支持异构资源细粒度管控，提升资源周转效率。自动驾驶。丰富的部署和调度策略。多种GPU资源调度策略，保证训练任务高效执行。文件存储CPFS（Cloud Paralleled File System）搭配RDMA网络架构，保证训练数据供给和计算IO；并可使用OSS分级存储降低归档数据存储成本。同时支持训练和仿真场景。融合算力智能供应，同时支持训练仿真两种场景，从协同模式上提升迭代效率，降低数据迁移成本。科学智能。拓展提升创新上限。基于数据中心超大规模RDMA“高速网”和通信流控技术，实现端到端微秒级通信时延，超大规模线性拓展可打造万卡级并行算力。融合生态，拓展创新边界。支持HPC和AI任务融合调度，为科研和AI提供统一协同的底座支撑，促进技术生态融合。云上科研，普惠算力。支持云原生和容器化的AI和HPC应用生态，资源深度共享，普惠的智能算力触手可得。功能特性高速RDMA网络架构。阿里巴巴2016年开始投入专项研究RDMA（Remote Direct Memory Access），目前已建成大规模数据中心内的“高速网”，通过大规模RDMA网络部署实践，阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过智能网卡实现了协议硬件卸载，降低了端到端网络延时，提升了网络IO吞吐能力，并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。高性能集合通信库ACCL。PAI灵骏支持高性能集合通信库ACCL（Alibaba Collective Communication Library），结合硬件（例如：网络交换机），对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法，彻底消除网络拥塞，提升网络通信效率，提高分布式训练系统的扩展性。在万卡规模下，可达80%以上的线性集群能力。在百卡规模下，有效（计算）性能可达95%以上，可满足80%以上的业务场景需求。高性能数据主动加载加速软件KSpeed。PAI灵骏基于高性能网络RDMA和高性能通信ACCL，研发高性能数据主动加载加速软件KSpeed，进行智能数据IO优化。计算存储分离架构广泛存在于AI、HPC、大数据业务场景中，但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed，实现数据IO数量级性能提升。GPU容器虚拟化方案eGPU。针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，PAI灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下：支持显存、算力双维度自由切分。支持多个规格。支持动态创建、销毁。支持热升级。支持用户态技术，保证更高可靠性。

提供机构：

阿里云计算有限公司

搜集汇总

数据集介绍

背景与挑战

背景概述

PAI灵骏智算服务提供高性能异构算力与智能调度能力，支持万级GPU弹性扩展和微秒级低时延，显著提升资源利用率和训练效率。该服务适用于AI研发、自动驾驶及科学计算等场景，具备RDMA网络架构、虚拟化技术和智能数据加速等核心功能。

以上内容由遇见数据集搜集并总结生成