five

基于容错机制的作业运行时控制软件在国产超算部署的支撑数据

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=674240a7195d262b8b446965&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
该项数据是为了体现指标3.1所述的“完成软件原型系统研发,在10E级机原型系统或同技术路线的系统上部署验证”。提供了由曙光信息产业(北京)有限公司开具的应用证明。证明中明确了“基于容错机制的作业运行时控制软件可在曙光超算系统上正确部署。” 基于容错机制的作业运行时控制软件支持三种执行模式,包括安静模式、迁移模式和重启模式。安静模式将忽略迁移信号,仅仅容器化部署计算任务并执行至计算结束;迁移模式下当运行时控制器监听到迁移信号,则执行计算任务迁移过程,备份报告的故障节点的容器,并在空闲节点启动,保持程序继续执行;重启模式下当运行时控制器监听到迁移信号,以预测预期准确率80%的概率终止当前计算任务执行,清理容器和中间文件,然后重新部署并启动计算任务,至程序执行结束。本项目将上述3种模式部署于10E级机原型系统相同计算路线的“东方”计算系统(放置在中国科学院计算机网络信息中心)中独立于作业管理系统的两个计算节点开展测试,由第三方(北京航空航天大学)测试通过,并由该节点的原生产厂商曙光信息产业(北京)有限公司开具了该指标的应用证明。
提供机构:
中国科学院计算机网络信息中心
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集提供了基于容错机制的作业运行时控制软件在国产超算系统部署的支撑数据,包括应用证明和三种执行模式(安静、迁移、重启)的测试结果。数据用于验证软件原型系统在'东方'计算系统上的正确部署,并由第三方测试通过。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务