谷歌2019年生产集群的大规模并行计算任务轨迹扩展测试数据集
收藏国家基础学科公共科学数据中心2026-05-20 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a0b37c2f175603f068f83e1&type=1
下载链接
链接失效反馈官方服务:
资源简介:
为满足大规模系统仿真的并行计算任务需求,以谷歌公司八个集群,承载了搜索、地图、Gmail以及各种大规模并行计算任务任务轨迹数据集为样本(该样本为约12000台服务器的集群在30天内的完整运行数据,每个任务的调度记录包括任务执行时间、资源需求及作业大小等信息。)。从数据集的海量记录中采样1万个具有代表性的作业作为核心样本,通过统计执行时间、资源需求及作业大小的概率分布,按照同样的概率分布将其扩容至包含5万个作业的输入流。数据集通过保留其高保真的资源消耗特征,可以满足大规模系统仿真的压力测试需求。数据形式为单文件LOG记录,汇交数据预估量约15万条数据记录。采集时间为2023年7月10日13:45至2023年7月10日16:45。
提供机构:
上海交通大学



