five

面向HPC和AI领域的负载特征数据集

收藏
国家基础学科公共科学数据中心2026-01-17 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6967bda6195d26230e9b1194&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
为支撑HPC和AI领域负载特征分析与优化,本文构建含数据流图(DFG)、函数调用关系及程序结构的数据集。数据于2023-2025年在清华大学Intel Xeon测试机采集,含polybench测试集10个PDF格式DFG数据,及NPB-MPI 3.3版本8个程序的GML格式函数调用关系与程序结构数据。数据采集采用分层精准解析方案:DFG数据通过程序源码编译为LLVM IR后开展数据流分析,经图结构建模后以dot命令生成可视化PDF;函数调用关系与程序结构数据均通过解析程序二进制文件抽取核心信息,前者以函数为顶点、调用关系为边构建图结构,后者以循环、分支等结构为顶点、包含关系为边构建图结构,均存储为标准GML格式以保障数据通用性。数据时间精度对齐采集过程全流程节点,空间精度精准定位至程序函数及指令级结构,计算方式以静态程序分析与图结构建模为主。数据采集过程通过标准化测试集选取、统一格式存储及多步骤解析校验保障质量,确保数据的完整性与一致性。该数据集为HPC和AI领域负载特征建模、性能优化、编译优化等研究提供了精准的基础数据支撑,可助力相关算法的设计与验证,对推动HPC与AI融合场景下的系统优化、提升计算资源利用效率具有重要的潜在应用价值与研究意义。 数据集包含4个数据文件,DFG数据、函数调用关系数据、程序结构数据。(1)“DFG数据”文件夹下包含10个PDF文件,分别为polybench测试集中对应程序的Data-Flow Graph(DFG),共451KB。(2)“函数调用关系数据”文件夹下包含8个文本文件,分别为NPB-MPI(3.3版本)基准测试集中8个程序对应的函数数调用关系数据progam call graph(pcg),共543KB。(3)“程序结构数据”文件夹下包含8个文件夹,分别对应NPB-MPI(3.3版本)基准测试集中8个程序对应的所有函数结构信息,以标准GML格式的图数据结构存储, 共665KB。(4)“CFG数据与运行时采样数据”文件夹下下包含8个文件夹,分别对应NPB-MPI(3.3版本)基准测试集中8个程序对应的静态CFG数据(静态数据文件夹)和运行时性能采样数据(动态数据文件夹),另有数据集说明文件。
提供机构:
清华大学
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集旨在支撑HPC和AI领域的负载特征分析与优化,包含数据流图、函数调用关系及程序结构等多类数据,主要通过静态程序分析与图结构建模方法从清华大学测试机采集。它为相关领域的性能优化、编译优化等研究提供了精准的基础数据支持,具有重要的研究价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务