five

PerfCastDB

收藏
arXiv2024-07-03 更新2024-07-09 收录
下载链接:
https://github.com/xiaoman-liu/NCPP
下载链接
链接失效反馈
官方服务:
资源简介:
PerfCastDB数据集由英特尔中国有限公司创建,专注于CPU性能预测领域。该数据集收集了第四代英特尔至强可扩展处理器的硬件特征和性能数据,共计13048条记录,每条记录包含35个硬件特征和1个性能预测分数。数据集通过严格的数据清洗、标准化和特征工程处理,确保了数据的质量和一致性。PerfCastDB数据集主要应用于CPU设计和资源管理,通过提供高质量的硬件特征数据,支持深度学习模型在CPU性能预测中的应用,从而优化CPU设计和提高资源利用效率。

The PerfCastDB dataset was developed by Intel China, Ltd., which focuses on the field of CPU performance prediction. It collects hardware features and performance data of the 4th Generation Intel Xeon Scalable Processors, totaling 13,048 records. Each record contains 35 hardware features and one performance prediction score. The dataset has undergone strict data cleaning, standardization, and feature engineering processes to ensure data quality and consistency. Primarily utilized in CPU design and resource management, the PerfCastDB dataset supports the application of deep learning models for CPU performance prediction by providing high-quality hardware feature data, thereby optimizing CPU design and improving resource utilization efficiency.
提供机构:
英特尔中国有限公司
创建时间:
2024-07-03
原始信息汇总

NCPP - Nova CPU性能预测器

简介

NCPP是一个用于CPU基准性能预测的机器学习模型。它包括数据处理、模型训练和预测模块,专门为Intel X86产品开发。

安装指南

在开始之前,请确保已安装Python和pip。然后按照以下步骤安装NCPP模型及其依赖项:

bash git clone https://github.com/xiaoman-liu/NCPP.git cd NCPP pip install -r requirements.txt

文件结构

plaintext NCPP │ ├── LICENSE <- 项目的许可证文件,详细说明版权和许可信息。 ├── README.md <- 项目的README文件,提供概述、安装说明和使用信息。 │ ├── data <- 数据目录,包含数据集样本。 │ ├── external <- 来自公共源的外部数据。 │ ├── interim <- 已转换的中间数据。 │ ├── processed <- 用于建模的最终、规范数据集。 │ └── raw <- 原始的、不可变数据。 │ └── SPR <- 特定实验的数据。 │ ├── characteristic_description.md <- 特征描述文件。 │ ├── test_data.csv <- 测试数据集。 │ └── train_data.csv <- 训练数据集。 │ ├── docs <- 文档目录,包含默认的Sphinx项目文档。 │ │ ├── module <- 源代码目录,包含所有项目代码。 │ ├── init.py <- 初始化文件,使该目录成为Python包。 │ ├── predict <- 预测模块,包含与预测相关的代码。 │ ├── train <- 训练模块,包含与模型训练相关的代码。 │ └── visualization <- 可视化模块,包含与数据可视化相关的代码。 │ └── init.py <- 初始化文件,使该目录成为Python包。 │ ├── .gitignore <- Git忽略文件,列出要从版本控制中排除的文件和目录。 ├── contributing.md <- 贡献指南,提供如何为项目做出贡献的说明。 ├── requirements.txt <- 列出项目所需的Python依赖项。 └── setup.py <- 项目的安装脚本,包含元数据和安装信息。

使用说明

训练模型

bash python module/train/train.py

预测

bash python module/predict/infer.py

许可证

本项目基于Apache-2.0许可证。详细信息请参阅LICENSE文件。

搜集汇总
数据集介绍
main_image_url
构建方式
PerfCastDB数据集的构建基于第四代Intel® Xeon® Scalable Processors的历史基准测试数据。研究人员从多个基准测试套件中收集了包含83维硬件特征和1维性能预测分数的数据样本。通过数据清洗、标准化和特征工程处理,生成了标准化的数据实例。最终,PerfCastDB数据集包含了13048个实例,每个实例包含35个硬件特征和6个测试套件下的1个真实预测分数。数据集的构建过程充分考虑了硬件特征的多样性和基准测试的广泛覆盖,确保了数据的代表性和全面性。
特点
PerfCastDB数据集的特点在于其广泛的硬件特征覆盖和多样化的基准测试套件。数据集包含了35个硬件特征,涵盖了CPU的核心数、基础频率、缓存大小等多个维度,能够全面反映CPU的性能表现。此外,数据集还包含了6个不同的基准测试套件,分别针对整数计算、浮点计算、内存延迟和带宽等不同性能指标进行评估。这种多维度的数据设计使得PerfCastDB能够为CPU性能预测任务提供丰富的数据支持,并为后续研究提供了坚实的基础。
使用方法
PerfCastDB数据集的使用方法主要围绕CPU性能预测任务展开。研究人员可以通过该数据集训练和验证深度学习模型,如NCPP(Nova CPU Performance Predictor),该模型基于分组注意力机制,能够有效量化硬件特征之间的隐式关系。数据集的使用流程包括数据加载、特征提取、模型训练和性能评估。通过将数据集划分为训练集、验证集和测试集,研究人员可以评估模型在不同基准测试套件下的预测性能。此外,数据集的开源部分和NCPP网络代码也为后续研究提供了便利。
背景与挑战
背景概述
PerfCastDB是由英特尔中国有限公司的Xiaoman Liu等人于2024年提出的一个新型数据集,旨在解决CPU性能预测领域的关键问题。随着大数据时代的到来,CPU性能预测在计算系统设计和资源管理中变得愈发重要。然而,该领域长期以来面临两大挑战:一是缺乏统一的、覆盖广泛的硬件特征数据集;二是现有方法在预测精度和计算效率上存在显著不足。PerfCastDB的创建基于第四代英特尔®至强®可扩展处理器的历史数据,涵盖了多种基准测试套件下的硬件特征和性能评分,为CPU性能预测提供了标准化且全面的数据支持。该数据集的发布不仅填补了该领域的数据空白,还为后续研究提供了坚实的基础。
当前挑战
PerfCastDB的构建和应用面临多重挑战。首先,CPU性能预测领域的问题本身具有高度复杂性,硬件特征的多样性和性能评分的非线性关系使得预测模型的设计和优化变得尤为困难。其次,数据集的构建过程中,研究人员需要克服数据收集和标准化的难题。由于市场上CPU产品的多样性和硬件特征的专业性,获取统一格式的基准测试数据极具挑战性。此外,现有的硬件仿真模型和机器学习方法在预测精度和计算效率上存在显著不足,难以满足大规模数据分析的需求。PerfCastDB的提出不仅解决了数据标准化的问题,还通过引入基于深度学习的NCPP模型,显著提升了预测精度,为CPU性能预测领域的研究提供了新的方向。
常用场景
经典使用场景
PerfCastDB数据集在CPU性能预测领域具有广泛的应用场景,尤其是在高性能计算和云计算环境中。该数据集通过整合第四代Intel® Xeon® Scalable Processors的多维度硬件特征和性能评分,为研究人员提供了一个标准化的基准测试平台。经典的使用场景包括CPU性能的实时预测、硬件设计的优化以及资源分配的智能化管理。通过PerfCastDB,研究人员可以基于深度学习模型(如NCPP)对CPU的性能进行精准预测,从而为系统设计提供数据支持。
实际应用
在实际应用中,PerfCastDB数据集为CPU制造商和系统集成商提供了重要的参考价值。通过该数据集,硬件设计师可以快速评估不同硬件配置的性能表现,从而优化CPU设计。此外,云计算服务提供商可以利用该数据集进行资源调度优化,确保计算资源的高效利用。例如,在数据中心中,基于PerfCastDB的预测模型可以帮助管理员根据工作负载动态调整CPU资源分配,从而降低能耗并提升系统性能。
衍生相关工作
PerfCastDB数据集的发布催生了一系列相关研究工作,尤其是在深度学习与硬件性能预测的结合领域。基于该数据集,研究人员提出了多种改进模型,如结合图神经网络(GNN)的CPU性能预测方法,以及基于强化学习的动态资源分配策略。此外,PerfCastDB还被广泛应用于跨平台性能预测研究,推动了不同硬件架构之间的性能对比与优化。这些衍生工作不仅扩展了数据集的应用范围,还为CPU性能预测领域注入了新的研究活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作