PerfCastDB|CPU性能预测数据集|深度学习数据集

arXiv2024-07-03 更新2024-07-09 收录

CPU性能预测

深度学习

下载链接：

https://github.com/xiaoman-liu/NCPP

下载链接

链接失效反馈

资源简介：

PerfCastDB数据集由英特尔中国有限公司创建，专注于CPU性能预测领域。该数据集收集了第四代英特尔至强可扩展处理器的硬件特征和性能数据，共计13048条记录，每条记录包含35个硬件特征和1个性能预测分数。数据集通过严格的数据清洗、标准化和特征工程处理，确保了数据的质量和一致性。PerfCastDB数据集主要应用于CPU设计和资源管理，通过提供高质量的硬件特征数据，支持深度学习模型在CPU性能预测中的应用，从而优化CPU设计和提高资源利用效率。

提供机构：

英特尔中国有限公司

创建时间：

2024-07-03

原始信息汇总

NCPP - Nova CPU性能预测器

简介

NCPP是一个用于CPU基准性能预测的机器学习模型。它包括数据处理、模型训练和预测模块，专门为Intel X86产品开发。

安装指南

在开始之前，请确保已安装Python和pip。然后按照以下步骤安装NCPP模型及其依赖项：

bash git clone https://github.com/xiaoman-liu/NCPP.git cd NCPP pip install -r requirements.txt

文件结构

plaintext NCPP │ ├── LICENSE <- 项目的许可证文件，详细说明版权和许可信息。 ├── README.md <- 项目的README文件，提供概述、安装说明和使用信息。 │ ├── data <- 数据目录，包含数据集样本。 │ ├── external <- 来自公共源的外部数据。 │ ├── interim <- 已转换的中间数据。 │ ├── processed <- 用于建模的最终、规范数据集。 │ └── raw <- 原始的、不可变数据。 │ └── SPR <- 特定实验的数据。 │ ├── characteristic_description.md <- 特征描述文件。 │ ├── test_data.csv <- 测试数据集。 │ └── train_data.csv <- 训练数据集。 │ ├── docs <- 文档目录，包含默认的Sphinx项目文档。 │ │ ├── module <- 源代码目录，包含所有项目代码。 │ ├── init.py <- 初始化文件，使该目录成为Python包。 │ ├── predict <- 预测模块，包含与预测相关的代码。 │ ├── train <- 训练模块，包含与模型训练相关的代码。 │ └── visualization <- 可视化模块，包含与数据可视化相关的代码。 │ └── init.py <- 初始化文件，使该目录成为Python包。 │ ├── .gitignore <- Git忽略文件，列出要从版本控制中排除的文件和目录。 ├── contributing.md <- 贡献指南，提供如何为项目做出贡献的说明。 ├── requirements.txt <- 列出项目所需的Python依赖项。 └── setup.py <- 项目的安装脚本，包含元数据和安装信息。

使用说明

训练模型

bash python module/train/train.py

预测

bash python module/predict/infer.py

许可证

本项目基于Apache-2.0许可证。详细信息请参阅LICENSE文件。

AI搜集汇总

数据集介绍

构建方式

PerfCastDB数据集的构建基于第四代Intel® Xeon® Scalable Processors的历史基准测试数据。研究人员从多个基准测试套件中收集了包含83维硬件特征和1维性能预测分数的数据样本。通过数据清洗、标准化和特征工程处理，生成了标准化的数据实例。最终，PerfCastDB数据集包含了13048个实例，每个实例包含35个硬件特征和6个测试套件下的1个真实预测分数。数据集的构建过程充分考虑了硬件特征的多样性和基准测试的广泛覆盖，确保了数据的代表性和全面性。

特点

PerfCastDB数据集的特点在于其广泛的硬件特征覆盖和多样化的基准测试套件。数据集包含了35个硬件特征，涵盖了CPU的核心数、基础频率、缓存大小等多个维度，能够全面反映CPU的性能表现。此外，数据集还包含了6个不同的基准测试套件，分别针对整数计算、浮点计算、内存延迟和带宽等不同性能指标进行评估。这种多维度的数据设计使得PerfCastDB能够为CPU性能预测任务提供丰富的数据支持，并为后续研究提供了坚实的基础。

使用方法

PerfCastDB数据集的使用方法主要围绕CPU性能预测任务展开。研究人员可以通过该数据集训练和验证深度学习模型，如NCPP（Nova CPU Performance Predictor），该模型基于分组注意力机制，能够有效量化硬件特征之间的隐式关系。数据集的使用流程包括数据加载、特征提取、模型训练和性能评估。通过将数据集划分为训练集、验证集和测试集，研究人员可以评估模型在不同基准测试套件下的预测性能。此外，数据集的开源部分和NCPP网络代码也为后续研究提供了便利。

背景与挑战

背景概述

PerfCastDB是由英特尔中国有限公司的Xiaoman Liu等人于2024年提出的一个新型数据集，旨在解决CPU性能预测领域的关键问题。随着大数据时代的到来，CPU性能预测在计算系统设计和资源管理中变得愈发重要。然而，该领域长期以来面临两大挑战：一是缺乏统一的、覆盖广泛的硬件特征数据集；二是现有方法在预测精度和计算效率上存在显著不足。PerfCastDB的创建基于第四代英特尔®至强®可扩展处理器的历史数据，涵盖了多种基准测试套件下的硬件特征和性能评分，为CPU性能预测提供了标准化且全面的数据支持。该数据集的发布不仅填补了该领域的数据空白，还为后续研究提供了坚实的基础。

当前挑战

PerfCastDB的构建和应用面临多重挑战。首先，CPU性能预测领域的问题本身具有高度复杂性，硬件特征的多样性和性能评分的非线性关系使得预测模型的设计和优化变得尤为困难。其次，数据集的构建过程中，研究人员需要克服数据收集和标准化的难题。由于市场上CPU产品的多样性和硬件特征的专业性，获取统一格式的基准测试数据极具挑战性。此外，现有的硬件仿真模型和机器学习方法在预测精度和计算效率上存在显著不足，难以满足大规模数据分析的需求。PerfCastDB的提出不仅解决了数据标准化的问题，还通过引入基于深度学习的NCPP模型，显著提升了预测精度，为CPU性能预测领域的研究提供了新的方向。

常用场景

经典使用场景

PerfCastDB数据集在CPU性能预测领域具有广泛的应用场景，尤其是在高性能计算和云计算环境中。该数据集通过整合第四代Intel® Xeon® Scalable Processors的多维度硬件特征和性能评分，为研究人员提供了一个标准化的基准测试平台。经典的使用场景包括CPU性能的实时预测、硬件设计的优化以及资源分配的智能化管理。通过PerfCastDB，研究人员可以基于深度学习模型（如NCPP）对CPU的性能进行精准预测，从而为系统设计提供数据支持。

实际应用

在实际应用中，PerfCastDB数据集为CPU制造商和系统集成商提供了重要的参考价值。通过该数据集，硬件设计师可以快速评估不同硬件配置的性能表现，从而优化CPU设计。此外，云计算服务提供商可以利用该数据集进行资源调度优化，确保计算资源的高效利用。例如，在数据中心中，基于PerfCastDB的预测模型可以帮助管理员根据工作负载动态调整CPU资源分配，从而降低能耗并提升系统性能。

衍生相关工作

PerfCastDB数据集的发布催生了一系列相关研究工作，尤其是在深度学习与硬件性能预测的结合领域。基于该数据集，研究人员提出了多种改进模型，如结合图神经网络（GNN）的CPU性能预测方法，以及基于强化学习的动态资源分配策略。此外，PerfCastDB还被广泛应用于跨平台性能预测研究，推动了不同硬件架构之间的性能对比与优化。这些衍生工作不仅扩展了数据集的应用范围，还为CPU性能预测领域注入了新的研究活力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像，以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式，标签从Density1到Density4，表示乳房密度的增加，并分为良性或恶性。

github 收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录