CPU Utilization Dataset
收藏arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://github.com/sebasmos/AML4CPU/tree/main/data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由爱尔兰人工智能中心的科研人员收集的CPU利用率的时序数据,通过在Orange Pi 5硬件上运行psutil库来记录每核心的CPU使用率和UNIX时间戳,持续了大约32天。数据集经过重采样处理以保证每分钟一个样本点,共包含47315个样本点,划分为80%的训练集和20%的测试集。数据集为单变量特征集,利用过去的CPU利用率来预测下一个时间点的CPU利用率。
This dataset is a time-series collection of CPU utilization metrics gathered by researchers at the AI Centre of Ireland. Per-core CPU usage rates and UNIX timestamps were recorded using the psutil library running on Orange Pi 5 hardware, with data collection spanning approximately 32 days. The dataset was resampled to ensure one sample per minute, containing a total of 47,315 samples, which is split into an 80% training set and 20% test set. This is a univariate feature dataset, where the task is to predict the CPU utilization at the next time step based on historical CPU utilization values.
提供机构:
爱尔兰人工智能中心(CeADAR), 都柏林大学学院
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
CPU Utilization Dataset构建于物联网(IoT)网关环境,通过Orange Pi 5硬件平台采集数据,采用RK3588S八核处理器。数据采集过程使用psutil库,以1分钟为间隔记录每个核心的CPU使用率和UNIX时间戳,持续约32天(47,315分钟)。系统在stress-ng测试下运行,模拟0-100%的多样化工作负载,每60分钟工作周期后暂停60秒以确保数据多样性。数据集经过重采样处理,确保样本间时间间隔精确为一分钟,最终划分为80%训练集(37,852样本)和20%测试集(9,463样本)。
特点
该数据集的核心特征在于其非平稳时间序列特性,反映了真实IoT环境中CPU负载的动态波动与周期性峰值。数据包含单变量CPU利用率指标,通过滞后值(lags)构建特征工程,支持1分钟前瞻预测任务。其显著特点包括:47,315个高精度时间点样本、多核负载并行记录、模拟负载覆盖0-100%全范围,以及严格控制的60分钟负载-60秒空闲的周期模式,为概念漂移(concept drift)研究提供理想场景。数据集通过GitHub公开,包含标准化CSV格式的训练集(train_data.csv)和测试集(test_data.csv),支持可复现研究。
使用方法
该数据集专为边缘计算环境下的CPU负载预测研究设计,支持三类实验范式:传统机器学习模型(如XGBoost、随机森林)的静态训练-测试评估;在线学习算法(如ARF、HAT)的渐进式数据流学习;以及时间序列基础模型(如Lag-Llama)的零样本与微调测试。使用需注意窗口大小(WS)参数对滞后特征的影响,建议采用MAE、RMSE等时序指标评估,并考虑训练/推理时间、内存占用等边缘设备约束。实验代码基于River、scikit-learn和PyTorch框架实现,提供20次随机种子重复的基准结果以确保统计显著性。
背景与挑战
背景概述
CPU Utilization Dataset是由爱尔兰人工智能中心(CeADAR)的研究团队于2025年创建的,旨在解决物联网(IoT)环境中资源受限设备的CPU利用率预测问题。该数据集由Orange Pi 5设备采集,记录了8核RK3588S处理器在32天内的CPU使用率数据,采样间隔为1分钟。数据集的核心研究问题是通过机器学习和时间序列分析技术,预测边缘设备的CPU负载,以优化资源分配和能源消耗。该数据集对边缘计算和云计算领域的研究具有重要意义,为资源管理和能效优化提供了数据支持。
当前挑战
CPU Utilization Dataset面临的挑战主要包括两个方面:首先,在领域问题方面,CPU利用率数据具有非平稳性和概念漂移特性,传统的统计模型如ARIMA难以捕捉非线性趋势和长期依赖关系,而神经网络模型虽然表现较好,但计算资源消耗较大。其次,在数据构建过程中,研究人员需要模拟多样化的CPU负载场景,并通过stress-ng测试生成0-100%的随机负载,同时确保数据采样的均匀性和一致性。此外,数据集的构建还需要考虑边缘设备的资源限制,如何在有限的计算资源下实现高效的模型训练和预测也是一个重要挑战。
常用场景
经典使用场景
在物联网(IoT)和边缘计算领域,CPU Utilization Dataset被广泛用于预测网关设备的CPU负载。通过采集多核CPU使用率和时间戳数据,该数据集为研究人员提供了一个真实的、动态变化的计算资源使用场景。数据集中的CPU负载数据以1分钟为间隔记录,涵盖了从0%到100%的不同负载水平,能够有效模拟实际工作负载的波动性和非平稳性特征。
解决学术问题
该数据集有效解决了边缘计算环境中资源预测的关键学术问题。针对传统统计方法(如ARIMA)在非线性趋势和长期依赖性预测上的局限性,该数据集支持对在线学习算法、集成方法和深度神经网络(如LSTM、BI-LSTM)的性能验证。通过比较不同模型在预测误差、训练时间和内存消耗等指标上的表现,该数据集为资源受限环境下的模型选择提供了实证依据,显著推进了自适应机器学习在非平稳数据流中的应用研究。
衍生相关工作
基于该数据集衍生的经典工作包括:1)自适应随机森林(ARF)在动态数据流中的改进应用,通过漂移检测机制提升预测稳定性;2)XGBoost与在线学习的融合研究,探索了边缘设备增量更新的可行性;3)Lag-Llama时间序列基础模型的微调实践,验证了预训练模型在非平稳负载预测中的迁移潜力。这些工作均引用该数据集作为核心评估基准,推动了边缘智能领域的算法创新。
以上内容由遇见数据集搜集并总结生成



