RevealTelemetryDatasetforMLInfraProfilingAnomalyDetection
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/subsetchen/RevealTelemetryDatasetforMLInfraProfilingAnomalyDetection
下载链接
链接失效反馈官方服务:
资源简介:
Reveal是一个大规模的、经过精心策划的硬件遥测数据集,收集自运行多样化机器学习工作负载的高性能计算环境。该数据集使得可以对系统级分析、无监督异常检测和机器学习基础架构优化进行可重现的研究。它包括低级硬件和操作系统指标,这些指标对操作员完全可见,允许进行异常检测而不需要工作负载知识或仪器化。
Reveal is a large-scale, curated hardware telemetry dataset collected from high-performance computing environments running diverse machine learning workloads. This dataset enables reproducible research for system-level analysis, unsupervised anomaly detection, and machine learning infrastructure optimization. It includes low-level hardware and operating system metrics that are fully visible to operators, allowing anomaly detection without requiring workload knowledge or instrumentation.
创建时间:
2025-10-30
原始信息汇总
Reveal: Hardware Telemetry Dataset for Machine Learning Infrastructure Profiling and Anomaly Detection
数据集详情
数据集描述
- Reveal是一个大规模、经过整理的高性能计算硬件遥测数据集,收集自运行多样化机器学习工作负载的环境
- 支持系统级分析、无监督异常检测和机器学习基础设施优化的可重复研究
- 数据集配套论文《Detecting Anomalies in Systems for AI Using Hardware Telemetry》(Chen等,牛津大学,2025年)
基本信息
- 策划者:Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman(牛津大学工程科学系)
- 共享者:Ziji Chen(联系方式:ziji.chen@eng.ox.ac.uk)
- 语言:英语(元数据和文档)
- 许可证:CC BY 4.0
数据集来源
- 论文:https://arxiv.org/abs/submit/6934461
- DOI:https://doi.org/10.5281/zenodo.17470313
用途
直接用途
- 系统遥测中的无监督异常检测研究
- 硬件指标的多元时间序列建模
- 跨子系统交互研究(CPU、GPU、内存、网络、存储)
- 开发性能感知的机器学习基础设施工具
- AIOps和ML系统健康监控的异常检测模型训练或基准测试
超出范围用途
- 推断或重建用户工作负载或模型行为
- 最终用户应用程序性能基准测试
- 涉及个人、机密或专有数据重建的任何用途
数据集结构
核心字段
timestamp:样本的UTC时间host_id:主机或节点标识符metric_name:测量计数器的名称value:记录的数值subsystem:子系统类别(CPU、GPU、Memory、Network、Storage)
数据集创建
数据收集与处理
- 收集工具:perf、procfs、nvidia-smi和标准Linux实用程序
- 采样间隔:100毫秒
- 数据规模:每个主机约150种原始指标类型,扩展为约700个时间序列通道
工作负载和系统
- 工作负载:超过30种机器学习应用程序(BERT、BART、ResNet、ViT、VGG、DeepSeek、LLaMA、Mistral)
- 数据集:GLUE/SST2、WikiSQL、PASCAL VOC、CIFAR、MNIST
- 系统配置:双节点GPU HPC集群(NVIDIA V100和H100、Intel Xeon CPU、InfiniBand HDR100)
数据生产者
所有数据由作者在受控环境中使用合成工作负载生成,不包含用户或私人信息。
引用
bibtex @misc{chen2025detectinganomaliesmachinelearning, title={Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry}, author={Ziji Chen and Steven W. D. Chien and Peng Qian and Noa Zilberman}, year={2025}, eprint={2510.26008}, archivePrefix={arXiv}, primaryClass={cs.PF}, url={https://arxiv.org/abs/2510.26008}, }
搜集汇总
数据集介绍

构建方式
在机器学习基础设施监控领域,Reveal数据集通过精密的多源异构数据采集技术构建而成。研究团队采用perf、procfs、nvidia-smi等系统工具,以100毫秒为采样间隔持续捕获计算节点的实时状态。数据源涵盖双节点GPU高性能计算集群,在运行超过30种典型机器学习工作负载时,同步记录CPU、GPU、内存等五大子系统的150余种原始指标,并通过特征工程扩展形成近700维时间序列通道。所有数据均在受控实验环境中生成,严格遵循机器可读的标准化格式进行存储。
特点
该数据集的核心价值体现在其多维时空特性与专业标注体系。时间序列数据完整覆盖硬件子系统交互动态,每个数据点均包含时间戳、主机标识、度量名称等结构化字段。独特之处在于采用无监督方式自动标记异常片段,为研究跨子系统级联故障提供理想样本。数据采集基于真实机器学习负载场景,涵盖从传统ResNet到前沿LLaMA等模型训练过程,兼具技术广度与生态代表性。所有指标均通过操作系统层面获取,确保在研究系统异常时无需触及用户级应用代码。
使用方法
研究人员可通过Zenodo平台获取标准化的数据集压缩包,解压后利用Pandas或Dask等工具加载CSV格式的时序数据。典型应用流程包含数据预处理、特征提取、模型训练三个阶段:首先基于时间戳重建完整监控时序,接着运用滑动窗口技术构建多元检测样本,最后采用隔离森林或自编码器等算法实现异常检测。数据集特别适用于开发面向AIOps的智能运维算法,但需注意其硬件架构依赖性,建议在同类NVIDIA GPU环境中进行算法验证。
背景与挑战
背景概述
随着人工智能基础设施复杂度的提升,硬件系统在运行机器学习负载时产生的海量遥测数据成为系统优化的关键依据。由牛津大学工程科学系团队于2025年创建的Reveal数据集,聚焦于高性能计算环境中多元硬件子系统的实时状态监测。该数据集通过采集CPU、GPU、内存等五大子系统的150余种原始指标,构建了覆盖30余种典型机器学习工作负载的时序数据库,为基础设施层面的异常检测与性能分析提供了标准化基准。
当前挑战
在机器学习基础设施监控领域,如何从异构硬件指标中识别系统性异常是核心难题。Reveal数据集构建过程中面临多维挑战:其一需在虚拟化环境中实现毫秒级精度的多源数据同步采集,其二是将原始指标扩展为700个时序通道时保持数据一致性。此外,特定硬件架构的局限性使得模型泛化能力受到制约,而受控测试环境与真实生产系统间的差异性也增加了算法验证的复杂度。
常用场景
经典使用场景
在机器学习基础设施监控领域,Reveal数据集通过采集CPU、GPU、内存等硬件子系统的多维遥测数据,为无监督异常检测研究提供了标准化实验平台。其100毫秒级高频采样特性使得研究者能够精准捕捉到分布式训练过程中由硬件故障或资源竞争引发的性能波动,为构建鲁棒的AIOps系统奠定了数据基础。
解决学术问题
该数据集有效解决了现代容器化环境中ML工作负载黑盒化带来的观测难题,通过纯硬件遥测数据实现了系统级异常检测的范式创新。其提供的跨子系统交互时序数据,使研究者能够突破传统应用层监控的局限,为构建不依赖业务知识的通用基础设施诊断模型提供了理论验证框架。
衍生相关工作
该数据集已催生多项时序异常检测的创新研究,例如结合图神经网络建模硬件组件依赖关系的工作,以及利用对抗生成网络合成罕见故障模式的数据增强方法。这些研究进一步推动了MLOps领域在可解释性诊断和预测性维护方面的技术发展。
以上内容由遇见数据集搜集并总结生成



