IBM Cloud Telemetry Dataset

Name: IBM Cloud Telemetry Dataset
Creator: 多伦多都会大学计算机科学系
Published: 2024-11-14 06:04:19
License: 暂无描述

arXiv2024-11-14 更新2024-11-16 收录

下载链接：

https://zenodo.org/record/XXXXXX

下载链接

链接失效反馈

官方服务：

资源简介：

IBM Cloud Telemetry Dataset是由IBM Cloud收集的高维数据集，涵盖了4.5个月内的39,365行和117,448列的遥测数据。该数据集通过IBM Cloud Console收集，主要用于云系统中的异常检测。数据集的创建过程包括从多个数据中心收集日志和指标，并通过统计函数进行预处理和聚合。该数据集的应用领域主要集中在云系统的监控和性能优化，旨在通过提供真实世界的数据来帮助开发更强大的异常检测方法。

The IBM Cloud Telemetry Dataset is a high-dimensional dataset collected by IBM Cloud, encompassing 39,365 rows and 117,448 columns of telemetry data spanning a 4.5-month period. Acquired via the IBM Cloud Console, this dataset is primarily intended for anomaly detection in cloud systems. The creation workflow of this dataset involves gathering logs and metrics from multiple data centers, followed by preprocessing and aggregation using statistical functions. Its core application areas focus on cloud system monitoring and performance optimization, aiming to support the development of more robust anomaly detection methods by providing real-world empirical data.

提供机构：

多伦多都会大学计算机科学系

创建时间：

2024-11-14

搜集汇总

数据集介绍

构建方式

IBM Cloud Telemetry Dataset的构建始于对IBM Cloud Console的4.5个月实时数据收集，涵盖了全球多个数据中心的微服务日志和指标。数据通过高效的Publish/Subscribe机制进行采集，并利用先前研究中开发的弹性管道进行实时日志分析和存储。数据集最终包含39,365行和117,448列，每行代表一个5分钟的间隔，列则涵盖了多种统计函数和详细信息，如数据中心、主机微服务端点、请求类型和响应代码。

特点

该数据集的显著特点在于其高维度和实时性，反映了大规模云系统的动态复杂性。数据集不仅提供了丰富的统计信息，还通过多源标注确保了异常标签的准确性和全面性。此外，数据集的长时间跨度和全球分布的数据中心提供了对云系统性能和异常行为的深入洞察，使其成为研究和实践中的宝贵资源。

使用方法

IBM Cloud Telemetry Dataset适用于多种机器学习和统计分析任务，特别是在异常检测领域。研究者和实践者可以利用该数据集训练和验证各种异常检测模型，如基于神经网络的自动编码器和GRU模型。数据集的高维特性要求使用先进的降维和特征选择技术，同时其多源标注和长时间跨度为模型的训练和评估提供了丰富的上下文信息。

背景与挑战

背景概述

随着大规模云计算系统（LCS）的复杂性不断增加，确保系统可靠性和性能的有效异常检测变得至关重要。然而，用于基准测试异常检测方法的大规模真实世界数据集的缺乏成为一个显著的障碍。为了填补这一空白，多伦多都会大学计算机科学系的Mohammad Saiful Islam、Mohamed Sami Rakha、William Pourmajidi、Janakan Sivaloganathan和Andriy Miranskyy，以及IBM加拿大实验室的John Steinbacher，共同推出了一个新的高维度数据集——IBM Cloud遥测数据集。该数据集从IBM Cloud控制台收集了4.5个月的遥测数据，包含39,365行和117,448列。这一数据集不仅为研究人员和从业者提供了一个资源，还促进了在真实世界数据中更高效地测试异常检测方法，从而推动了大规模云计算基础设施健康和性能的稳健解决方案的发展。

当前挑战

IBM Cloud遥测数据集面临的挑战主要集中在高维度数据的处理和异常检测的准确性上。高维度数据带来的‘维度诅咒’问题使得许多现有方法在维持准确性方面遇到困难，导致性能和精度下降。此外，现有的大部分异常检测研究都是在相对较小的数据集上进行的，这些数据集可能无法完全捕捉大规模云计算系统所面临的挑战。数据集的构建过程中，研究人员还需要应对数据的高维度和非平稳性问题，以及如何准确识别和标记异常的挑战。这些因素共同构成了该数据集在异常检测领域的主要挑战。

常用场景

经典使用场景

IBM Cloud Telemetry Dataset 的经典使用场景主要集中在大型云系统中的异常检测。该数据集通过收集 IBM Cloud Console 在 4.5 个月内的遥测数据，提供了高维度的数据集，适用于开发和测试各种异常检测模型。研究人员和从业者可以利用这些数据来训练和验证机器学习模型，特别是那些基于深度学习的异常检测方法，如自动编码器和循环神经网络（RNN）。这些模型能够识别出系统中的异常行为，从而帮助云系统管理员及时采取措施，确保系统的可靠性和性能。

解决学术问题

IBM Cloud Telemetry Dataset 解决了在大型云系统中进行异常检测时面临的关键学术问题。首先，它填补了高维度、真实世界数据集的空白，使得研究人员能够在更接近实际应用的环境中测试和验证异常检测方法。其次，该数据集揭示了高维度数据带来的挑战，如数据稀疏性和特征冗余，这些问题在传统的异常检测方法中难以处理。通过提供这样一个数据集，研究人员可以开发出更有效的算法，以应对这些挑战，从而推动异常检测技术的发展。

衍生相关工作

IBM Cloud Telemetry Dataset 的发布催生了一系列相关的经典工作。首先，基于该数据集的研究论文和实验报告不断涌现，推动了异常检测技术在云环境中的应用和发展。其次，许多研究团队和公司开始开发基于该数据集的异常检测工具和平台，这些工具在实际应用中表现出色，得到了广泛认可。此外，该数据集还激发了对高维度数据处理和特征选择技术的研究，促进了机器学习和数据挖掘领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集