Multi-Source Distributed System Data for AI-powered Analytics|分布式系统数据集|AI分析数据集

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/SashoNedelkoski/multi-source-observability-dataset

下载链接

链接失效反馈

资源简介：

该数据集包含来自复杂分布式系统的分布式跟踪、应用程序日志和指标，用于支持AI驱动的分析，如异常检测、根因分析和修复。数据集通过执行顺序和并发用户请求的工作负载生成，提供了详细的实验描述和数据统计。

This dataset comprises distributed traces, application logs, and metrics from complex distributed systems, designed to support AI-driven analytics such as anomaly detection, root cause analysis, and remediation. Generated through workloads of sequential and concurrent user requests, the dataset offers detailed experimental descriptions and data statistics.

创建时间：

2019-10-14

原始信息汇总

数据集概述

数据集名称

Multi-Source Distributed System Data for AI-powered Analytics

数据集内容

组成：该数据集包含分布式追踪、应用日志和指标数据。
来源：数据来源于运行复杂的分布式系统（Openstack）。
类型：多源/多模态数据集。

数据集特点

同步性：日志和指标数据按照中欧标准时间（CEST）同步记录，追踪数据按照协调世界时（UTC）记录，需注意时差同步。
数据集版本：提供两个版本的数据集，基于不同的工作负载执行方式：
- sequential_data：通过执行顺序用户请求的工作负载生成。
- concurrent_data：通过执行并发用户请求的工作负载生成。

数据集使用

获取方式：通过Zenodo请求数据。
注意事项：使用前需阅读IMPORTANT_experiment_start_end.txt文件，确保正确处理数据同步问题。

引用信息

引用要求：使用数据、实现或论文细节时，需进行引用。
参考文献：

@inproceedings{nedelkoski2020multi, title={Multi-source Distributed System Data for AI-Powered Analytics}, author={Nedelkoski, Sasho and Bogatinovski, Jasmin and Mandapati, Ajay Kumar and Becker, Soeren and Cardoso, Jorge and Kao, Odej}, booktitle={European Conference on Service-Oriented and Cloud Computing}, pages={161--176}, year={2020}, organization={Springer} }

AI搜集汇总

数据集介绍

构建方式

该数据集通过从复杂的分布式系统（Openstack）中采集多源监控数据构建而成，包括分布式跟踪、应用程序日志和系统指标。数据集的生成过程中，采用了两种不同的工作负载执行方式：顺序用户请求和并发用户请求，分别生成了sequential_data和concurrent_data两个子数据集。此外，数据集还提供了工作负载和故障注入脚本，以及Rally报告作为基准真值。所有数据均按时间同步记录，日志和指标使用中欧标准时间（CEST），而跟踪数据使用协调世界时（UTC），确保了多模态分析的一致性。

使用方法

用户可通过Zenodo平台申请获取该数据集，申请时需提供相关机构信息及数据使用计划。获取数据后，用户应首先阅读IMPORTANT_experiment_start_end.txt文件，了解实验的起止时间和数据同步细节。数据集适用于开发和验证多源监控数据分析算法，特别是在AIOps领域，可用于异常检测、根因分析和修复等任务。用户可利用提供的脚本进行数据统计和分析，结合分布式跟踪、日志和指标进行多模态分析，以提升算法的性能和实用性。

背景与挑战

背景概述

近年来，人工智能在IT运维（AIOps）领域的应用日益广泛，其核心在于利用IT系统的监控数据、大数据平台和机器学习技术，自动化分布式系统的各种运维和维护任务。然而，现有数据集通常仅包含单一类型的监控数据，如应用日志或指标，这限制了AIOps研究的进一步发展。为应对这一挑战，Sasho Nedelkoski等人于2020年创建了‘Multi-Source Distributed System Data for AI-powered Analytics’数据集，该数据集整合了分布式系统的分布式跟踪、应用日志和指标等多源数据，旨在支持异常检测、根因分析和修复等运维任务。该数据集的发布不仅填补了多源监控数据集的空白，还为AIOps领域的研究提供了新的实验平台。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何有效整合来自不同数据源的监控数据，确保其时间同步性和一致性。其次，由于监控数据的低信噪比，如何从多源数据中提取有价值的信息，以支持复杂的运维任务，如异常检测和根因分析。此外，数据集的生成涉及复杂的分布式系统（如Openstack），如何在系统运行过程中准确捕获和记录多源数据，也是一个技术难题。这些挑战不仅影响了数据集的质量，也直接关系到基于该数据集的算法性能和实用性。

常用场景

经典使用场景

在人工智能驱动的IT运维（AIOps）领域，Multi-Source Distributed System Data for AI-powered Analytics数据集的经典使用场景主要集中在多源监控数据的整合与分析。该数据集通过收集分布式系统中的分布式跟踪、应用程序日志和指标等多源数据，为研究人员提供了丰富的数据资源，以支持诸如异常检测、根因分析和修复等运维任务的自动化。这种多源数据的整合分析，不仅提升了数据分析的准确性和效率，还为开发更先进的AIOps算法提供了坚实的基础。

解决学术问题

该数据集解决了AIOps领域中长期存在的单一数据源限制问题，通过提供多源、多模态的数据，极大地拓宽了研究者的视野和研究范围。传统的AIOps研究往往局限于单一类型的监控数据，如日志或指标，这限制了算法的性能和应用场景。Multi-Source Distributed System Data的引入，使得研究者能够开发出更为复杂和高效的算法，从而在异常检测、故障诊断和系统优化等方面取得突破性进展，对提升分布式系统的运维效率具有重要意义。

实际应用

在实际应用中，该数据集被广泛应用于分布式系统的监控和维护。例如，在云计算环境中，通过分析该数据集中的多源数据，可以实现对系统性能的实时监控和异常行为的快速识别。此外，该数据集还支持根因分析，帮助运维团队快速定位和解决系统故障，从而提高系统的稳定性和可靠性。在企业级应用中，这种多源数据的分析能力可以显著降低运维成本，提升服务质量，为企业的数字化转型提供有力支持。

数据集最近研究