Exathlon

arXiv2021-09-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2010.05073v3

下载链接

链接失效反馈

官方服务：

资源简介：

Exathlon是一个针对高维时间序列数据的可解释异常检测的全面公共基准。它基于Apache Spark集群上大规模流处理作业的重复执行中的真实数据跟踪构建，包括六种不同类型的异常事件实例，并提供了每个异常实例的根本原因间隔和扩展影响间隔的地面实况标签。

Exathlon is a comprehensive public benchmark for explainable anomaly detection on high-dimensional time series data. It is constructed based on real-world data traces collected from repeated executions of large-scale stream processing jobs on Apache Spark clusters. This benchmark covers six distinct types of anomalous event instances, and provides ground-truth labels for both the root cause interval and the extended impact interval of each anomaly instance.

创建时间：

2020-10-11

搜集汇总

数据集介绍

构建方式

在时间序列异常检测领域，构建高质量的数据集对于推动算法研究至关重要。Exathlon数据集基于Apache Spark集群上大规模流处理作业的重复执行所采集的真实数据轨迹，系统性地构建而成。研究团队在超过两个半月的时间内，对10个分布式流作业进行了约100次运行，并通过引入混沌工程方法，在超过30次作业执行中注入了近100个实例的六类异常事件，如突发输入、资源竞争和进程故障等。每个异常实例均提供了根因区间和扩展影响区间的真实标签，从而支持广泛的异常检测与解释发现任务。

使用方法

Exathlon数据集的使用方法围绕其半监督学习设定和模块化评估流程展开。研究者通常以未受干扰的正常轨迹作为训练数据，构建数据正常性模型，而后在包含异常实例的测试轨迹上进行评估。数据预处理阶段支持重采样、降维（如PCA或基于领域知识的特征选择）和特征缩放等操作。异常检测功能通过四个递增的评估标准进行衡量：异常存在性、区间检测、早期检测和一次性检测，并采用基于区间的精度与召回率框架进行量化。解释发现模块则支持模型无关和模型依赖两类方法，从简洁性、一致性和准确性三个维度对生成的解释进行评估，并可结合不同的学习设置（如单应用与多应用学习）以考察模型的泛化能力。

背景与挑战

背景概述

在时间序列分析领域，高维数据的异常检测与解释发现一直是研究的前沿课题。Exathlon数据集由法国巴黎综合理工学院与美国英特尔实验室及麻省理工学院的研究团队于2021年联合创建，旨在填补可解释时间序列异常检测领域公共基准数据的空白。该数据集基于Apache Spark集群中大规模流处理作业的重复执行轨迹，系统性地构建了包含六类异常事件（如输入突发、资源竞争、进程故障等）的标注数据。Exathlon不仅提供了异常根因区间与扩展影响区间的真实标签，还设计了涵盖功能性与计算性能的评估框架，为时间序列异常检测与解释发现算法的开发与比较奠定了坚实基础，显著推动了可解释异常检测研究的可重复性与实验进展。

当前挑战

Exathlon数据集面临的挑战主要体现在两大维度：其一，在领域问题层面，该数据集致力于解决高维时间序列中范围型异常（如上下文异常与集体异常）的检测与解释问题，其核心挑战在于处理多变量时间序列的复杂性与多样性，例如数千维特征间的相关性、异常模式的任意长度与形态，以及噪声干扰下的半监督学习环境；其二，在构建过程层面，研究团队需在真实Spark集群环境中模拟六类异常事件，同时确保异常事件在轨迹中可见且不导致即时崩溃，并通过领域知识手动标注扩展影响区间，以平衡数据真实性与标注一致性。此外，数据的高维度与高基数特性，以及正常轨迹中因Spark固有机制引入的噪声，进一步增加了数据清洗与评估的复杂性。

常用场景

经典使用场景

在时间序列异常检测领域，Exathlon数据集为高维时序数据的可解释性异常检测提供了首个综合性公共基准。该数据集基于Apache Spark集群上大规模流处理作业的重复执行轨迹构建，涵盖了六类典型异常事件，如突发输入、资源争用和进程故障等。其经典使用场景在于支持半监督学习框架下的范围异常检测，通过提供根因区间和扩展效应区间的真实标签，为算法在复杂多维时序环境中的性能评估奠定了坚实基础。

解决学术问题

Exathlon有效解决了时序异常检测研究中缺乏高质量基准数据的核心瓶颈。该数据集通过系统化构建的真实轨迹与精细标注，支持对高维、噪声环境下范围异常的可解释性检测进行量化评估。其意义在于首次将异常检测与解释发现任务整合于统一框架，推动了从单纯异常识别到因果推断的学术范式演进，为可解释机器学习在时序分析领域的理论深化与方法创新提供了关键实验平台。

实际应用

在工业监控系统中，Exathlon可直接应用于大规模计算集群的指标异常诊断。例如在电商平台的实时流处理作业中，该数据集能够训练模型及时识别输入速率突变、CPU资源争用等运维隐患，并通过可解释性分析定位根因节点。其提供的端到端数据科学管道设计，可帮助工程团队构建自适应异常响应机制，提升分布式系统在复杂负载下的稳定性与运维效率。

数据集最近研究