PetShop Dataset
收藏arXiv2024-04-09 更新2024-06-21 收录
下载链接:
https://github.com/amazon-science/petshop-root-cause-analysis
下载链接
链接失效反馈官方服务:
资源简介:
PetShop Dataset是由亚马逊公司开发的一个专门用于评估微服务架构中性能问题根本原因分析的数据集。该数据集包含了来自分布式应用的延迟、请求和可用性指标,以及68个注入的性能问题,这些问题增加了系统的延迟并降低了可用性。数据集旨在通过提供标准化的数据集来促进根本原因分析技术的进一步发展,帮助研究者专注于方法开发而非数据生成。
The PetShop Dataset is a dataset developed by Amazon specifically for evaluating root cause analysis of performance issues in microservice architectures. This dataset contains latency, request, and availability metrics from distributed applications, as well as 68 injected performance issues that elevate system latency and degrade system availability. It is designed to facilitate the further development of root cause analysis technologies by providing a standardized dataset, helping researchers focus on method development rather than data generation.
提供机构:
亚马逊
创建时间:
2023-11-09
搜集汇总
数据集介绍

构建方式
在微服务架构日益普及的背景下,PetShop数据集的构建旨在为根因分析提供标准化基准。该数据集基于一个包含41个组件的分布式宠物领养网站应用,通过亚马逊云服务基础设施部署。数据采集过程采用系统追踪技术获取服务拓扑图,并利用流量生成器模拟低流量、高流量和时序变化三种用户访问模式。核心构建策略是在正常运营数据基础上,于五个关键微服务节点中注入了68种性能故障,包括请求过载、内存泄漏、CPU占用异常及配置错误等类型。所有指标均以5分钟为间隔采集,涵盖延迟、请求量和可用性三类度量,并标注了故障注入时间与根因节点作为基准真值。
特点
PetShop数据集的显著特征体现在其规模与多样性上。相较于现有基准,该数据集包含超过三倍的微服务组件,并覆盖更广泛的故障类型与流量模式。数据集提供了完整的服务依赖拓扑图,以及标注清晰的故障场景,其中每个故障场景均对应唯一的根因节点。指标数据采用多层级结构存储,便于直接加载与分析。特别值得注意的是,数据集揭示了现有方法在复杂场景下的局限性:在Sock-shop数据集上表现良好的方法在本数据集上可能失效,这凸显了其作为评估基准的挑战性与实用价值。数据集的公开性与可扩展格式也为社区协作与后续研究提供了便利。
使用方法
使用PetShop数据集进行根因分析评估需遵循结构化流程。研究者首先加载服务拓扑图与指标数据,后者包含正常时期与多个故障场景下的时间序列。针对每个故障场景,分析算法需接收目标节点(通常为PetSite)的服务水平目标违规信息,包括指标类型与时间戳。算法输出应为潜在根因节点及其置信度的排序列表。数据集已划分训练集与测试集,支持模型优化与独立性能报告。评估采用Top-1与Top-3召回率指标,以衡量算法准确识别唯一根因的能力。配套工具包提供了标准化的评估函数,确保不同方法间的可比性。
背景与挑战
背景概述
在微服务架构日益普及的云计算时代,系统性能问题的根因分析成为运维领域的核心挑战。PetShop数据集由亚马逊研究院与剑桥大学的研究团队于2024年联合发布,旨在为微服务应用中的性能异常诊断提供标准化评估基准。该数据集基于一个包含41个组件的分布式宠物领养网站应用,采集了延迟、请求量与可用性等指标,并注入了68类涵盖请求过载、内存泄漏、CPU占用及配置错误等典型场景的性能故障。通过提供包含服务依赖图与标注根因的真实场景数据,该数据集填补了微服务根因分析领域缺乏公开基准的空白,为因果推断与机器学习方法的性能评估奠定了实证基础。
当前挑战
PetShop数据集所针对的根因分析问题面临多重挑战:在领域层面,微服务间复杂的依赖关系与动态交互使得异常传播路径难以追溯,传统关联分析方法易受混淆变量与反向因果干扰;同时,实际运维场景中异常数据稀缺,要求算法在有限样本下保持稳定诊断能力。在构建层面,数据集需平衡真实性与可控性:既要通过流量生成器模拟多样化的用户访问模式,又需精确注入可复现的故障类型;此外,服务级别目标的量化标注、多维度指标的时序对齐,以及确保注入故障能有效引发可观测的性能劣化,均对数据工程的严谨性提出了较高要求。
常用场景
经典使用场景
在微服务架构的复杂系统中,根因分析(RCA)是保障服务可靠性的核心挑战。PetShop数据集通过模拟一个包含41个组件的分布式宠物领养应用,提供了涵盖正常与异常操作期的标准化指标数据。该数据集最经典的使用场景是作为基准测试平台,用于系统性地评估和比较不同根因分析方法的性能。研究者可利用其包含的68个注入性能问题(如请求过载、内存泄漏、CPU占用及配置错误)以及对应的真实根因标注,在可控环境下验证算法在识别延迟增加与可用性降低等服务质量违规问题上的准确性与鲁棒性。
实际应用
在实际的云原生应用运维中,快速定位性能问题的根源对于减少平均修复时间、保障业务连续性至关重要。PetShop数据集模拟了真实生产环境中常见的故障模式,其衍生的分析方法可直接应用于在线零售、金融服务等依赖微服务架构的产业场景。工程师可利用基于该数据集验证的RCA工具,自动化地监控系统指标,在出现服务等级目标(SLO)违规时,快速生成潜在根因的优先级列表,从而显著缩短人工排查海量日志与指标的时间,提升运维效率与系统可用性。
衍生相关工作
PetShop数据集的发布催生并连接了一系列关于微服务根因分析的经典研究工作。它与此前基于Sock-shop应用的数据集形成互补与挑战,推动了如CIRCA、RCD、Counterfactual Attribution等方法的进一步测试与比较。该数据集也促进了方法学上的反思,例如实验表明,在数据有限时,简单的基于相关性的排序方法可能优于某些需要学习完整结构因果模型的复杂方法。这些发现激励了后续研究专注于开发在有限数据下稳健、无需已知因果图且能处理非递归模型等更复杂场景的RCA技术。
以上内容由遇见数据集搜集并总结生成



