five

LO2: Microservice API Anomaly Dataset of Logs and Metrics

收藏
arXiv2025-04-16 更新2025-04-18 收录
下载链接:
http://arxiv.org/abs/2504.12067v1
下载链接
链接失效反馈
官方服务:
资源简介:
LO2数据集是由芬兰奥卢大学和赫尔辛基大学的研究人员提供的微服务API异常检测数据集,包含日志、度量和跟踪信息。该数据集通过在商业级生产微服务系统Light-OAuth2上执行各种API测试生成,旨在支持微服务系统中异常检测和架构退化的研究。数据集包含了大约657,000个日志文件,超过两亿行日志数据,以及4500万个度量文件,含有485种独特的度量。

The LO2 Dataset is a microservice API anomaly detection dataset curated by researchers from the University of Oulu and the University of Helsinki, Finland. It encompasses log, metric, and tracing information, and is generated by conducting various API tests on the commercial-grade production microservice system Light-OAuth2. This dataset aims to support research on anomaly detection and architectural degradation in microservice systems, and contains approximately 657,000 log files, over 200 million lines of log data, 45 million metric files, as well as 485 distinct metrics.
提供机构:
芬兰奥卢大学, 芬兰赫尔辛基大学
创建时间:
2025-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
LO2数据集构建采用动态测试方法,基于生产级开源微服务系统Light-OAuth2实现。研究团队通过Locust工具模拟OAuth2.0协议下的API调用,设计了包含正确调用和53种错误场景的测试套件。在1740次独立测试运行中,通过Docker日志、Prometheus指标和Jaeger追踪三模态采集系统,共收集了657,000个日志文件(含20亿日志行)和4,500万指标文件,测试过程严格遵循每小时定时执行的标准化流程,确保数据时序一致性。
特点
该数据集的核心价值在于其多模态特性和真实生产环境属性。作为目前少数同时包含日志、指标和追踪数据的开源数据集,其485种主机指标和完整调用链日志为研究微服务异常检测提供了多维分析基础。特别值得注意的是,数据集通过精细标注的53种API错误类型(如400/404状态码)构建了细粒度异常场景,且所有数据均来自实际OAuth2.0协议实现,相较于同类基准数据集具有更高的工业实践参考价值。日志数据采用DEBUG级别完整记录,指标采集频率达5秒/次,形成了高精度时间序列。
使用方法
使用LO2数据集时,建议采用分阶段分析策略。研究人员可通过提供的Python脚本包直接加载预处理后的JSON格式指标和CSV格式追踪数据。对于日志分析,推荐使用配套的LogLead工具进行特征提取和异常检测建模,其中决策树模型在初步实验中展现最佳效果(F1=0.72)。多模态融合研究可依据时间戳对齐日志事件与性能指标波动,重点关注Token服务日志与内存相关指标(如AnonPages字节)的关联模式。数据集已按FAIR原则在Zenodo平台发布,包含完整的数据字典和示例代码。
背景与挑战
背景概述
LO2: Microservice API Anomaly Dataset of Logs and Metrics是由Alexander Bakhtin、Jesse Nyyssölä等研究人员于2025年提出的一个多模态微服务系统监控数据集。该数据集基于生产级开源微服务系统Light-OAuth2构建,旨在支持微服务架构中的异常检测和架构退化研究。数据集包含约657,000个日志文件和超过45百万个指标文件,涵盖了标准OAuth2.0协议流程和CRUD操作的正确与错误调用场景。该数据集的创新性在于其采用了真实生产环境下的开源系统,而非传统的基准测试系统,为研究社区提供了更接近实际应用场景的数据资源。
当前挑战
LO2数据集面临的主要挑战包括两方面:在领域问题方面,微服务异常检测需要处理多源异构数据(日志、指标、追踪)的融合问题,以及跨服务异常传播的分析难题;在构建过程方面,研究团队遇到了追踪数据采集不完整的挑战,由于系统未实现细粒度的追踪功能,导致无法获取完整的调用链信息。此外,数据规模庞大(原始数据约540GB)也带来了存储和处理上的挑战。另一个关键挑战是如何在保持数据真实性的同时,设计有效的错误注入策略来模拟各种异常场景。
常用场景
经典使用场景
在微服务架构的研究中,LO2数据集为多模态异常检测提供了重要支持。该数据集通过整合日志、指标和追踪数据,为研究者提供了一个全面分析微服务系统行为的平台。特别是在OAuth2.0协议的应用场景中,LO2数据集能够模拟真实生产环境中的API调用异常,为微服务系统的稳定性和可靠性研究提供了丰富的数据基础。
实际应用
在实际应用中,LO2数据集可用于优化微服务系统的监控和运维流程。企业可以利用该数据集训练机器学习模型,实时检测系统中的API调用异常,从而快速定位和修复问题。此外,数据集还可用于测试和验证新的监控工具和框架,提升微服务系统的整体性能和稳定性。
衍生相关工作
LO2数据集已衍生出多项经典研究,包括基于深度学习的多模态异常检测算法和微服务系统根因分析方法。例如,研究者利用该数据集开发了结合日志和指标数据的融合模型,显著提升了异常检测的准确率。此外,数据集还被用于评估多种开源和商业监控工具的性能,推动了微服务监控技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作