Cloud Monitoring Dataset
收藏github2024-01-24 更新2024-05-31 收录
下载链接:
https://github.com/microsoft/cloud-monitoring-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Cloud Monitoring Dataset是一套来自微软服务和客户端遥测信号的实际时间序列数据集。数据集包含由专家手动标记的异常模式,用于开发、评估和改进微软云监控工具中的异常检测算法。
The Cloud Monitoring Dataset is a collection of real-world time series data derived from telemetry signals of Microsoft services and clients. This dataset encompasses anomaly patterns that have been meticulously annotated by experts, serving as a foundational resource for the development, evaluation, and enhancement of anomaly detection algorithms within Microsoft's cloud monitoring tools.
创建时间:
2019-01-30
原始信息汇总
Cloud Monitoring Dataset 概述
数据集描述
- 名称: Cloud Monitoring Dataset
- 来源: 由Microsoft服务和客户端遥测信号产生的真实世界时间序列数据集。
- 目的: 用于开发、评估和改进Microsoft云监控工具中的异常检测算法。
- 特点: 包含由专家手动标记的异常模式。
数据域
- 数量: 包含67个真实世界时间序列。
- 域: 涵盖8个领域,包括在线服务、Windows PC等。
- 具体域:
- 商店购买计数按客户端类型
- 数据库查询率按集群中的单个机器
- 数据库查询率按应用程序上下文
- 服务API查询率
- 服务API延迟
- Windows应用程序崩溃率按操作系统版本和国家
- Web应用查询率到服务API
- 数据粒度: 按分钟或小时记录。
数据集格式
- 文件类型: CSV格式。
- 字段:
- TimeStamp: ISO 8601日期格式,可选时区。
- Value: 时间序列指标的数值,整数或浮点数。
- Label: 标记是否为异常,1表示异常,0表示非异常。
注释
- 伴随文件: 每个CSV文件附带一个JSON文件,描述时间序列,遵循CSVW标准。
搜集汇总
数据集介绍

构建方式
Cloud Monitoring Dataset的构建基于微软服务和客户端遥测信号的真实时间序列数据,涵盖了从在线服务到Windows PC等8个领域的67个时间序列。数据采集自微软生产环境中的服务遥测,时间粒度根据具体序列分为每分钟或每小时。异常模式由领域专家手动标注,部分序列未标注异常,用于测试算法避免误报的能力。项目还开发了专门的标注工具,确保标注过程的准确性和一致性。
特点
该数据集的特点在于其多样性和真实性,涵盖了多个领域的实际应用场景,如数据库查询率、服务API延迟、Windows应用崩溃率等。每个时间序列均以CSV格式存储,包含时间戳、数值和异常标签三个字段,异常标签由领域专家根据专业知识标注。此外,每个CSV文件还附带一个遵循CSVW标准的JSON文件,提供时间序列的详细描述,增强了数据的可解释性和使用便利性。
使用方法
使用Cloud Monitoring Dataset时,用户可通过CSV文件加载时间序列数据,结合JSON文件中的描述信息,深入理解数据背景。数据集适用于开发和评估异常检测算法,用户可利用标注的异常点进行模型训练和验证,同时通过未标注异常的时间序列测试算法的误报率。数据集的时间序列格式和标注信息为研究人员提供了丰富的实验素材,助力于提升云监控工具的异常检测能力。
背景与挑战
背景概述
Cloud Monitoring Dataset是由微软公司基于其服务和客户端遥测信号构建的真实世界时间序列数据集,旨在开发和评估异常检测算法。该数据集创建于2018年,涵盖了从在线服务到Windows PC等8个领域的67条时间序列数据。每条时间序列均经过领域专家手动标注异常点,确保了数据的高质量和可靠性。该数据集不仅为微软的云监控工具提供了重要的技术支持,还为学术界和工业界在异常检测领域的研究提供了宝贵的资源。通过引入无异常标签的时间序列,该数据集进一步推动了算法在减少误报方面的优化。
当前挑战
Cloud Monitoring Dataset在解决异常检测问题时面临多重挑战。首先,异常检测本身具有高度复杂性,尤其是在多领域、多维度的时间序列数据中,如何准确识别异常点并避免误报成为核心难题。其次,数据集的构建过程中,专家标注的准确性和一致性至关重要,但不同领域的异常模式差异较大,标注过程需要耗费大量时间和精力。此外,数据的时间粒度(每分钟或每小时)对算法的实时性和计算效率提出了更高要求。最后,如何在保证数据隐私和安全的前提下,充分利用生产环境中的遥测数据,也是数据集构建过程中需要克服的重要挑战。
常用场景
经典使用场景
Cloud Monitoring Dataset 在云计算监控领域具有广泛的应用,特别是在异常检测算法的开发与评估中。该数据集包含了来自微软服务和客户端遥测信号的真实时间序列数据,涵盖了从在线服务到Windows PC的多个领域。研究人员和工程师可以利用这些数据来训练和测试异常检测模型,从而提高云服务的稳定性和可靠性。
衍生相关工作
基于 Cloud Monitoring Dataset,许多经典的异常检测算法和工具得以开发和完善。例如,研究人员利用该数据集提出了多种基于机器学习和深度学习的异常检测模型,这些模型在学术界和工业界都得到了广泛应用。此外,该数据集还促进了异常检测领域的标准化研究,推动了相关技术的进一步发展。
数据集最近研究
最新研究方向
在云计算监控领域,异常检测算法的优化与提升一直是研究的核心议题。Cloud Monitoring Dataset作为微软服务与客户端遥测信号的真实时间序列数据集,为这一领域提供了宝贵的研究资源。该数据集涵盖了从在线服务到Windows PC的8个不同领域,共计67条时间序列,每条序列均经过专家手动标注异常点,确保了数据的准确性与可靠性。近年来,随着云计算服务的广泛应用,如何高效识别并处理异常数据成为保障系统稳定运行的关键。该数据集不仅为开发新型异常检测算法提供了实验平台,还通过包含无异常标签的时间序列,帮助研究者评估算法在避免误报方面的性能。结合机器学习与深度学习技术,研究者们正致力于探索更精准、更高效的异常检测模型,以应对日益复杂的云服务环境。这一研究方向不仅推动了云计算监控技术的进步,也为相关领域的安全与稳定性提供了有力支持。
以上内容由遇见数据集搜集并总结生成



