Cloud Incident Reports Dataset

Name: Cloud Incident Reports Dataset
Creator: 阿姆斯特丹自由大学; 阿姆斯特丹大学; 代尔夫特理工大学
Published: 2026-03-18 01:20:55
License: 暂无描述

arXiv2026-03-18 更新2026-03-19 收录

下载链接：

https://github.com/atlarge-research/llm-cloud-incident-extraction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由阿姆斯特丹自由大学等机构联合构建，收录了AWS、Azure和GCP三大云服务商2016-2024年间的3087份事故报告。数据集平均每份报告含500余词，包含服务名称、地理位置、时间戳等10类结构化字段，通过网页爬取和人工标注方式构建。研究团队采用K-means聚类抽样和多人交叉标注流程确保数据质量，该数据集可用于云计算可靠性分析、根因诊断等AIOps场景，为LLM在IT运维领域的结构化信息抽取提供基准测试资源。

This dataset was jointly constructed by institutions including Vrije Universiteit Amsterdam and other partners through web crawling and manual annotation. It includes 3087 incident reports from three leading cloud service providers, AWS, Azure and GCP, covering the period from 2016 to 2024. Each report contains an average of over 500 words, and encompasses 10 categories of structured fields such as service name, geographic location and timestamp. The research team adopted K-means clustering sampling and multi-person cross-annotation procedures to ensure data quality. This dataset can be applied to AIOps scenarios such as cloud computing reliability analysis and root cause diagnosis, and provides benchmark resources for structured information extraction tasks of Large Language Models (LLMs) in the field of IT operations.

提供机构：

阿姆斯特丹自由大学; 阿姆斯特丹大学; 代尔夫特理工大学

创建时间：

2026-03-18

原始信息汇总

数据集概述

数据集来源

数据集存储地址：https://zenodo.org/records/14010282

数据集内容与结构

该数据集用于支持“使用大型语言模型（LLM）进行云事件报告数据提取”的研究。数据集包含来自主要云服务提供商的事件报告。

数据目录结构

数据集文件按处理阶段组织在 data/ 目录下：

1_raw_data/：原始事件报告。
2_clean_data/：经过处理的干净数据。
3_sample_data/：通过K-means聚类采样的数据。
4_label_data/：用于评估的标注数据。

数据覆盖范围

数据涵盖以下云服务提供商：

AWS
AZURE
GCP

数据处理与用途

数据处理脚本 data_process.py 用于完成数据清洗、处理和采样。
该数据集旨在用于评估不同提示策略下，多种大型语言模型（如GPT、Claude、Gemini）从云事件报告中提取信息的性能。
数据集支持完整的实验流程，包括数据提取、结果评估以及论文中图表和表格的生成。

相关文件

项目配置文件：config.yaml（包含API密钥和模型设置）。
项目依赖：requirements.txt。

搜集汇总

数据集介绍

构建方式

在云计算服务可靠性研究领域，公开的云事故报告是理解系统故障与恢复过程的关键资源，但其非结构化特性阻碍了系统性分析。为应对这一挑战，Cloud Incident Reports Dataset的构建采用了严谨的多阶段流程。研究团队从AWS、Azure和GCP三大主流云服务提供商公开平台，系统性地爬取并归档了2016年至2024年间超过3000份事故报告网页。随后，通过数据清洗与格式统一处理，将原始的HTML文件转化为结构化的Parquet格式数据集。为确保评估的可靠性，研究者采用K-means聚类方法从海量报告中选取代表性样本，并组织具备计算机系统背景的研究人员，遵循严格的标注流程，对样本中包括服务名称、时间、症状类别、根本原因等在内的十个关键字段进行人工标注，最终形成了包含460份标注数据的基准测试集，为后续大语言模型的信息提取性能评估提供了高质量的 ground truth。

使用方法

该数据集主要服务于基于大语言模型的云事故报告结构化信息提取研究。使用者可依托论文开源的工具箱，构建从提示工程到模型评估的完整分析流程。具体而言，研究可围绕论文设计的六种提示策略展开，这些策略系统组合了任务描述、思维链、分类指令、上下文示例及输出格式等组件，用以探究不同提示组件对提取准确性的影响。在模型选择上，数据集支持对GPT、Claude、Gemini系列等不同规模与性能的大语言模型进行横向对比，评估其在准确性、延迟和令牌成本等多维指标上的权衡。通过将原始报告输入至配置好的提示模板与大语言模型，研究者可获得结构化的JSON格式提取结果，并将其与人工标注的基准真值进行比较，从而系统性评估模型性能。该数据集与方法的结合，为自动化云事故分析、根因归类及长期可靠性改进等下游任务提供了可复现的实验基础与方法论指导。

背景与挑战

背景概述

云事故管理是保障云计算服务可靠性与可用性的核心环节，云服务提供商通常通过公开事故报告来总结故障与恢复过程，以降低事故影响。然而，这些报告往往篇幅冗长且结构松散，难以直接用于系统性分析与长期可靠性改进。为应对这一挑战，阿姆斯特丹自由大学、阿姆斯特丹大学及代尔夫特理工大学的研究团队于2026年合作构建了Cloud Incident Reports Dataset。该数据集汇集了自2016年至2024年间来自AWS、Azure和GCP三大主流云服务商的逾3000份公开事故报告，并对其中的460份进行了精细标注，旨在为基于大语言模型的结构化信息抽取提供基准数据。该数据集的建立填补了云事故分析领域公开标注数据的空白，为自动化事故根因分析、服务可靠性评估及智能运维研究奠定了重要基础。

当前挑战

该数据集致力于解决云事故报告信息抽取与结构化分析的核心难题，其挑战主要体现在两个方面：在领域问题层面，云事故报告通常以非结构化文本形式呈现，包含服务名称、时间、症状描述、根因等多类异质信息，传统基于规则或手动抽取的方法难以高效、准确地提取关键字段，且缺乏对长期事故模式的统计刻画能力。在构建过程中，研究团队面临数据异构性、标注一致性及评估方法学等多重挑战：不同云服务商的事故报告格式差异显著，平均长度超过500词，增大了统一处理的复杂度；为确保标注质量，需设计严谨的人工标注流程与仲裁机制；同时，如何系统评估不同大语言模型在抽取任务上的准确性、延迟与成本效益，亦缺乏成熟的方法论指导。

常用场景

经典使用场景

在云计算可靠性工程领域，云服务故障报告通常以非结构化的长文本形式存在，这给系统性分析与知识提取带来了巨大挑战。Cloud Incident Reports Dataset 的经典使用场景在于为大型语言模型提供高质量的标注数据，以评估和优化其从复杂报告中提取结构化信息的能力。研究者利用该数据集，能够系统地比较不同提示策略和模型架构在提取服务名称、故障时间、根本原因等关键元数据时的性能表现，从而为自动化信息提取建立可靠的基准。

解决学术问题

该数据集有效解决了云计算运维与人工智能交叉领域的若干核心学术问题。首先，它填补了公开、标注的云故障报告数据集的空白，为基于数据驱动的可靠性研究提供了基础资源。其次，通过系统评估LLMs在信息提取任务中的准确性、延迟和成本，该研究揭示了提示工程与模型选择之间的权衡关系，例如发现轻量级模型在特定场景下能达到与先进模型相媲美的精度但成本显著更低。这为如何高效、经济地将LLMs应用于实际运维数据分析提供了方法论指导。

实际应用

在实际的云服务运维与人工智能运维场景中，该数据集及其相关方法具有直接的应用价值。云服务提供商和大型企业的运维团队可以借鉴其工作流程，自动化处理海量的公开故障报告，快速提取故障模式、影响范围和根本原因分类。这能够显著加速事件复盘过程，辅助构建知识库，并支持长期趋势分析以预测潜在风险。此外，基于提取的结构化数据，可以进一步开发智能诊断与根因推荐系统，提升云服务的整体可用性与故障恢复效率。

数据集最近研究