LLM Service Outages and Incidents Dataset

Name: LLM Service Outages and Incidents Dataset
Creator: 阿姆斯特丹自由大学
Published: 2025-01-22 03:37:48
License: 暂无描述

arXiv2025-01-22 更新2025-01-24 收录

下载链接：

https://zenodo.org/records/14018219

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由阿姆斯特丹自由大学的研究团队创建，旨在分析大型语言模型（LLM）服务的故障和恢复过程。数据集涵盖了8个常用的LLM服务，包括OpenAI的ChatGPT、DALL·E、Playground，Anthropic的Claude、Console，以及Character.AI的服务。数据集包含从2021年至2024年的长期故障和恢复数据，记录了故障次数、故障持续时间、故障恢复时间等关键指标。数据来源主要为LLM服务提供商公开的故障报告和用户反馈。该数据集的应用领域包括LLM系统的可靠性分析、故障恢复优化以及服务质量提升，旨在帮助研究人员和开发者更好地理解和改进LLM系统的稳定性与性能。

This dataset was developed by a research team at Vrije Universiteit Amsterdam to analyze the failure and recovery processes of Large Language Model (LLM) services. It covers eight widely utilized LLM services, including OpenAI's ChatGPT, DALL·E, and Playground, Anthropic's Claude and Console, as well as services provided by Character.AI. The dataset contains long-term failure and recovery data spanning from 2021 to 2024, recording key metrics such as the number of failures, failure duration, and recovery time. The data is primarily sourced from public failure reports and user feedback released by LLM service providers. The application areas of this dataset include reliability analysis of LLM systems, failure recovery optimization, and service quality enhancement, with the goal of assisting researchers and developers in better understanding and improving the stability and performance of LLM systems.

提供机构：

阿姆斯特丹自由大学

创建时间：

2025-01-22

搜集汇总

数据集介绍

构建方式

该数据集通过收集和整理来自OpenAI、Anthropic和Character.AI等三大主要LLM服务提供商的公开故障报告和事件数据构建而成。研究人员使用自动化工具从这些提供商的公共状态页面和事件页面中提取数据，涵盖了8个常用的LLM服务。数据收集时间跨度从2021年2月到2024年8月，确保了数据的长期性和全面性。数据集经过清洗和转换，生成了包括故障恢复时间（MTTR）、故障间隔时间（MTBF）等关键指标在内的详细数据集。

特点

该数据集的特点在于其全面性和多样性。首先，它涵盖了多个主流LLM服务，包括OpenAI的ChatGPT、DALL·E、Playground，Anthropic的Claude、Console，以及Character.AI的服务。其次，数据集不仅记录了故障的发生时间，还详细描述了故障恢复的各个阶段，如调查、识别、修复和监控等。此外，数据集还包含了故障的周期性分析、故障共现性分析以及服务可用性分析，为研究LLM服务的可靠性和故障恢复机制提供了丰富的信息。

使用方法

该数据集可用于多个研究领域，包括LLM服务的可靠性分析、故障恢复机制优化以及服务可用性预测。研究人员可以通过分析MTTR和MTBF等指标，评估不同LLM服务的故障恢复效率。此外，数据集中的时间序列分析功能可以帮助识别故障的周期性模式，从而为服务提供商的运维策略提供参考。对于开发者而言，该数据集还可以用于构建故障预测模型，帮助优化LLM系统的设计和部署。数据集以FAIR原则公开，研究人员可以通过Zenodo和GitHub获取数据和相关代码，以便进行进一步的分析和扩展研究。

背景与挑战

背景概述

随着大型语言模型（LLM）如ChatGPT、DALL·E和Claude的广泛应用，公众对其服务中断和故障恢复过程的理解需求日益增加。2022年至2024年间，阿姆斯特丹自由大学的研究团队Xiaoyu Chu等人首次对公共LLM服务的中断和故障恢复进行了系统的实证研究。该研究收集了来自OpenAI、Anthropic和Character.AI等三大主要LLM提供商的8个常用服务的数据，分析了故障恢复的统计特性、时间模式、共现性以及中断事件的影响范围。研究揭示了OpenAI的ChatGPT故障恢复时间较长但发生频率较低，而Anthropic的Claude则相反。此外，OpenAI和Anthropic的服务故障表现出强烈的周和月周期性。该研究为LLM系统的构建和使用提供了优化依据，相关数据和代码已在Zenodo和GitHub上公开。

当前挑战

LLM服务中断数据集的研究面临多重挑战。首先，LLM服务的故障数据缺乏长期的纵向记录，理想情况下，社区应能访问大量经过类似整理的故障数据集，以便在同一故障模型下进行长期分析。其次，现有研究缺乏对公共LLM服务故障的全面分析，包括故障的通用特性（如平均故障间隔时间MTBF和平均恢复时间MTTR）以及LLM操作中恢复过程各阶段的时间消耗。此外，构建数据集时，研究者需克服数据收集的复杂性，尤其是在处理动态页面和自动化数据提取时，可能遇到网络问题、页面布局变化等技术难题。这些挑战不仅影响了数据的完整性和准确性，也限制了故障模型的深入分析和优化。

常用场景

经典使用场景

LLM Service Outages and Incidents Dataset 主要用于分析和理解大型语言模型（LLM）服务的中断和故障恢复过程。该数据集涵盖了多个主流LLM服务的中断事件和故障恢复数据，帮助研究人员深入探讨LLM服务的可靠性、故障恢复时间（MTTR）和故障间隔时间（MTBF）等关键指标。通过该数据集，研究人员可以识别故障的周期性模式、故障的共现性以及不同服务提供商之间的故障恢复表现差异。

实际应用

在实际应用中，该数据集为LLM服务提供商和用户提供了宝贵的参考信息。服务提供商可以通过分析故障数据，优化其系统的故障恢复流程，减少服务中断时间，提升用户体验。对于依赖LLM服务的企业和开发者，该数据集可以帮助他们更好地规划故障容忍策略，选择更可靠的服务提供商，减少因服务中断带来的经济损失。

衍生相关工作

该数据集衍生了一系列相关研究工作，尤其是在LLM服务故障恢复和系统优化领域。基于该数据集的研究成果，许多学者进一步探索了LLM服务的故障预测模型、故障隔离机制以及多服务备份策略。此外，该数据集还推动了LLM服务故障恢复标准的制定，促进了LLM系统在云计算和大规模分布式环境中的应用优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集