InfiniteHBD-Trace

github2025-05-21 更新2025-05-24 收录

下载链接：

https://github.com/stepfun-ai/InfiniteHBD-Trace

下载链接

链接失效反馈

官方服务：

资源简介：

该项目开源了来自400台GPU服务器的故障跟踪数据，故障事件影响了多达231台不同的服务器。这些服务器是从包含数百个节点和数千个GPU的GPU集群中随机选取的。数据集覆盖了从2024年3月30日开始的348天的故障数据，主要用于支持大规模大型语言模型（LLM）的预训练，并为仿真实验提供真实的容错测试数据。数据集已被用于InfiniteHBD项目，其中包括详细的统计分析。

This project has open-sourced fault tracking data from 400 GPU servers, with fault events impacting up to 2^31 distinct servers. The servers were randomly selected from a GPU cluster containing hundreds of nodes and thousands of GPUs. The dataset covers 348 days of fault data starting from March 30, 2024, and is primarily used to support the pre-training of large-scale LLMs and to provide real fault-tolerance test data for simulation experiments. The dataset has been utilized in the InfiniteHBD project, including detailed statistical analysis.

创建时间：

2025-05-21

原始信息汇总

InfiniteHBD-Trace 数据集概述

数据集基本信息

数据来源：400台GPU服务器的故障追踪数据，涉及231台独立服务器
时间范围：2024年3月30日起的348天故障数据
应用场景：大规模语言模型(LLM)预训练工作负载的GPU集群
学术成果：已被ACM SIGCOMM 2025接收（论文链接：https://arxiv.org/abs/2502.03885）

文件组成

fault_trace.json：故障追踪数据集
fault_statistics.json：故障类型的分层统计（包含原始计数）
README.md：项目文档

数据结构

字段说明

node_id：节点UUID标识符（已匿名化）
event_time：相对时间（单位：天，按首个事件计算）
event_type：
- fault_start：故障开始（节点不可用）
- fault_end：故障结束（节点恢复）
fault_type：
- Level：故障大类（如硬件/软件故障）
- Class：具体故障类型（如GPU/NIC等）
- Desc：详细故障描述

故障类型统计（百分比）

故障大类	具体类型	占比(%)
硬件故障	GPU	27.05
	参数平面电缆	6.85
	NIC	5.14
	电源供应	4.45
	风扇	5.65
	小计	51.03
软件故障	其他故障	2.05
	文件系统	0.51
	小计	4.11
其他故障	未知错误	24.66
	压力测试失败	16.61
	小计	44.86

引用格式

bibtex @misc{shou2025infinitehbdbuildingdatacenterscalehighbandwidth, title={InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers}, author={Chenchen Shou et al.}, year={2025}, eprint={2502.03885}, archivePrefix={arXiv}, primaryClass={cs.NI} }

搜集汇总

数据集介绍

构建方式

InfiniteHBD-Trace数据集构建于大规模GPU集群的实际运行环境，覆盖了400台GPU服务器在348天内的故障事件记录。数据采集采用随机抽样策略，从包含数千个节点的集群中选取231台代表性服务器，通过实时监控系统捕获硬件故障、软件异常等事件。所有事件以JSON格式结构化存储，包含精确的时间戳、节点标识符和三级分类的故障类型描述，确保了数据的可追溯性和分析深度。数据集的时间跨度和规模为研究大语言模型预训练中的容错机制提供了真实场景下的基准。

特点

该数据集的核心价值在于其真实性和层次化的故障分类体系。数据记录了51.03%的硬件故障、4.11%的软件故障以及44.86%的其他异常，其中GPU相关故障占比达27.05%，精准反映了LLM预训练场景的典型痛点。每个事件包含故障起始/终止状态、相对时间坐标和三级分类标签（Level-Class-Desc），这种细粒度标注支持多维度的失效模式分析。所有节点信息经过匿名化处理，在保护隐私的同时完整保留了故障序列的时空特征。

使用方法

研究者可通过解析fault_trace.json文件获取原始故障序列，结合fault_statistics.json中的统计摘要快速把握数据分布。典型应用场景包括：模拟不同容错算法在真实故障模式下的表现，分析硬件失效的时间相关性，或构建预测性维护模型。使用时需注意事件时间单位为相对天数，节点ID已做匿名化处理。建议配合配套论文中的统计方法，对GPU相关故障和未知错误（占比24.66%）进行重点分析，以优化LLM训练集群的可靠性设计。

背景与挑战

背景概述

InfiniteHBD-Trace数据集由Chenchen Shou等研究人员于2025年构建，旨在为大规模GPU集群的故障容错研究提供真实世界的数据支持。该数据集收录了400台GPU服务器在348天内的故障事件，涉及231台独立服务器，覆盖硬件故障、软件故障及其他未知错误等多种类型。作为ACM SIGCOMM 2025的收录成果，其核心研究问题聚焦于提升大型语言模型（LLM）预训练任务中的系统可靠性，为数据中心级高带宽域（High-Bandwidth Domain）的容错机制设计提供了实证基础。数据集通过光学电路交换收发器等创新技术的应用，显著推动了分布式计算环境下故障预测与恢复策略的研究进展。

当前挑战

该数据集解决的领域挑战在于如何准确识别和分类GPU集群中的多模态故障，尤其是硬件故障（如GPU错误、电源问题）与软件故障（如文件系统崩溃）的交叉影响。构建过程中的主要困难包括：1) 故障事件的时间对齐与匿名化处理，需平衡数据隐私与科研价值；2) 异构故障类型的标准化描述，需建立层级分类体系以涵盖从硬件组件到系统级崩溃的细粒度场景；3) 数据采集的连续性保障，在长达348天的监测周期中需克服传感器漂移与日志丢失等问题。

常用场景

经典使用场景

在分布式计算与高性能计算领域，InfiniteHBD-Trace数据集为大规模GPU集群的故障模拟与分析提供了关键数据支持。该数据集记录了400台GPU服务器在348天内的故障事件，涵盖硬件故障、软件故障及其他异常情况，为研究人员提供了真实的故障模式与时间分布。其经典使用场景包括构建故障注入实验平台，评估容错算法在LLM预训练任务中的有效性，以及验证分布式系统在硬件异常下的鲁棒性。

衍生相关工作

该数据集已催生多项创新性研究，包括基于强化学习的动态检查点放置算法（InfiniteCheckpoint）、故障感知的GPU资源调度框架（FaultScheduler）等。在SIGCOMM 2025会议上，相关团队进一步提出了光学电路交换容错架构，其核心验证数据即来源于此。这些工作共同构成了新一代高带宽域LLM训练基础设施的理论基础。

数据集最近研究