Hariprasad30/hdfs-logs-encoded-blocks

Name: Hariprasad30/hdfs-logs-encoded-blocks
Creator: Hariprasad30
Published: 2026-04-30 11:47:36
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Hariprasad30/hdfs-logs-encoded-blocks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含预处理过的HDFS日志序列，分为训练集、验证集和测试集，用于异常检测任务。数据集来源于Hadoop分布式文件系统（HDFS）的系统日志，每个序列代表一个日志消息块，标记为正常或异常。数据集使用Drain算法进行预处理，提取结构化字段并识别事件类型。数据字段包括block_id（唯一标识符）、event_encoded（预处理后的日志序列）、tokenized_block（用于训练的标记化日志序列）和label（分类标签，Normal或Anomaly）。数据分割为训练集（460,049序列，80%）、验证集（57,506序列，10%）和测试集（57,506序列，10%），并按标签字段进行了分层。数据集适用于训练日志异常检测模型、评估日志序列预测模型以及基准测试不同的日志异常检测方法。

This dataset contains preprocessed HDFS log sequences split into train, validation, and test sets for anomaly detection tasks. The dataset is derived from the HDFS log dataset, which contains system logs from a Hadoop Distributed File System (HDFS). Each sequence represents a block of log messages, labeled as either normal or anomalous. The dataset has been preprocessed using the Drain algorithm to extract structured fields and identify event types. Data fields include block_id (unique identifier), event_encoded (preprocessed log sequence), tokenized_block (tokenized log sequence for training), and label (classification label, Normal or Anomaly). The data splits are training set (460,049 sequences, 80%), validation set (57,506 sequences, 10%), and test set (57,506 sequences, 10%), stratified by the Label field. The dataset is designed for training log anomaly detection models, evaluating log sequence prediction models, and benchmarking different approaches to log-based anomaly detection.

提供机构：

Hariprasad30

搜集汇总

数据集介绍

构建方式

该数据集源于Hadoop分布式文件系统（HDFS）的运行日志，专为日志驱动的异常检测任务而构建。通过Drain算法对原始日志进行结构化解析，提取事件类型与参数，并采用预训练分词器将日志序列编码为tokenized_block，同时保留event_encoded字段记录处理后的序列与事件标识。数据集按块标识符（block_id）对日志消息进行分组，并依据标签字段（Normal或Anomaly）进行分层抽样，划分为训练集（80%，460,048条）、验证集（10%，57,506条）和测试集（10%，57,507条），确保各子集类别分布一致。

使用方法

数据集可直接加载用于日志异常检测模型的训练与评估，支持序列分类或预测任务。用户可通过block_id定位特定日志块，利用label字段进行监督学习，或借助tokenized_block作为输入特征。建议结合预训练语言模型（如GitHub示例中的pythia-14m）对tokenized_block进行下游微调。数据加载时需关注event_encoded与tokenized_block的对应关系，并注意标签分布以适配损失函数设计。原始数据来源为Zenodo，可回溯验证预处理一致性。

背景与挑战

背景概述

在大规模分布式系统中，日志分析是保障系统可靠性的关键手段。由Xu等人于2009年提出的HDFS日志数据集，源自Hadoop分布式文件系统的真实运行记录，已成为日志异常检测领域的经典基准。该数据集通过Drain算法对原始日志进行结构化解析与事件编码，构建了包含块标识符、事件序列及标签（正常/异常）的多字段特征，并按照80%、10%、10%比例划分为训练、验证与测试集，确保类别分布一致。其预处理方式为后续基于深度学习的日志序列建模提供了标准化输入，显著推动了无监督与有监督异常检测方法的发展，成为评估模型泛化能力的重要标杆。

当前挑战

该数据集面临的核心挑战包括：一是日志稀疏性与噪声干扰，真实场景中异常事件占比极低，导致类别严重不平衡，传统检测模型易偏向多数类而遗漏罕见故障模式。二是时序依赖性建模难题，日志序列中事件间存在长距离语义关联，需有效捕捉上下文特征以区分正常波动与系统异常。三是预处理过程中的信息损耗，Drain算法等模板提取方法可能将细微异常模式泛化为常规事件，削弱检测灵敏度。此外，数据集构建时面临大规模日志流的实时解析与存储压力，以及跨版本系统日志的格式不一致问题，增加了迁移学习的难度。

常用场景

经典使用场景

该数据集的核心用途在于日志序列的异常检测，研究者通过将HDFS系统日志按块（block）进行分片与序列化，利用Drain算法提取结构化事件类型，生成标记化的日志序列。结合预训练分词器进行编码后，数据集可直接输入深度学习模型，用于训练基于日志模式的正常与异常二分类任务，成为日志分析领域中最为经典的基准数据集之一。

解决学术问题

在大规模分布式系统中，日志数据因其高维、非结构化和长尾分布的特点，传统规则方法难以有效捕获异常模式。该数据集解决了日志序列异常检测中缺少统一预处理和标准化划分的问题，提供了分层的训练、验证和测试集，支持可复现的模型评估，推动了监督学习、无监督学习以及序列建模方法在系统故障诊断中的研究进展。

实际应用

在实际运维场景中，该数据集可被用于构建自主智能运维系统，通过训练日志异常检测模型，实时监控HDFS集群的运行状态，快速定位异常数据块。同时，它也被用于评估云服务环境中日志预测与根因分析系统的性能，帮助工程师在大规模日志洪流中筛选出关键故障信息，显著降低人工排查成本。

数据集最近研究