five

HESDL-Node-Telemetry-Blobs-v2

收藏
Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/heuristic-eval-labs/HESDL-Node-Telemetry-Blobs-v2
下载链接
链接失效反馈
官方服务:
资源简介:
HESDL Synthetic Node Telemetry 数据集包含在 HESDL 基础设施中模拟分布式节点生成的聚合、匿名化和合成的遥测数据。该数据集的主要目的是为评估高吞吐量、非结构化 blob 存储环境中的启发式异常检测算法提供基准。数据集模拟了现实世界中的网络退化和存储饱和场景,包含大型二进制对象(blob)、碎片化日志序列和非结构化有效负载转储。每个数据实例代表特定时间戳下单个节点的状态转储,包含节点 ID、时间戳、有效负载类型、blob 引用、SHA256 校验和和启发式标志等字段。数据集适用于异常检测和状态重建任务,所有数据均为合成或经过严格混淆处理,不包含真实用户数据或生产网络流量。数据集的使用需要注意其非结构化特性,可能需要自定义解析器来处理模拟硬件故障的故意损坏的二进制文件。
创建时间:
2026-03-28
原始信息汇总

HESDL Synthetic Node Telemetry 数据集概述

数据集基本信息

  • 数据集名称: HESDL Synthetic Node Telemetry
  • 主页: https://heuristic-labs.org/research/telemetry
  • 仓库: Heuristic Evaluation and Synthetic Data Labs (HESDL)
  • 论文: N/A (Internal Whitepaper - HESDL-TR-2026-05)
  • 联系方式: sysadmin@heuristic-labs.org
  • 许可协议: openrail
  • 语言: 基础结构化元数据为英文 (en)
  • 数据规模: 100K < n < 1M

数据集描述

该数据集包含在HESDL基础设施内模拟的分布式节点上生成的聚合、匿名化和合成的遥测数据负载。其主要目的是为在高吞吐量、非结构化blob存储环境中评估启发式异常检测算法提供基准。由于模拟压力测试的性质,数据集包含大型二进制对象(blob)、碎片化日志序列和非结构化负载转储,以准确反映现实世界的网络退化和存储饱和场景。

支持的任务

  • 异常检测: 可用于训练模型以识别损坏的blob或不规则的遥测峰值。
  • 状态重建: 使用碎片化数据实例测试自动恢复协议。

数据集结构

数据实例

一个典型实例代表特定时间戳下单个节点的状态转储。 示例JSON结构如下: json { "node_id": "hesdl-worker-cluster-9-node-127", "timestamp": 1774521600, "payload_type": "opaque_blob", "blob_reference": "data/part-0158-cf21.bin", "checksum_sha256": "8f434346648f6b96df89dda901c5176b10a6d83961dd3c1ac88b59b2e8372295", "heuristic_flag": 1 }

数据字段

  • node_id: 合成工作节点的字符串标识符。
  • timestamp: 遥测转储的UNIX时间戳。
  • payload_type: 文件格式的分类描述符(主要为原始或opaque blob)。
  • blob_reference: 指向存储库内大型非结构化文件的指针。
  • checksum_sha256: 用于数据完整性验证的哈希值。
  • heuristic_flag: 整数(0或1),指示生成周期是否因诱导退化而被标记。

数据划分

数据未划分为传统的训练/测试集,因为它旨在用于无监督的启发式评估。数据按生成批次按时间顺序分区。

数据集创建

策划理由

标准的遥测数据集通常无法捕捉分布式存储中二进制退化的混乱性质。HESDL生成此语料库以填补这一空白,提供模拟灾难性系统状态的原始、未经过滤的重负载文件。

数据来源

所有数据均为严格合成或经过严重混淆。此存储库中不包含任何真实用户数据、个人身份信息(PII)或生产网络流量。

使用注意事项

局限性

负载是非结构化的,可能需要根据所使用的评估框架使用自定义解析器。一些二进制文件被故意损坏以模拟硬件故障。

免责声明

此存储库由Heuristic Evaluation and Synthetic Data Labs维护,用于内部基准测试。允许在指定许可下进行外部使用,但不提供技术支持或模式稳定性保证。

搜集汇总
数据集介绍
main_image_url
构建方式
在分布式系统监控领域,模拟真实环境中的异常状态对于算法评估至关重要。HESDL-Node-Telemetry-Blobs-v2数据集通过合成生成的方式构建,其数据源自HESDL基础设施内模拟分布式节点的聚合、匿名化遥测负载。生成过程刻意模拟了高吞吐量、非结构化Blob存储环境下的网络退化与存储饱和场景,包含了大型二进制对象、碎片化日志序列以及非结构化负载转储,以精准反映现实世界中的系统混沌状态。所有数据均经过严格合成或深度混淆处理,确保不包含任何真实用户数据或个人可识别信息,从而为无监督启发式评估提供了安全且可控的基准。
使用方法
该数据集主要服务于无监督的启发式算法评估,因此未按传统方式划分为训练集与测试集,而是依据生成批次进行时间顺序上的分区。使用者可将其应用于异常检测任务,训练模型以识别损坏的二进制对象或不规则的遥测峰值;亦可应用于状态重建任务,测试利用碎片化数据实例的自动化恢复协议。由于数据负载多为非结构化二进制格式,实际使用前需根据所选评估框架准备相应的解析工具。数据集严格遵循开源许可,但需注意其作为内部基准测试资源的定位,不提供技术支持和模式稳定性的保证,建议用户基于其基础设施与合成数据的领域背景进行独立研究与开发。
背景与挑战
背景概述
在分布式系统与基础设施监控领域,高吞吐量环境下的异常检测一直是核心研究议题。HESDL-Node-Telemetry-Blobs-v2数据集由Heuristic Evaluation and Synthetic Data Labs(HESDL)于2026年创建,旨在通过合成数据填补现有遥测数据集的空白。该数据集模拟了分布式节点在存储饱和与网络退化场景下的状态,聚焦于非结构化二进制负载的混沌特性,为启发式异常检测算法提供了基准评估环境。其内部技术报告(HESDL-TR-2026-05)强调了该数据集对系统架构研究与合成数据生成领域的贡献,推动了在无监督环境下对复杂故障模式的探索。
当前挑战
该数据集致力于解决分布式存储环境中二进制数据退化与异常检测的挑战,其核心问题在于如何在高吞吐量、非结构化的数据流中识别损坏负载或不规则遥测峰值。构建过程中的挑战包括生成模拟真实世界混沌状态的合成数据,同时确保数据的匿名性与安全性,避免包含任何真实用户信息。此外,数据集中大量二进制负载的故意损坏与碎片化设计,要求使用者开发定制化解析工具,这增加了算法评估的复杂性与技术门槛。
常用场景
经典使用场景
在分布式系统与基础设施监控领域,HESDL-Node-Telemetry-Blobs-v2数据集为评估启发式异常检测算法提供了基准环境。该数据集模拟了高吞吐量、非结构化存储场景下的节点遥测数据,包含大量二进制对象、碎片化日志序列以及非结构化负载转储,能够精确反映网络退化与存储饱和等真实世界故障状态。研究人员通常利用该数据集进行无监督学习,训练模型识别损坏的二进制块或异常的遥测峰值,从而验证算法在混沌环境下的鲁棒性与准确性。
解决学术问题
该数据集主要解决了分布式系统中异常检测与状态重建的学术研究难题。传统遥测数据集往往难以捕捉二进制数据在存储退化过程中的混沌特性,而HESDL数据集通过合成数据模拟了硬件故障、网络中断等极端场景,填补了这一空白。它为研究者提供了评估启发式算法在非结构化、高噪声环境下性能的标准平台,推动了自动化故障诊断与系统恢复协议的发展,对提升分布式系统的可靠性与韧性具有重要理论意义。
实际应用
在实际应用层面,HESDL数据集广泛应用于云计算平台、大规模数据中心以及边缘计算基础设施的监控系统开发。工程师可利用该数据集测试和优化异常检测管道,提前识别存储节点故障或性能瓶颈,从而预防系统级宕机。此外,它还能用于训练自适应恢复算法,帮助自动化运维工具在真实生产环境中快速重建系统状态,降低人工干预成本,提升基础设施的整体可用性与运维效率。
数据集最近研究
最新研究方向
在分布式系统监控领域,合成遥测数据正成为评估异常检测算法鲁棒性的关键工具。HESDL-Node-Telemetry-Blobs-v2数据集以其模拟的高吞吐量、非结构化二进制负载场景,为研究无监督启发式方法提供了基准平台。当前前沿探索聚焦于利用该数据集训练深度学习模型,以识别存储饱和或网络退化引发的隐蔽异常模式,同时结合状态重构技术优化自动化恢复协议。这一方向与边缘计算和云基础设施的可靠性需求紧密相连,推动了合成数据在模拟极端系统状态中的应用,对提升分布式系统的容错性与可观测性具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作