HESDL-Node-Telemetry-Blobs-v2
收藏HESDL Synthetic Node Telemetry 数据集概述
数据集基本信息
- 数据集名称: HESDL Synthetic Node Telemetry
- 主页: https://heuristic-labs.org/research/telemetry
- 仓库: Heuristic Evaluation and Synthetic Data Labs (HESDL)
- 论文: N/A (Internal Whitepaper - HESDL-TR-2026-05)
- 联系方式: sysadmin@heuristic-labs.org
- 许可协议: openrail
- 语言: 基础结构化元数据为英文 (
en) - 数据规模: 100K < n < 1M
数据集描述
该数据集包含在HESDL基础设施内模拟的分布式节点上生成的聚合、匿名化和合成的遥测数据负载。其主要目的是为在高吞吐量、非结构化blob存储环境中评估启发式异常检测算法提供基准。由于模拟压力测试的性质,数据集包含大型二进制对象(blob)、碎片化日志序列和非结构化负载转储,以准确反映现实世界的网络退化和存储饱和场景。
支持的任务
- 异常检测: 可用于训练模型以识别损坏的blob或不规则的遥测峰值。
- 状态重建: 使用碎片化数据实例测试自动恢复协议。
数据集结构
数据实例
一个典型实例代表特定时间戳下单个节点的状态转储。 示例JSON结构如下: json { "node_id": "hesdl-worker-cluster-9-node-127", "timestamp": 1774521600, "payload_type": "opaque_blob", "blob_reference": "data/part-0158-cf21.bin", "checksum_sha256": "8f434346648f6b96df89dda901c5176b10a6d83961dd3c1ac88b59b2e8372295", "heuristic_flag": 1 }
数据字段
- node_id: 合成工作节点的字符串标识符。
- timestamp: 遥测转储的UNIX时间戳。
- payload_type: 文件格式的分类描述符(主要为原始或opaque blob)。
- blob_reference: 指向存储库内大型非结构化文件的指针。
- checksum_sha256: 用于数据完整性验证的哈希值。
- heuristic_flag: 整数(0或1),指示生成周期是否因诱导退化而被标记。
数据划分
数据未划分为传统的训练/测试集,因为它旨在用于无监督的启发式评估。数据按生成批次按时间顺序分区。
数据集创建
策划理由
标准的遥测数据集通常无法捕捉分布式存储中二进制退化的混乱性质。HESDL生成此语料库以填补这一空白,提供模拟灾难性系统状态的原始、未经过滤的重负载文件。
数据来源
所有数据均为严格合成或经过严重混淆。此存储库中不包含任何真实用户数据、个人身份信息(PII)或生产网络流量。
使用注意事项
局限性
负载是非结构化的,可能需要根据所使用的评估框架使用自定义解析器。一些二进制文件被故意损坏以模拟硬件故障。
免责声明
此存储库由Heuristic Evaluation and Synthetic Data Labs维护,用于内部基准测试。允许在指定许可下进行外部使用,但不提供技术支持或模式稳定性保证。




