hookprobe/edge-ids-threats

Name: hookprobe/edge-ids-threats
Creator: hookprobe
Published: 2026-05-01 02:00:12
License: 暂无描述

Hugging Face2026-05-01 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/hookprobe/edge-ids-threats

下载链接

链接失效反馈

官方服务：

资源简介：

HookProbe Edge IDS Threat Telemetry数据集是一个真实世界的匿名威胁判定数据集，来自HookProbe生产边缘入侵检测系统。与合成实验室数据集（如CICIDS2017、UNSW-NB15、Kitsune）不同，这些数据是实际边缘传感器网格在开放互联网上观察到的，并由SENTINEL集合（隔离森林+校准朴素贝叶斯）标记。数据集包含两个主要配置：verdicts（主要数据）和aggregated（派生数据）。verdicts配置包含时间戳、源IP哈希、国家、ASN、异常分数、判定结果和采取的行动等字段。aggregated配置包含按国家/ASN/日聚合的威胁计数和平均异常分数。数据集还详细说明了隐私模型（如IP哈希和时间戳截断）、数据注意事项（如SENTINEL校准窗口的排除和地理/ASN分布的偏差）、引用信息、示例用法、更新频率和联系方式。

The HookProbe Edge IDS Threat Telemetry dataset is a real-world, anonymised threat verdict dataset from the HookProbe production edge intrusion-detection system. Unlike synthetic lab datasets (e.g., CICIDS2017, UNSW-NB15, Kitsune), this data represents what an actual edge sensor mesh observes on the open internet, labeled by the SENTINEL ensemble (isolation forest + calibrated naive-Bayes). The dataset includes two main configurations: verdicts (primary data) and aggregated (derived data). The verdicts configuration contains fields such as timestamp, source IP hash, country, ASN, anomaly score, verdict, and action taken. The aggregated configuration includes threat counts and average anomaly scores aggregated by country/ASN/day. The README also details the privacy model (e.g., IP hashing and timestamp truncation), data caveats (e.g., exclusion of the SENTINEL calibration window and skew in geographic/ASN distributions), citation information, example usage, update frequency, and contact details.

提供机构：

hookprobe

搜集汇总

数据集介绍

构建方式

该数据集名为edge-ids-threats，源自HookProbe生产级边缘入侵检测系统所观测的真实网络威胁判定结果。数据采集依托搭载NAPSE AI原生流量分类器的Raspberry Pi边缘节点，通过SENTINEL集成算法——融合隔离森林与校准朴素贝叶斯——对原始流量进行标注。每条记录经RDAP协议富化，追加来源国家与自治系统编号信息，形成包含时间戳、伪匿名源IP哈希、地理归属、异常评分及九种防御动作在内的结构化时序数据。数据集提供主表与聚合表两种配置：主表以小时为粒度记录单条判定详情，聚合表则以天为周期按国家与ASN统计威胁数量与类别分布，充分反映真实互联网环境下边缘传感器的观测特征。

特点

该数据集的核心特点在于其源自真实生产环境，而非实验室模拟，具备高度生态效度。隐私保护设计严谨，IP地址经项目盐值哈希处理且不公开映射，时间戳截断至小时粒度，杜绝与时序日志的关联攻击，同时不暴露任何载荷内容。标签体系包含良性、可疑与恶意三级分类，并配套0至1的连续异常评分，支持细粒度分析与阈值调优。防御动作涵盖认知层与非认知层共九种决策类型，其中cognitive_*前缀标识由CNO突触控制器作出的判定，丰富了干预策略的语义层次。值得注意的是，数据集中明确标注了2026年2月22日至3月9日的校准窗口因过高误报率而被排除，避免误导下游模型训练。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集。使用load_dataset函数指定仓库名'edge-ids-threats'与配置名称'verdicts'即可获取包含完整判定流的主表，适用于机器学习模型的训练与评估；选择'aggregated'配置则获得按日、国家与ASN预聚合的统计视图，便于分析师进行宏观威胁态势研判。数据集采用CC-BY-4.0许可协议，允许商业与学术用途，仅需标注出处。每月首日UTC时间02:00新增上月数据，每季度发布重大更新并附赠威胁景观报告。更多细节与问题反馈可访问HookProbe官方网站或其HuggingFace讨论区。

背景与挑战

背景概述

边缘计算环境的迅猛发展催生了轻量级入侵检测系统的迫切需求，然而现有数据集多源自模拟实验环境，难以反映真实网络流量的复杂多变性。2026年，由HookProbe安全研究团队创建的edge-ids-threats数据集，基于其生产级边缘入侵检测系统HookProbe，通过部署在树莓派边缘节点上的NAPSE AI流分类器，结合SENTINEL集成模型（隔离森林与校准朴素贝叶斯），捕获了开源互联网上的实际恶意研判数据。该数据集包含超过50万条带标签的威胁判决记录，涵盖恶意、可疑与良性三类标签，并附有九种认知防御层动作，为边缘计算威胁感知研究提供了弥合模拟与现实鸿沟的关键资源，在工业界与学术界均引发了广泛关注。

当前挑战

该数据集所解决的领域挑战在于：现有入侵检测数据集（如CICIDS2017、UNSW-NB15）均基于实验室合成流量，忽略了真实部署环境中流量分布的极端偏斜与对抗性噪声，导致模型在开放网络场景中泛化能力严重不足。edge-ids-threats通过实际传感器阵列观测，直接呈现了边缘节点所遭遇的真实威胁分布。然而，其构建过程中面临双重挑战：一是单节点传感器的地理与ASN分布存在显著偏差，仅能反映特定部署目标的攻击面，无法代表全球基线；二是SENTINEL校准窗口期内（2026-02-22至2026-03-09）曾出现约98%的误报率，若将这段异常数据纳入训练将误导模型。此外，为保护隐私，IP采用单向哈希处理且时间戳截断至小时级，虽然保障了纵向分析的可能，却削弱了时序粒度与攻击溯源能力。

常用场景

经典使用场景

在网络安全领域，真实世界入侵检测数据的稀缺长期制约着机器学习模型的泛化能力。edge-ids-threats数据集源自生产环境中的HookProbe边缘入侵检测系统，记录了边缘传感器网格在开放互联网上观测到的真实威胁判定结果。该数据集最经典的使用场景是作为监督式入侵检测分类任务的训练与评估基准，研究人员可利用其提供的恶意、可疑、良性三类标签及0-1范围的异常分数，构建基于表格特征的分类模型。此外，其时间戳结构支持时间序列预测场景，可对威胁态势进行趋势分析与预警建模，弥补了传统合成数据集CICIDS2017等缺乏实地标注的局限。

衍生相关工作

基于该数据集的独特性，已衍生出一系列推进边缘安全智能化的经典工作。研究人员利用其时间序列特性，开发了结合长短期记忆网络与注意力机制的威胁预测框架，实现了对小时级恶意流量突增的早期预警。另一方向是跨域迁移学习方法的涌现：由于数据集包含地理位置与ASN等上下文特征，学者们设计了域自适应分类器，使得在一个边缘节点上训练的模型能够泛化至不同区域的节点，缓解了数据分布的异构性问题。此外，认知动作标签催生了威胁响应策略优化研究，有工作将动作选择建模为部分可观测马尔可夫决策过程，利用真实决策序列训练强化学习代理，以实现自适应安全编排。

数据集最近研究