threat-hunting-soc-fr

Hugging Face2026-02-18 更新2026-02-19 收录

下载链接：

https://huggingface.co/datasets/AYI-NEDJIMI/threat-hunting-soc-fr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专注于威胁狩猎和安全运营中心（SOC）操作的法语双语数据集，由AYI-NEDJIMI Consultants创建。数据集包含五个部分：1) `hunt_hypotheses` - 按MITRE ATT&CK战术组织的威胁狩猎假设（约32条）；2) `siem_queries` - 多平台SIEM检测查询（约30条）；3) `soc_playbooks` - SOC响应操作手册（约15条）；4) `ioc_types` - 威胁指标类型及丰富来源（约15条）；5) `qa` - 关于SOC操作的问答（约80条）。数据集适用于SOC分析师培训、检测工程、威胁狩猎、AI模型微调（如LLM）以及检索增强生成（RAG）等场景。数据规模在1K到10K之间，采用Apache 2.0许可协议。

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在网络安全领域，威胁狩猎与安全运营中心（SOC）操作的专业知识积累至关重要。本数据集由网络安全咨询公司AYI-NEDJIMI Consultants构建，其内容源自该公司在威胁狩猎、检测工程及事件响应等领域的深厚实践经验。数据集以法语为主要语言，通过系统性的知识梳理，将实战经验转化为结构化的数据条目。构建过程遵循了MITRE ATT&CK框架等国际通用标准，确保了技术内容的准确性与权威性，最终形成了涵盖假设、查询、规程、指标和问答五个独立模块的完整知识体系。

使用方法

对于希望利用该数据集的研究者或从业者，可通过Hugging Face的`datasets`库便捷加载。数据集被划分为`hunt_hypotheses`、`siem_queries`、`soc_playbooks`、`ioc_types`和`qa`五个独立子集，允许用户根据具体需求灵活调用特定模块。例如，加载狩猎假设子集后，即可访问其中按战术分类的假设名称、狩猎查询及预期结果等字段。这种设计支持多种应用场景，包括用于训练安全分析人员、作为大型语言模型在网络安全领域微调的专业语料，或构建基于检索增强生成（RAG）的安全知识问答系统。

背景与挑战

背景概述

在网络安全领域，威胁狩猎与安全运营中心（SOC）操作的专业知识积累与标准化实践，是应对日益复杂网络威胁的关键。由AYI-NEDJIMI Consultants创建的Threat Hunting & SOC Operations - Dataset Francais数据集，聚焦于法语网络安全操作知识的结构化整理。该数据集由网络安全顾问兼培训师Ayi NEDJIMI及其团队构建，旨在系统化地涵盖威胁狩猎假设、SIEM检测查询、SOC响应流程、威胁指标类型以及问答对等多个维度，并紧密依托MITRE ATT&CK框架。其核心研究问题在于解决网络安全运营中知识分散、语言壁垒以及实践标准化不足的困境，通过提供高质量的法语专业数据集，为安全分析师的培训、检测工程的优化以及大语言模型在网络安全领域的微调提供了重要资源，对提升法语区网络安全操作水平具有显著影响力。

当前挑战

该数据集致力于解决网络安全运营与威胁狩猎领域的核心挑战，即如何将分散、隐性的专家知识转化为系统化、可操作的结构化数据，以支持自动化检测与智能分析。具体而言，其构建过程面临多重挑战：首先，专业知识的准确性与时效性要求极高，需确保狩猎假设、检测规则与响应流程紧密贴合最新的攻击技战术（TTPs）与MITRE ATT&CK框架；其次，多语言与多平台适配的复杂性，数据集需涵盖KQL、SPL、Sigma、EQL等多种查询语言，并保持法语语境下的专业性与一致性；此外，数据质量的维护与规模扩展亦存在困难，需平衡内容的深度与广度，避免信息过时或冗余。这些挑战共同指向网络安全知识工程中标准化、可扩展性与实践指导性的核心难题。

常用场景

经典使用场景

在网络安全领域，威胁狩猎与安全运营中心（SOC）操作构成了防御体系的核心环节。该数据集通过系统化的威胁假设、SIEM查询、响应剧本及问答对，为安全分析师提供了标准化的操作框架。其经典使用场景体现在为SOC团队提供即用的狩猎查询与检测规则，覆盖从初始访问到命令控制的完整攻击链，有效支持日常威胁检测与应急响应流程，显著提升了安全运营的规范性与效率。

解决学术问题

该数据集针对网络安全研究中威胁检测模型泛化能力不足、安全知识表示缺乏结构化等学术问题，提供了高质量的法语标注语料。它系统整合了MITRE ATT&CK框架下的战术技术细节，为检测算法验证、威胁情报建模及安全知识图谱构建提供了基准数据。其意义在于推动了法语网络安全自然语言处理研究，并为跨语言安全知识迁移学习提供了重要资源，促进了学术研究与工程实践的深度融合。

实际应用

在实际应用层面，该数据集直接服务于企业安全运营与人才培养。安全团队可依据其中的狩猎假设与SIEM查询快速部署检测规则，缩短威胁响应时间；SOC培训项目则利用其剧本与问答内容构建实战化训练环境，提升分析师技能。同时，数据集支持安全聊天机器人的知识库构建与大型语言模型微调，赋能自动化安全问答与智能决策辅助，切实增强了组织级安全防御的智能化水平。

数据集最近研究