jcordon5/cybersecurity-rules

Name: jcordon5/cybersecurity-rules
Creator: jcordon5
Published: 2024-05-18 11:01:21
License: 暂无描述

Hugging Face2024-05-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/jcordon5/cybersecurity-rules

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了来自SIGMA、YARA和Suricata官方仓库的950条检测规则，并应用了知识蒸馏技术为每条规则生成问题并丰富响应。数据集以JSONL格式提供，适用于微调LLM模型或创建专注于威胁和入侵检测的网络安全应用。

提供机构：

jcordon5

原始信息汇总

网络安全检测规则数据集

概述

该数据集包含从官方SIGMA、YARA和Suricata仓库中收集的950条检测规则。通过应用知识蒸馏技术，使用0dAI-7.5B为每条规则生成问题并丰富响应。

内容

一组用于网络安全威胁和入侵检测的检测规则，格式为JSONL（rules_dataset.jsonl）。包含提示和相关响应。
规则来源于SIGMA、YARA和Suricata的官方仓库。

用途

该数据集可用于微调大型语言模型（LLM）或创建专注于威胁和入侵检测的网络安全应用。适合网络安全领域的研究人员和实践者使用。

使用示例

以下是一个简单的代码示例，展示如何使用该数据集进行模型微调：

python from datasets import load_dataset

{prompt}<|eot_id|> <|start_header_id|>assistant<|end_header_id|> {response}<|eot_id|> "

train_dataset = load_dataset("json", data_files="/path/to/train.json") val_dataset = load_dataset("json", data_files="/path/to/val.json")

train_dataset["validation"] = val_dataset["train"]

mapped_qa_dataset = train_dataset.map(lambda samples: tokenizer(format_prompt(samples[instruction], samples[output])))

print(mapped_qa_dataset[train][0]) print(mapped_qa_dataset[train][1])

许可证

该数据集基于apache-2.0许可证发布。请查看仓库中的许可证条款，确保遵守相关限制和要求。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个网络安全检测规则集合，包含950条从SIGMA、YARA和Suricata官方仓库提取的规则，并经过知识蒸馏处理生成问答对，以JSONL格式存储。数据集适用于微调大语言模型或开发网络安全应用，专注于威胁和入侵检测领域，具有较小的数据规模（949行）和Apache-2.0许可证，便于研究和实践使用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集