five

jcordon5/cybersecurity-rules

收藏
Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jcordon5/cybersecurity-rules
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自SIGMA、YARA和Suricata官方仓库的950条检测规则,并应用了知识蒸馏技术为每条规则生成问题并丰富响应。数据集以JSONL格式提供,适用于微调LLM模型或创建专注于威胁和入侵检测的网络安全应用。

该数据集包含了来自SIGMA、YARA和Suricata官方仓库的950条检测规则,并应用了知识蒸馏技术为每条规则生成问题并丰富响应。数据集以JSONL格式提供,适用于微调LLM模型或创建专注于威胁和入侵检测的网络安全应用。
提供机构:
jcordon5
原始信息汇总

网络安全检测规则数据集

概述

该数据集包含从官方SIGMA、YARA和Suricata仓库中收集的950条检测规则。通过应用知识蒸馏技术,使用0dAI-7.5B为每条规则生成问题并丰富响应。

内容

  • 一组用于网络安全威胁和入侵检测的检测规则,格式为JSONL(rules_dataset.jsonl)。包含提示和相关响应。
  • 规则来源于SIGMA、YARA和Suricata的官方仓库。

用途

该数据集可用于微调大型语言模型(LLM)或创建专注于威胁和入侵检测的网络安全应用。适合网络安全领域的研究人员和实践者使用。

使用示例

以下是一个简单的代码示例,展示如何使用该数据集进行模型微调:

python from datasets import load_dataset

def format_prompt(prompt, response): return f"<|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful assistant.<|eot_id|> <|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|> <|start_header_id|>assistant<|end_header_id|> {response}<|eot_id|> "

train_dataset = load_dataset("json", data_files="/path/to/train.json") val_dataset = load_dataset("json", data_files="/path/to/val.json")

train_dataset["validation"] = val_dataset["train"]

mapped_qa_dataset = train_dataset.map(lambda samples: tokenizer(format_prompt(samples[instruction], samples[output])))

print(mapped_qa_dataset[train][0]) print(mapped_qa_dataset[train][1])

许可证

该数据集基于apache-2.0许可证发布。请查看仓库中的许可证条款,确保遵守相关限制和要求。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个网络安全检测规则集合,包含950条从SIGMA、YARA和Suricata官方仓库提取的规则,并经过知识蒸馏处理生成问答对,以JSONL格式存储。数据集适用于微调大语言模型或开发网络安全应用,专注于威胁和入侵检测领域,具有较小的数据规模(949行)和Apache-2.0许可证,便于研究和实践使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作