jcordon5/cybersecurity-rules
收藏网络安全检测规则数据集
概述
该数据集包含从官方SIGMA、YARA和Suricata仓库中收集的950条检测规则。通过应用知识蒸馏技术,使用0dAI-7.5B为每条规则生成问题并丰富响应。
内容
- 一组用于网络安全威胁和入侵检测的检测规则,格式为JSONL(rules_dataset.jsonl)。包含提示和相关响应。
- 规则来源于SIGMA、YARA和Suricata的官方仓库。
用途
该数据集可用于微调大型语言模型(LLM)或创建专注于威胁和入侵检测的网络安全应用。适合网络安全领域的研究人员和实践者使用。
使用示例
以下是一个简单的代码示例,展示如何使用该数据集进行模型微调:
python from datasets import load_dataset
def format_prompt(prompt, response): return f"<|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful assistant.<|eot_id|> <|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|> <|start_header_id|>assistant<|end_header_id|> {response}<|eot_id|> "
train_dataset = load_dataset("json", data_files="/path/to/train.json") val_dataset = load_dataset("json", data_files="/path/to/val.json")
train_dataset["validation"] = val_dataset["train"]
mapped_qa_dataset = train_dataset.map(lambda samples: tokenizer(format_prompt(samples[instruction], samples[output])))
print(mapped_qa_dataset[train][0]) print(mapped_qa_dataset[train][1])
许可证
该数据集基于apache-2.0许可证发布。请查看仓库中的许可证条款,确保遵守相关限制和要求。




