five

ansulev/Cybersecurity-Dataset-Fenrir-v2.1

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ansulev/Cybersecurity-Dataset-Fenrir-v2.1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个网络安全防御指令调优数据集,包含99,870条高质量的系统/用户/助手三元组,专为防御性、对齐安全的网络安全SFT训练设计。数据集覆盖了多个网络安全领域和框架,如OWASP Top 10、MITRE ATT&CK、NIST CSF、CIS Controls、ASD Essential 8等,还包括现代认证(OAuth 2 / OIDC / SAML)、SSL / TLS、云与DevSecOps、密码学和AI安全等内容。数据集采用Apache-2.0许可证,适合商业使用,并且在设计上注重安全性和拒绝恶意请求的能力。数据集的创建过程包括源数据收集、提取、主题过滤、指令合成和质量控制等多个步骤,确保数据的质量和安全性。

This is a cybersecurity defense instruction-tuning dataset containing 99,870 high-quality system/user/assistant triples designed for defensive, alignment-safe cybersecurity SFT training. The dataset covers multiple cybersecurity domains and frameworks such as OWASP Top 10, MITRE ATT&CK, NIST CSF, CIS Controls, ASD Essential 8, modern authentication (OAuth 2 / OIDC / SAML), SSL / TLS, Cloud & DevSecOps, Cryptography, and AI Security. It is licensed under Apache-2.0, making it commercially friendly, and is designed with a focus on safety and the ability to reject malicious requests. The dataset creation process includes source data harvesting, extraction, topical filtering, instruction synthesis, and multiple quality control steps to ensure data quality and safety.
提供机构:
ansulev
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于海量高质量公开技术文献之上,涵盖标准文档、RFC、白皮书及厂商指南等。通过预处理剔除冗余信息,并借助关键词与向量检索法聚焦于防御性安全内容。随后,利用指令合成技术生成结构化的system/user/assistant三元组,并在生成过程中强制融入伦理规范与拒绝模板。最后,经过多层级质量把控,包括MinHash去重、PII清洗、幻觉检测、对抗性拒绝测试及人工抽检,以确保数据集的纯净与高可靠性。
特点
该数据集规模达99,870条,覆盖OWASP、MITRE ATT&CK、NIST CSF、CIS等主流安全框架,并深入云安全、DevSecOps、身份认证、密码学与AI安全等前沿领域。其核心特色在于内置拒绝模式与对齐审查机制,能够有效应对恶意或利用性请求,同时提供兼具深度与实用性的缓解策略与根本原因分析。每条记录均映射至具体标准,兼具工程实践与学术价值。
使用方法
数据集以JSONL格式提供,包含三个核心字段:system、user和assistant,适用于文本生成任务的监督微调(SFT)。用户可直接加载完整训练集(全部99,870条数据),无需额外划分。推荐在具备完整网络安全知识的模型上进行微调,以充分发挥其在防御性安全场景中的能力。使用时需注意数据集为纯英文,且专注于防御视角,进攻性战术仅作为缓解背景出现。
背景与挑战
背景概述
随着网络威胁的日益复杂化与多样化,构建能够有效理解并应对网络安全防御场景的智能系统成为学术界与工业界的迫切需求。在此背景下,Alican Kiraz于2025年创建了Cybersecurity-Dataset-Fenrir-v2.1数据集,该数据集由Hugging Face平台发布,旨在为网络安全领域的指令微调(SFT)提供高质量的训练资源。数据集涵盖OWASP Top 10、MITRE ATT&CK、NIST CSF、云安全、身份认证及AI安全等多个核心框架,共计99,870条系统/用户/助手三元组,为安全领域大语言模型的安全对齐与专业能力提升奠定了重要基础。该数据集因其规模庞大、框架全面且遵守Apache-2.0许可,对网络安全自动化与防御智能体的研究具有显著推动力。
当前挑战
该数据集所应对的核心领域挑战在于:网络安全知识体系庞杂且更新迅速,传统模型往往缺乏针对防御场景的深度理解与安全对齐能力,易被恶意利用或产生不当响应。具体而言,数据集需解决如何精准覆盖从应用安全、云安全到AI安全等多维防御框架,并确保模型能够对攻击性请求做出拒绝式解释而非技术指导。构建过程中的挑战体现在:从超过45万份公开技术文档中提取高质量内容时需进行严苛的格式清洗与主题过滤;生成指令对时需同时嵌入伦理准则与拒绝模板;并通过多层级质量门控(去重、PII清洗、幻觉检测及对抗性拒绝测试)平衡数据规模与纯净度,最终以人工抽检3%样本的方式确保可靠性。
常用场景
经典使用场景
该数据集经典的使用场景是为防御性网络安全大语言模型进行指令微调(SFT)。它包含近十万条高质量的“系统/用户/助手”三元组,覆盖OWASP Top 10、MITRE ATT&CK、NIST CSF等主流安全框架,特别适合用于训练能够理解并回答复杂安全问题的对话式AI助手。研究人员常将其作为基础训练语料,提升模型在应用安全、云安全、DevSecOps及身份认证等领域的专业应答能力。
实际应用
在实际应用中,该数据集可用于训练企业级安全聊天机器人或SOC辅助系统,帮助安全工程师快速获取OWASP缓解方案、云环境IAM配置建议或事件响应流程。基于该数据集微调的模型能够安全地拒绝恶意请求,同时提供合理的防御建议,从而部署于红蓝队演练、DevSecOps流水线中的自动代码审查,以及为初级安全分析师提供教育培训场景。
衍生相关工作
该数据集衍生了一系列代表性的工作,如基于其安全对齐机制开发的防御性拒绝分类器,以及利用三元组结构训练的域特定检索增强生成(RAG)系统。此外,研究者将其与MITRE ATT&CK知识图谱结合,生成了能够自动映射攻击路径的对话模型;另有一些工作借鉴其质量门控流程,构建了多语言网络安全指令数据集,推动了安全NLP领域的数据标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作