nist-cybersecurity-training

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/ethanolivertroy/nist-cybersecurity-training

下载链接

链接失效反馈

官方服务：

资源简介：

NIST网络安全训练数据集是最大的开源NIST网络安全训练数据集，用于微调LLM模型。该数据集包含了来自596个NIST出版物的结构化训练数据，包括FIPS、SP、IR系列以及新增的网络安全白皮书系列。数据集共有530,912个示例，分为训练集和验证集。

The NIST Cybersecurity Training Dataset is the largest open-source NIST cybersecurity training dataset dedicated to fine-tuning Large Language Models (LLMs). It contains structured training data sourced from 596 NIST publications, covering the FIPS, SP, IR series, as well as the newly added cybersecurity white paper series. The dataset comprises a total of 530,912 samples, which are split into training and validation sets.

创建时间：

2025-10-14

原始信息汇总

NIST网络安全训练数据集 v1.1

数据集概述

描述：最大的开源NIST网络安全训练数据集，用于微调大语言模型
来源：596份NIST出版物
语言：英语
许可证：CC0 1.0 Universal（公共领域）
任务类别：文本生成、问答
标签：网络安全、NIST、合规性、安全控制、零信任、隐私

版本亮点（v1.1）

新增CSWP（网络安全白皮书）系列：23份新文档
修复6,150个损坏的DOI链接
移除202个格式错误的DOI
验证并修复124,946个总链接
编目72,698个损坏链接供未来恢复
训练数据中无损坏链接标记
示例数量从523,706增加至530,912（+7,206）

数据集统计

总示例数：530,912
训练集：424,729示例（80%）
验证集：106,183示例（20%）
处理文档数：596份NIST出版物
有效DOI链接：22,252
有效外部URL：39,228
平均内容长度：539字符
中位内容长度：298字符

示例分布

类型	数量	描述
章节	263,252	具有上下文内容的文档章节
语义块	136,320	语义连贯的文本块
控制项	88,126	安全控制描述（SP 800-53）
定义	43,214	技术术语定义

包含内容

核心训练数据

train.jsonl：424,729个训练示例
valid.jsonl：106,183个验证示例

向量嵌入（可选）

train_embeddings.parquet：所有训练示例的1536维嵌入
valid_embeddings.parquet：验证集的1536维嵌入
train_index.faiss：相似性搜索的FAISS索引
valid_index.faiss：验证集的FAISS索引

数据格式

JSONL聊天格式（兼容OpenAI、Anthropic、MLX）

使用场景

微调LLMs以获取NIST网络安全专业知识
带有验证嵌入的RAG应用
合规性和安全指导的聊天机器人
关于NIST标准的问答
自动化合规性检查工具

已知限制（v1.1）

损坏链接：72,698个链接无法验证（已编目供未来恢复）
文档覆盖范围：NIST持续发布新文档
链接新鲜度：外部引用可能随时间过时
分块：某些长文档可能在块中存在上下文边界

变更记录

v1.1（2025-10-21）

新增CSWP（网络安全白皮书）系列：23份文档
通过格式规范化修复6,150个损坏的DOI链接
移除202个格式错误的DOI（双URL前缀）
编目72,698个损坏链接供未来恢复
数据集从523,706增加至530,912示例（+7,206）
改进链接验证：处理124,946个总链接
干净数据集：无损坏链接标记剩余

v1.0（2025-10-15）

初始发布523,706个训练示例
提取568份NIST文档（FIPS、SP、IR系列）
在Hugging Face发布最大的NIST网络安全数据集

源代码

完整流水线和脚本：https://github.com/ethanolivertroy/nist-tuned-model

致谢

NIST计算机安全资源中心（CSRC）
Docling PDF提取框架
用于Apple Silicon训练的MLX框架
OpenAI用于嵌入生成API

最后更新：2025-10-21 数据集版本：1.1 总示例数：530,912 文档数：596份NIST出版物

搜集汇总

数据集介绍

构建方式

在网络安全标准研究领域，该数据集通过系统化处理596份美国国家标准与技术研究院（NIST）公开文献构建而成。其核心方法涵盖联邦信息处理标准（FIPS）、特别出版物（SP）系列、机构间报告（IR）及新增的网络安全白皮书（CSWP）等文档类型，采用语义分块技术将原始内容转化为53万余条训练样本。数据清洗过程中重点修复了6150个异常DOI链接格式，并建立7.2万条失效链接的追踪目录，最终形成包含80%训练集与20%验证集的标准化语料。

使用方法

针对大语言模型的专业化训练需求，数据集采用兼容主流框架的JSONL对话格式组织数据。每条样本包含系统角色设定、用户提问及基于NIST标准的助理回复三重结构，支持OpenAI与MLX等训练管线直接调用。开发者可通过加载嵌入向量实现高效检索增强生成，或利用元数据中的文档来源追溯机制构建合规检查工具。验证集的独立配置则为模型迭代提供了可靠的性能评估基准。

背景与挑战

背景概述

随着网络安全威胁日益复杂化，美国国家标准与技术研究院（NIST）自20世纪末起逐步构建了一套权威的网络安全标准体系。该数据集由研究人员Ethan Oliver Troy于2025年创建，整合了596份NIST公开文档，涵盖联邦信息处理标准（FIPS）、特别出版物（SP）及网络安全白皮书（CSWP）等系列。其核心目标在于通过结构化处理53万余条训练样本，为大型语言模型提供精准的网络安全知识基底，推动自动化合规检测与零信任架构等前沿领域的研究进程。

当前挑战

在构建过程中面临多重技术挑战：原始文档中存在的7.2万条失效链接需通过格式规范化与双重前缀修正进行清洗，同时需保持语义块切割的上下文连贯性。领域层面需应对动态演进的网络安全标准，如后量子密码学与物联网安全标签等新兴议题的实时整合。此外，外部参考链接的时效性维护与长文档语境边界划分，亦对数据集的持续更新与知识完整性构成持续性考验。

常用场景

经典使用场景

在网络安全领域，该数据集为大型语言模型提供了权威的NIST标准知识库，常用于构建具备专业合规知识的智能问答系统。通过53万余条结构化训练样本，模型能够精准解析零信任架构、隐私框架等核心概念，为安全分析师提供即时标准解读。其对话格式设计特别适合微调生成式模型，使模型输出符合NIST技术规范的专业内容。

解决学术问题

该数据集有效解决了网络安全领域知识标准化缺失的学术难题，通过系统整合596份NIST权威文献，构建了机器可读的合规知识体系。研究者可基于此开展安全控制自动分类、合规性智能评估等研究，显著提升了标准文档的机器理解能力。其向量化嵌入方案更为知识检索提供了技术基础，推动了法规智能解析方法的发展。

实际应用

实际部署中，该数据集支撑着企业级安全合规平台的构建，金融机构利用其训练的模型自动核查安全控制措施。政府部门借助该技术实现政策文件的智能比对，医疗行业则用于隐私框架的自动化实施。嵌入FAISS索引的向量数据库更使实时标准查询成为可能，大幅降低了人工合规审计成本。

数据集最近研究