secbot-training-data

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/ulysses3753/secbot-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

Ulysses威胁响应训练语料库是一个综合性指令调优数据集，用于训练大型语言模型（LLMs）进行网络安全威胁检测、事件响应和修复。数据集由Daniel Howard策划，属于Ulysses AI Cyber Defense项目的一部分，采用CC-BY-4.0许可证。当前包含约2,500对数据，目标为35,000对。数据集覆盖了基础内容、红队（攻击）和蓝队（防御）类别。目前已完成第一阶段'系统内部'内容，包括Windows内部、Linux内部和网络协议，云安全（AWS、Azure、GCP、K8s）正在进行中。未来计划覆盖MITRE ATT&CK Enterprise、Living Off The Land、检测工程、事件响应工作流和安全脚本等内容。

创建时间：

2025-12-17

原始信息汇总

Ulysses Threat Response Training Corpus 数据集概述

数据集基本信息

数据集名称： Ulysses Threat Response Training Corpus
维护者： Daniel Howard
所属项目： Ulysses AI Cyber Defense (https://github.com/howardsinc3753/trtp)
许可证： CC-BY-4.0
任务类别： 文本生成
语言： 英语
数据规模： 1K<n<10K
当前数据对数量： ~2,500 (目标为35,000)

数据集目的与内容

这是一个用于训练大型语言模型在网络安全威胁检测、事件响应和修复方面的综合性指令调优数据集。

数据分类与覆盖范围

当前覆盖范围 (第一阶段：系统内部知识)

Windows 内部原理： 651 对数据
Linux 内部原理： 1,224 对数据
网络协议： 653 对数据
云安全 (AWS, Azure, GCP, K8s)： 进行中

计划覆盖范围

MITRE ATT&CK Enterprise (全部 778 种技术)
离地攻击 (LOLBAS, GTFOBins)
检测工程 (Sigma, YARA)
事件响应工作流
安全脚本 (Python, PowerShell, Bash)

数据类别与团队划分

类别： 基础知识 + 红队 (攻击) + 蓝队 (防御)
团队标签： foundation (基础)

数据格式

每条数据为JSON格式，包含以下字段：

id: 数据标识符
instruction: 指令
output: 输出
category: 类别 (如 system_internals)
team: 团队 (如 foundation)
phase: 阶段 (如 1a)

使用方法

可通过 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("ulysses3753/secbot-training-data")

数据来源与授权

所有训练数据均源自公开来源并遵循相应许可证：

MITRE ATT&CK： CC-BY-4.0 (技术描述)
Sigma Rules： LGPL-2.1 (检测模式)
NVD/CVE： 公共领域 (漏洞数据)
LOLBAS/GTFOBins： GPL-3.0 (离地攻击技术数据)
原创内容： CC-BY-4.0 (专家知识)

引用

若在研究中使用此数据集，请引用： bibtex @dataset{ulysses_threat_response_2024, author = {Howard, Daniel}, title = {Ulysses Threat Response Training Corpus}, year = {2024}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ulysses3753/secbot-training-data} }

数据集状态与联系

状态： 正在积极构建中
GitHub项目： https://github.com/howardsinc3753/trtp

搜集汇总

数据集介绍

构建方式

在网络安全领域，高质量的训练数据对于提升大语言模型在威胁检测与事件响应方面的能力至关重要。Ulysses威胁响应训练语料库的构建采用了系统化的分层方法，其数据来源于多个公开授权的专业资源，包括MITRE ATT&CK框架、Sigma检测规则、国家漏洞数据库以及LOLBAS项目等。构建过程遵循清晰的阶段性规划，首先完成了涵盖Windows与Linux系统内部机制及网络协议的基础知识整合，并正在向云安全等领域扩展。所有数据均经过精心筛选与结构化处理，确保其技术准确性与法律合规性，为模型训练提供了坚实可靠的知识基础。

特点

该数据集的核心特征在于其针对网络安全专业场景的深度与广度设计。它不仅提供了覆盖系统内部原理、网络协议等基础知识的“基石”内容，还创新性地融入了红队攻击模拟与蓝队防御响应两大对抗性视角的训练数据。这种结构使得模型能够从攻防两端理解安全威胁，从而生成更具实战价值的响应。数据集采用清晰的JSON格式进行组织，每条数据均标注了所属类别、团队角色及开发阶段，这种细粒度的元数据设计极大地便利了定向训练与评估。随着开发进程的推进，其内容将持续扩展至MITRE ATT&CK全量技术等更广泛的领域。

使用方法

对于希望利用该数据集进行大语言模型训练或评估的研究者与开发者而言，其使用方法直接而高效。通过Hugging Face的`datasets`库，可以便捷地加载名为`ulysses3753/secbot-training-data`的数据集。加载后，用户可直接访问训练集中的‘instruction’（指令）与‘output’（输出）字段，这些字段构成了标准的指令微调样本对。数据集的分类标签（如‘category’, ‘team’）允许用户根据具体的研究目标，例如专注于红队攻击技术或蓝队检测规则，灵活地筛选和构建子集进行训练。这种设计支持端到端的模型微调流程，并能无缝集成到现有的机器学习工作流中。

背景与挑战

背景概述

网络安全领域正经历着由人工智能驱动的深刻变革，特别是在威胁检测与事件响应方面。2024年，由研究员Daniel Howard主导的Ulysses AI Cyber Defense项目发布了Ulysses威胁响应训练语料库，旨在为大型语言模型提供高质量的指令微调数据。该数据集聚焦于网络安全的核心研究问题，即如何系统性地训练模型理解系统内部原理、识别攻击技战术并生成有效的防御与修复方案。其覆盖范围从Windows与Linux系统内部机制到网络协议，并计划纳入MITRE ATT&CK框架等广泛内容，为构建专业级网络安全人工智能助手奠定了关键的数据基础，预期将显著提升自动化威胁分析与响应的能力。

当前挑战

该数据集致力于解决网络安全领域一个根本性挑战：将分散、专业且动态演进的威胁知识转化为结构化、可训练的指令对，以赋能大型语言模型进行准确的威胁检测、事件响应与修复指导。在构建过程中，面临多重具体挑战：首先，需要从MITRE ATT&CK、Sigma规则、漏洞数据库等众多异构且授权各异的公开来源中，进行高质量的知识提取与标准化整合，确保技术描述的准确性与一致性。其次，网络安全知识体系庞大且快速演进，如何系统性地规划数据覆盖范围，从系统内部原理逐步扩展到完整的攻击技战术与防御工作流，并保持数据的时效性与全面性，是一项持续的工程与领域知识挑战。此外，生成兼具技术深度与实用性的指令-输出对，需要深厚的领域专家知识进行持续校验与补充。

常用场景

经典使用场景

在网络安全领域，Ulysses威胁响应训练语料库为大型语言模型的指令微调提供了专门化的数据支持。该数据集通过涵盖系统内部机制、网络协议及攻击防御技术，典型应用于训练模型执行威胁检测、事件响应和修复任务。研究人员利用其结构化的指令-输出对，能够引导模型生成符合安全实践的专业响应，从而提升模型在复杂安全场景下的理解和推理能力。

实际应用

在实际应用层面，该数据集支撑了安全运营中心（SOC）的自动化工具开发。基于其训练的模型可集成到事件响应平台中，辅助分析师快速识别攻击技术、生成修复建议或编写检测规则。例如，在云安全或网络协议分析场景下，模型能够解释安全事件并提供操作指南，从而缩短响应时间，减轻人力负担，增强组织面对新兴威胁的抵御能力。

衍生相关工作

围绕该数据集，已衍生出多项专注于安全领域语言模型优化的经典工作。这些研究包括利用其指令对进行红队/蓝队模拟训练，以增强模型的对抗性推理；结合Sigma规则和MITRE ATT&CK技术描述，开发端到端的威胁检测管道；以及基于其结构化知识构建网络安全问答系统。这些工作进一步拓展了人工智能在安全自动化、威胁情报生成等方向的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集