five

RedSage-Seed; RedSage-Conv; RedSage-Bench

收藏
arXiv2026-01-30 更新2026-02-02 收录
下载链接:
https://risys-lab.github.io/RedSage/
下载链接
链接失效反馈
官方服务:
资源简介:
RedSage-Seed是由哈利法大学等机构构建的网络安全领域高质量数据集,包含28,637条样本,涵盖知识框架、攻击技术和安全工具等内容,总规模达11.8B tokens。该数据集通过大规模网络过滤和人工收集创建,并采用代理增强流程生成了266K多轮对话样本。数据集主要应用于网络安全领域,旨在训练本地可部署的开源网络安全助手,解决隐私风险和领域适应性问题。

RedSage-Seed is a high-quality cybersecurity dataset developed by institutions including Khalifa University. It contains 28,637 samples covering knowledge frameworks, attack techniques, security tools and other related content, with a total of 11.8 billion tokens. This dataset was created through large-scale web filtering and manual curation, and a proxy-augmented pipeline was used to generate over 266K multi-turn dialogue samples. It is mainly applied in the cybersecurity field, aiming to train open-source cybersecurity assistants that can be deployed locally to address privacy risks and domain adaptation issues.
提供机构:
哈利法大学; 波恩大学; 米兰大学
创建时间:
2026-01-30
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,数据集的构建需兼顾广度与深度,RedSage-Seed、RedSage-Conv与RedSage-Bench的构建体现了这一原则。RedSage-Seed通过精心筛选公开资源,汇集了28,637份高质量文档,涵盖知识框架、攻击技巧与安全工具,形成约1.5亿标记的预训练语料。RedSage-Conv则采用智能体增强流程,将种子数据转化为26.6万轮多轮对话,模拟专家工作流以生成监督微调样本。RedSage-Bench作为评估基准,包含3万道多项选择题与240道开放式问答题,通过多阶段验证确保题目质量与领域覆盖。
特点
该数据集的核心特点在于其全面性与专业性。RedSage-Seed提供了结构化的网络安全知识体系,内容源自权威框架如MITRE ATT&CK与OWASP,确保了数据的可靠性与时效性。RedSage-Conv通过角色扮演与场景模拟,生成了贴近实际工作流程的对话数据,增强了模型在复杂任务中的泛化能力。RedSage-Bench则创新性地融合了知识、技能与工具使用三大维度,并引入开放式问答的质量评分机制,为模型评估提供了多维度的量化标准。
使用方法
数据集的使用遵循分阶段训练与评估的逻辑框架。在预训练阶段,RedSage-Seed与大规模过滤的CyberFineWeb语料结合,为模型注入领域知识。在微调阶段,RedSage-Conv与通用指令数据协同,优化模型的对话与任务执行能力。评估阶段则依托RedSage-Bench,通过多项选择与开放式问答全面检验模型在网络安全知识、实践技能及工具使用方面的表现。此外,数据集支持本地化部署,保障了隐私安全与可复现性。
背景与挑战
背景概述
随着网络安全威胁的快速演进,组织面临日益复杂的攻击和高级持续性威胁,对主动且全面的防御策略需求日益迫切。现代网络安全涉及威胁分析、事件响应、漏洞管理和安全监控等一系列关键任务,然而安全工具的复杂性和操作所需的高水平专业知识构成了显著挑战。这些挑战因全球网络安全技能短缺而加剧,研究估计存在数百万个未填补的网络安全职位需求缺口。在此背景下,利用网络安全调优的大型语言模型来增强人类分析师能力的需求日益增长。RedSage项目由Khalifa University、University of Bonn和University of Milan的研究团队于2026年创建,旨在开发开源、可本地部署的网络安全助手,通过领域感知的预训练和后训练,解决现有解决方案在隐私风险和领域适应性方面的不足。该项目通过大规模网络过滤和高质量资源的手动收集,构建了包含118亿标记的网络安全持续预训练数据,涵盖框架、攻击技术和安全工具等28,600份文档,对推动隐私保护型网络安全AI助手的发展具有重要影响力。
当前挑战
RedSage数据集旨在解决网络安全领域通用语言模型训练的挑战,核心问题包括如何在不暴露敏感数据的前提下支持多样化工作流程,以及如何克服现有开源模型缺乏领域适应性的局限。构建过程中面临多重挑战:首先,在数据收集阶段,需要从大规模网络语料中精准过滤网络安全内容,同时确保数据的可靠性和高质量,这涉及复杂的文本分类模型训练和去重处理。其次,为了生成多样化的监督微调样本,需设计智能增强管道来模拟专家工作流程,将种子数据转化为多轮对话,这一过程要求保持技术深度和真实性。此外,构建全面评估基准时,需覆盖知识、技能和工具熟练度等多个维度,并确保开放性问题答案的质量评估,这需要复杂的验证流程和人工质量控制。最后,整个数据集的构建需避免训练数据与评估数据之间的意外重叠,确保评估的公正性。
常用场景
经典使用场景
在网络安全领域,RedSage数据集系列通过其精心构建的预训练语料库、增强对话数据与综合评估基准,为开发专业化网络安全大语言模型提供了关键支撑。该数据集最经典的使用场景在于训练和评估能够理解复杂安全概念、执行工具操作并模拟专家工作流的智能助手。例如,RedSage-Conv中基于代理增强生成的26.6万轮多轮对话,模拟了渗透测试、漏洞分析和威胁响应等实际工作流程,使模型能够在隐私保护的本地部署环境中,为安全分析师提供实时、准确的决策支持。
实际应用
在实际应用层面,RedSage数据集支撑的模型能够直接部署于企业本地环境,为安全运营中心提供实时威胁分析、自动化事件响应和漏洞管理辅助。例如,基于RedSage-Conv训练的助手可以解析安全日志、生成渗透测试命令脚本,或根据MITRE ATT&CK框架映射攻击技术,显著降低对高技能人力的依赖。在网络安全教育领域,这些数据集也可用于构建交互式培训系统,模拟真实攻击场景,帮助学员掌握工具使用和应急响应流程,从而缓解全球网络安全人才短缺的紧迫挑战。
衍生相关工作
RedSage数据集的发布催生了一系列围绕网络安全大语言模型优化的衍生研究。例如,部分工作借鉴其代理增强管道,开发了针对工业控制系统安全的专用对话数据集;其他研究则基于RedSage-Bench的评估框架,扩展了针对物联网威胁情报和云安全配置的评估维度。同时,开源社区利用RedSage的预训练语料,训练了专注于恶意软件分析和网络流量检测的轻量化模型,这些工作共同丰富了网络安全AI工具链,促进了领域内开源生态的协同发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作