RedSage-MCQ

Name: RedSage-MCQ
Creator: RISys Lab
Published: 2026-01-29 00:00:00
License: 暂无描述

Hugging Face2026-01-29 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/RISys-Lab/Benchmarks_CyberSec_RedSageMCQ

下载链接

链接失效反馈

官方服务：

资源简介：

RedSage-MCQ 是由阿联酋哈利法大学 RISys Lab发布的网络安全领域大规模多项选择题（MCQ）评测基准数据集，面向大语言模型（LLMs）的专业知识理解、实战技能推理与安全工具使用能力评估。该数据集共包含 30,000 道高质量选择题，覆盖威胁情报框架、通用安全知识、攻防实战技巧以及命令行工具操作等多个子领域，数据来源包括 MITRE ATT&CK、OWASP、Kali Linux 文档、tldr-pages、CTF Write-ups 等权威公开资料。所有题目通过智能体式（agentic）数据增强流水线自动生成，并经过结构校验、两阶段大模型验证与质量打分筛选，仅保留评分高于 8/10 的样本，以确保题目自洽性、唯一正确答案及干扰项合理性。RedSage-MCQ 不仅评估理论知识掌握程度，还强调 CLI 工具熟练度与攻防实践能力，是当前网络安全大模型专业化能力测试与对齐训练的重要 benchmark，适用于安全问答、知识推理、工具调用评测及领域微调研究。

RedSage-MCQ is a large-scale multiple-choice question (MCQ) evaluation benchmark dataset in the field of cybersecurity, released by RISys Lab at Khalifa University in the United Arab Emirates. It is designed for evaluating the professional knowledge comprehension, practical skill reasoning, and security tool utilization capabilities of large language models (LLMs). This dataset contains a total of 30,000 high-quality multiple-choice questions, covering multiple sub-fields including threat intelligence frameworks, general cybersecurity knowledge, offensive and defensive practical skills, and command-line tool operations. The data sources include authoritative public materials such as MITRE ATT&CK, OWASP, Kali Linux documentation, tldr-pages, and CTF Write-ups. All questions are automatically generated through an agentic data augmentation pipeline, and filtered via structural verification, two-stage large model validation, and quality scoring, with only samples with a score higher than 8/10 retained to ensure the self-consistency of the questions, the unique correct answer, and the rationality of the distractors. RedSage-MCQ not only evaluates the mastery of theoretical knowledge, but also emphasizes CLI tool proficiency and offensive and defensive practical capabilities. It is an important benchmark for the professional capability testing and alignment training of current cybersecurity large language models, and is suitable for security question answering, knowledge reasoning, tool call evaluation, and domain fine-tuning research.

提供机构：

RISys Lab

创建时间：

2026-01-29

搜集汇总

数据集介绍

构建方式

在网络安全领域，评估大型语言模型的专业能力需要高质量且覆盖全面的基准数据集。RedSage-MCQ的构建采用了严谨的合成生成与验证流程，其数据源自精心筛选的权威网络安全资源，如MITRE ATT&CK框架、OWASP标准以及Kali Linux工具文档。通过多阶段智能体增强管道，首先生成自包含的多项选择题及干扰项，随后进行两轮验证，包括结构检查与基于思维链的质量评估，最终仅保留质量评分高于8分的条目，确保了数据集的准确性与可靠性。

特点

该数据集在网络安全评估领域展现出显著的专业深度与广度，其核心特点在于覆盖了从理论框架到实践技能的多维度知识。数据集包含五个专项配置，分别对应网络安全知识框架、通用概念、实战技能、命令行工具及Kali工具，共计三万道题目。每道题目均附带详细解析、质量评分及结构化验证结果，不仅评估模型的理论认知，更强调其对实际工具使用和攻防技巧的掌握，为全面衡量模型在专业场景下的表现提供了精细化的基准。

使用方法

为有效利用该数据集进行模型评估与研究，用户可通过Hugging Face的datasets库灵活加载特定领域或完整数据集。加载时需指定配置名称，如'cybersecurity_tools_kali'，并选择测试集或验证集分割。数据集支持标准的问答任务格式，用户可便捷访问题目、选项、正确答案及解释等字段，进而计算模型准确率或进行深入分析。鉴于数据涉及攻防技术，使用者应严格遵循教育及防御性研究目的，确保符合伦理与法律规范。

背景与挑战

背景概述

在网络安全领域，随着大型语言模型（LLM）的广泛应用，评估其在专业领域的知识与技能成为一项关键研究课题。RedSage-MCQ数据集应运而生，作为RedSage-Bench评估套件的重要组成部分，由RISys-Lab研究团队于2026年提出，旨在系统性地衡量LLM在网络安全领域的综合能力。该数据集基于权威的公开资源，如MITRE ATT&CK框架、OWASP标准、Kali Linux工具文档及实战攻防技术文档，通过严谨的智能体增强流程生成，涵盖了理论知识、实战技能与工具使用三大维度。其核心研究问题聚焦于如何构建一个高质量、多维度且平衡的网络安全专业评估基准，以推动安全领域智能体的发展，并为相关模型训练与评测提供可靠依据。

当前挑战

RedSage-MCQ数据集旨在解决网络安全领域智能体评估的综合性挑战，传统基准往往偏重理论知识，缺乏对实战技能与命令行工具熟练度的考量。该数据集通过覆盖威胁框架、通用概念、攻防技巧及工具使用等多个子领域，构建了一个层次丰富的评估体系，以检验模型在复杂安全场景下的推理与应用能力。在构建过程中，面临的主要挑战包括：确保合成生成问题的准确性与一致性，避免因大型语言模型生成导致的细微幻觉或上下文泄露；维持各领域样本的平衡性与代表性，需通过配额采样和严格的质量评分机制筛选高质量条目；同时，处理网络安全数据的双重用途性质，在促进防御性研究的同时，需审慎考量其潜在的社会影响。

常用场景

经典使用场景

在网络安全领域，评估大型语言模型的专业能力一直面临标准化基准稀缺的挑战。RedSage-MCQ数据集通过其精心构建的多选题框架，成为衡量模型在威胁框架理解、攻击技术掌握及工具使用熟练度方面的经典基准。研究者通常利用该数据集对模型进行闭卷测试，通过准确率指标系统评估模型在MITRE ATT&CK、OWASP等权威知识体系下的表现，同时考察其对Kali Linux工具命令的实际应用能力，为模型的专业化水平提供量化依据。

解决学术问题

该数据集有效解决了网络安全人工智能研究中评估维度单一的核心问题。传统基准多集中于理论知识考察，缺乏对实际操作技能的系统评估。RedSage-MCQ通过融合框架知识、通用概念、实战技能和工具操作四大维度，构建了层次化的评估体系，使研究者能够区分模型的理论记忆能力与实际问题解决能力。其严谨的质量验证机制确保了评估结果的可靠性，为领域专用模型的性能比较提供了标准化尺度，推动了网络安全领域大模型评估方法学的进步。

衍生相关工作

围绕该数据集已衍生出多项具有影响力的研究工作。原始论文《RedSage: A Cybersecurity Generalist LLM》构建了首个网络安全通才大模型，开创了领域专用模型评估的新范式。后续研究扩展了其在多模态安全分析、实时威胁检测等场景的应用。基于该基准的模型微调方法研究，探索了如何高效提升模型在专业领域的表现。同时，其验证检查清单机制被多个领域基准借鉴，形成了可复用的高质量数据生成方法论，推动了专业领域评估基准的建设浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集