RealMythosReasoning
收藏github2026-05-17 更新2026-05-18 收录
下载链接:
https://github.com/tszdanger/RealMythos
下载链接
链接失效反馈官方服务:
资源简介:
RealMythosReasoning是一个基于真实世界漏洞数据的网络安全推理数据集,包含6,159个与CVE相关的C/C++安全推理记录,专注于提供适用于监督微调(SFT)的推理数据、具有概念验证(PoC)意识的响应、质量信号和负责任使用文档,旨在重建Claude Mythos作为开放网络安全推理栈。
RealMythosReasoning is a cybersecurity reasoning dataset based on real-world vulnerability data. It contains 6,159 C/C++ security reasoning records associated with CVE, focusing on providing reasoning data suitable for Supervised Fine-tuning (SFT), proof-of-concept (PoC)-aware responses, quality signals, and responsible use documentation, with the objective of rebuilding Claude Mythos as an open cybersecurity reasoning stack.
创建时间:
2026-05-15
原始信息汇总
好的,根据您提供的数据集详情页面地址和README文件内容,以下是该数据集的总结:
数据集名称:RealMythos
核心定位
RealMythos 是一个分阶段进行的开源计划,旨在公开重建类似于 Claude Mythos 的网络安全推理栈。其目标是从真实世界的漏洞数据出发,构建一个可执行、可检查且可由社区验证的安全推理系统,使高级安全推理能力更加公平、透明和易于使用。
项目阶段与状态
该项目分为四个阶段,当前进展如下:
| 阶段 | 聚焦内容 | 状态 |
|---|---|---|
| 阶段 1 | 安全推理数据集 | 已完成并发布 |
| 阶段 2 | 开源安全推理模型 | 设计、开发、内部审查均已完成,尚未发布 |
| 阶段 3 | 可复现软件环境 | 设计已完成,其他部分未开始 |
| 阶段 4 | 基于框架的轨迹收集 | 尚未开始 |
阶段 1 数据集 (Stage 1 Dataset)
这是项目的核心产出,已在 Hugging Face 上发布,作为整个项目栈的公共基础。
- 主要工件: RealMythos/RealMythosReasoning
- 数据集规模: 包含 6,159 条 与 CVE 关联的 C/C++ 安全推理记录。
- 数据特点:
- 基于真实漏洞: 记录源自真实的 CVE 漏洞案例,而非通用安全问答。
- 推理导向提示: 提示要求分析根本原因、触发条件、攻击者输入、数据流路径、影响以及概念验证(PoC)导向的推理。
- 泄漏控制: 推理过程以“补丁未知”(patch-unaware)的形式准备,以减少对修复代码的直接依赖。
- 质量信号: 保留了 PoC 导向的评估元数据作为结构化发布数据。
- 发布内容: 包括 SFT 就绪的推理数据、案例级元数据、数据集架构、技术报告、数据集卡片、负责任的使用说明以及版本化清单和校验和。
- 与其他数据集的对比优势:
| 特性 | RealMythos | 其他常见数据集 |
|---|---|---|
| 真实 CVE 代码 | 支持 | 不支持 |
| 概念验证 (PoC) | 支持 | 不支持 |
| 补丁未知 (Patch-unaware) | 支持 | 不支持 |
| 质量门控 | 支持 | 多数不支持 |
技术报告与相关研究
- 技术报告: 最新草案可在 Google Drive 获取,稳定版本(arXiv 预印本)后续将添加。
- 研究传承: 该数据集的构建理念受先前 Reef(真实世界漏洞与修复收集框架)和 API 引导的数据集合成(用于微调大型代码模型)两项工作的启发。
项目参与者
RealMythos 是一个独立的开源项目,与 Anthropic 或 Claude 无关。参与者来自香港科技大学(HKUST)和香港中文大学(CUHK)等机构。
负责任使用
该数据集旨在用于安全研究、防御评估、模型对齐和可重复的学术研究,不得用于未经授权的漏洞利用、攻击性扫描或自动化漏洞武器化。
搜集汇总
数据集介绍

构建方式
在网络安全领域,高质量的安全推理数据集是推动模型能力进步的关键基石。RealMythosReasoning数据集基于真实世界的CVE链接漏洞案例构建,区别于通用的安全问答数据。其构建过程遵循一套严谨的流水线:首先从Reef框架中提取经过验证的漏洞与修复样本,接着利用DeepSeek-V4-Pro模型以补丁不可见(patch-unaware)的方式生成推理链(Chain-of-Thought),涵盖根本原因、触发条件、攻击者可控输入、数据流路径、影响及PoC导向的推理。整个流程通过版本化清单和校验和保证可复现性,并保留了PoC导向的评估元数据作为质量信号,最终形成6,159条高质量的C/C++安全推理记录。
特点
该数据集最显著的特点在于其多维度的设计优势。每个记录均扎根于真实的CVE代码,确保了领域知识的可靠性。与常见的安全推理数据集相比,RealMythosReasoning不仅提供了完整的CoT推理过程和PoC(概念验证)信息,还通过补丁不可知的设计有效减少了训练数据泄露的风险。此外,数据集内置了细粒度的质量门控机制和案例级元数据,包括SFT就绪的推理数据、质量信号以及负责任的披露文档。这种层次化的质量保障体系,使其在安全性、真实性和可审计性上超越了众多基于模板或通用大模型蒸馏的基线数据集。
使用方法
使用者可通过Hugging Face平台直接访问托管的数据集[RealMythos/RealMythosReasoning]。数据集以SFT就绪格式发布,兼容主流的监督微调框架,便于研究人员将其直接用于训练或评估开源安全推理模型。配套的GitHub仓库提供了完整的可复现性代码(位于stage1-dataset/pipeline/目录),并附有详细的技术报告、数据集模式说明、版本清单以及负责任使用指南。建议用户首先阅读技术报告和负责任使用文档,理解数据的采集伦理与适用范围,随后依据文档指引运行流水线代码,验证数据生成逻辑,最终根据自身任务需求在Hugging Face上通过API或命令行工具加载数据进行模型微调或基准测试。
背景与挑战
背景概述
RealMythosReasoning数据集诞生于2025年,由香港科技大学、香港中文大学等机构的研究团队主导创建,旨在应对网络安全推理能力被少数商业实体(如Anthropic的Claude Mythos)垄断的困境。该数据集以公开重构先进安全推理栈为核心使命,基于真实CVE关联的C/C++漏洞数据,构建了包含6159条高质量推理记录的资源库。其数据采集哲学融合了前期工作的积淀,包括ASE 2023发表的Reef框架与OOPSLA 2025的API引导数据集合成方法,为安全推理数据、模型训练与可复现环境奠定了透明化、可验证的开放基础,在学术界与工业界推动了安全推理公平性与可检视性的发展。
当前挑战
领域层面,现有网络安全推理数据集多依赖通用安全问答或合成模板,缺乏与真实漏洞案例的紧密关联,且普遍缺失证明概念(PoC)代码与补丁无关的推理设计,导致模型在真实场景中的泛化能力与可信度不足。构建过程中,团队面临从公开CVE数据中精准提取根因、触发条件、攻击者输入及数据流路径等结构化推理要素的复杂任务,还需确保数据免受补丁信息泄露的干扰,并保留PoC导向的评估元数据作为质量信号。此外,如何在公开环境中协同管理多阶段数据、模型与基础设施的可复现性,亦构成持续性挑战。
常用场景
经典使用场景
在大语言模型的安全推理能力领域,RealMythosReasoning数据集凭借其独特的构建理念,成为微调与评估安全推理模型的核心资源。该数据集收录了6,159条与真实CVE漏洞关联的C/C++安全推理记录,每条数据均包含根因分析、触发条件、攻击者可控输入、数据流路径、影响评估以及面向概念验证的推理过程。其经典使用场景在于,研究者可基于此数据集对开源大语言模型进行监督式微调,使其逐步习得从真实漏洞出发的结构化推理范式,从而生成具有可解释性与可验证性的安全分析结果。
解决学术问题
该数据集精准回应了安全AI领域长期存在的两大核心困境:其一,现有安全推理数据集多源自通用安全问答,缺乏对真实CVE漏洞的深度映射,导致模型难以理解真实攻击链的复杂性;其二,业界顶尖推理系统如Claude Mythos仍封闭于私有壁垒中,社区无法透明地审视与复现其能力。RealMythosReasoning通过构建以真实漏洞为锚点、包含补丁无关推理设计与PoC质量信号的数据体系,为学术界提供了一套可复现、可审计的安全推理研究基准,推动了安全推理从黑盒依赖走向公开透明的范式变迁。
衍生相关工作
作为一套分层式开放基础设施的基石,RealMythosReasoning催生了一系列极具影响力的衍生工作。在模型层面,项目第二阶段的开放安全推理模型将直接基于该数据集进行训练,为社区提供首个透明化的Mythos级别推理引擎。在评估环境方面,第三阶段计划构建可复现的软件漏洞环境,使研究者能在控制变量下精准衡量模型的真实推理效能。更进一步的第四阶段则聚焦于多智能体轨迹收集与验证框架,旨在模拟复杂安全分析中的人类协作推理流程。这些工作共同编织出一个从数据、模型到环境与系统的完整安全推理开源生态。
以上内容由遇见数据集搜集并总结生成



