Krishna3451112/cloud-sec-env-sft

Name: Krishna3451112/cloud-sec-env-sft
Creator: Krishna3451112
Published: 2026-04-25 11:29:58
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Krishna3451112/cloud-sec-env-sft

下载链接

链接失效反馈

官方服务：

资源简介：

Cloud Sec Env -- SFT训练数据是通过Opus生成的轨迹数据，用于微调小型语言模型（Qwen2.5-7B），以调查云安全事件。每条数据是一个完整的轨迹，包含系统提示、警报、交替的工具调用和结果，并以submit_answer动作结束。助手回合预格式化为JSON对象，包含推理、工具名称和参数。数据根据确定性关键词标准过滤，终端奖励大于等于0.5。

Cloud Sec Env -- SFT training data consists of Opus-generated trajectories for fine-tuning a small LLM (Qwen2.5-7B) to investigate cloud-security incidents. Each row is one full trajectory (system prompt + alert + alternating tool calls and results, ending with a `submit_answer` action). Assistant turns are pre-formatted as JSON objects of the shape `{"reasoning", "tool_name", "arguments"}`. Filtered for `terminal_reward >= 0.5` under a deterministic keyword rubric.

提供机构：

Krishna3451112

搜集汇总

数据集介绍

构建方式

本数据集专为微调小型语言模型（如Qwen2.5-7B）以调查云安全事件而构建。其构建方式基于Opus模型生成完整的交互轨迹，每条记录包含系统提示、告警信息、交替进行的工具调用及其结果，并以submit_answer操作作为最终结束。助手角色的响应被预格式化为包含reasoning、tool_name和arguments字段的JSON对象，从而确保模型在微调后能够端到端地生成可解析的JSON输出。数据仅保留在确定性关键词评估标准下终端奖励值不低于0.5的高质量轨迹。

特点

该数据集的核心特点在于其结构化的交互式轨迹设计，每个样本均完整记录了从系统提示到工具调用再到最终答案提交的全过程，特别适合训练模型执行多步推理与工具使用任务。助手回复采用统一的JSON格式输出，不仅增强了数据的可解析性，也为后续自动化评估提供了便利。此外，经过严格的关键词奖励筛选机制，数据集确保了仅包含高质量的成功案例，有效降低了噪声对模型微调效果的干扰。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据，仅需调用load_dataset函数并指定数据集名称'Krishna3451112/cloud-sec-env-sft'，选择'train'分割即可获取训练样本。加载后的数据集可直接用于微调支持JSON格式输入输出的语言模型，尤其适合需要多步推理和工具调用能力的云安全分析场景。开发者还可根据实际需求对数据进行进一步过滤或增强，以适配不同的模型架构与任务目标。

背景与挑战

背景概述

随着云计算的广泛普及，云安全事件频发，对自动化智能响应系统的需求日益迫切。在此背景下，Cloud Sec Env SFT数据集于2024年左右由研究者Krishna及其团队创建，旨在通过微调百亿参数级别的小型语言模型（如Qwen2.5-7B），使其能够自主推理并执行云安全事件调查任务。该数据集聚焦于将大型语言模型从通用对话能力迁移至云安全领域的工具调用与决策制定，核心研究问题在于如何通过高质量轨迹数据使模型在有限参数下实现可靠的安全事件分析。通过提供包含系统提示、告警信息及工具调用结果的结构化对话轨迹，该数据集为云安全智能助手的发展奠定了数据基础，推动了语言模型在特定垂直领域应用的研究进程。

当前挑战

该数据集所解决的领域核心挑战在于，云安全事件响应需从零散告警中快速定位根因并执行调查动作，传统规则系统难以适应多变攻击模式，而通用大模型缺乏结构化决策能力。构建过程中，主要面临三大挑战：首先，原始模型生成的轨迹包含大量低质量或错误推理步骤，需通过确定性关键词规则筛选出奖励值不低于0.5的样本，确保训练数据有效性；其次，需将多轮工具调用与结果反馈格式化为端到端可解析的JSON结构，兼顾推理逻辑的连贯性与输出的机械可解析性；最后，受限于小型模型容量，需在仅有数十亿参数的情况下，通过精细的轨迹设计覆盖多样化的云安全场景，避免模型过拟合于特定模式。

常用场景

经典使用场景

Cloud Sec Env SFT数据集专为微调开源小型语言模型（如Qwen2.5-7B）而设计，核心应用场景是让模型学会自主执行云端安全事件的调查与响应流程。每一条轨迹均包含系统提示、安全警报、工具调用及其返回结果，最终以提交答案动作结束，构成完整的工具辅助决策闭环。通过监督微调，模型可端到端生成结构化的JSON输出，实现从警报触发到决策输出的全链路自动化推理。

解决学术问题

该数据集解决了学术界在小语言模型应用于特定领域多步骤决策时的两大瓶颈：一是缺乏高质量、带工具使用的轨迹级标注数据，二是模型输出不易与下游系统衔接。通过提供过滤后的高奖励轨迹（终端奖励≥0.5），它支持研究者探索语言模型如何在有限参数量下内化安全领域专有工具的使用逻辑，进而研究推理路径的可复现性及工具调用与自然语言推理的耦合机制，推动安全运维中轻量级AI代理的可行性论证。

衍生相关工作

该数据集衍生出若干关键研究方向：一是强化安全领域小模型的主动学习循环，例如利用模型生成的新轨迹经启发式或人工校验后回注训练集；二是探索将JSON结构化输出约束与工具调用链的因果推理相结合，衍生可解释性分析工作；三是推动开源社区构建更大规模的多层安全场景基准，涵盖漏洞响应、权限审计等更复杂的异步流程。未来可能催生专门针对SOC分析师工作流的微调范式及评估框架，进一步巩固轻量级LLM在安全自动化中的基础角色。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集