Pinkstackorg/gpt-oss-20b-safety
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Pinkstackorg/gpt-oss-20b-safety
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于andyrdt/gpt-oss-20b-rollouts,主要包含gpt-oss-20b中与安全相关的实例,采用sharegpt格式并带有think标签。总行数为9482。此数据集用于训练大型语言模型(LLM),以提高其安全性和抗越狱能力。关键词ChatGPT和OpenAI已被移除。
This dataset is based off of https://huggingface.co/andyrdt/gpt-oss-20b-rollouts. This dataset includes primarily safety-related instances from gpt-oss-20b, in a sharegpt format with think tags. Total rows: 9482. This dataset should be used to train LLMs to be safer and more jail-break reseliant. Keywords ChatGPT and OpenAI were removed.
提供机构:
Pinkstackorg
搜集汇总
数据集介绍

构建方式
本数据集源自HuggingFace上的gpt-oss-20b-rollouts项目,通过从gpt-oss-20b模型的大规模推理输出中筛选出与安全高度相关的实例,构建而成。数据采用ShareGPT格式,并融入了思考标签(think tags),共计9482条记录。在构建过程中,特意移除了“ChatGPT”和“OpenAI”等关键词,旨在避免模型在训练时产生品牌依赖或偏向,从而增强其泛化能力。
特点
该数据集聚焦于大语言模型的安全性与抗越狱能力,主要面向安全相关的对话场景。其独特之处在于,数据全部来自开源模型gpt-oss-20b的真实推理结果,而非人工标注或合成,因此保留了原始模型的输出分布与潜在脆弱性。通过结构化的ShareGPT格式与思考标签,研究者可直观理解模型的安全推理过程,为后续训练更鲁棒、更安全的大模型提供扎实的数据基础。
使用方法
使用本数据集时,建议将其作为微调或对齐训练的一部分,特别用于增强模型对不安全提示的拒绝能力和边界感知。数据以标准ShareGPT格式组织,可直接加载到transformers或相关框架中。研究者可结合Supervised Fine-Tuning(SFT)或偏好优化方法,通过监督学习让模型学习安全响应模式。同时,建议在训练后使用红队测试或对抗性提示评估模型的安全性能提升效果。
背景与挑战
背景概述
在大规模语言模型(LLM)快速发展的背景下,模型的安全性与抗越狱能力成为关键研究议题。GPT-OSS-20B-Safety数据集创建于2024年,由研究团队基于GPT-OSS-20B模型的安全相关输出构建,旨在提升LLM的安全性防御能力。该数据集专注于收集模型在交互过程中涉及安全风险的实例,并采用ShareGPT格式(包含思考标签)进行组织,共计9482条样本。通过移除“ChatGPT”与“OpenAI”等关键词,数据集降低了品牌标识干扰,使训练更聚焦于通用安全模式。该数据集为当前LLM安全微调与红队测试提供了重要的基准资源,对推动负责任的AI发展具有显著价值。
当前挑战
该数据集所解决的领域问题包括:大语言模型在生成内容时易于被越狱攻击,产生有害、歧视性或违反伦理的输出,而现有安全微调方法常因训练数据多样性不足导致泛化能力弱。构建过程中面临的挑战包括:从海量模型输出中高效筛选高质量安全相关样本,确保实例覆盖多种攻击模式(如角色扮演、假设情境、指令伪装等);同时需平衡数据规模与标注精度,避免引入噪声导致模型过拟合;此外,去除敏感关键词后仍须保留语义完整性,保证训练后模型的鲁棒性和迁移能力。
常用场景
经典使用场景
在大型语言模型的安全性与鲁棒性研究领域,研究者常面临模型对恶意提示的脆弱性问题。gpt-oss-20b-safety数据集基于gpt-oss-20b模型的交互日志,精心筛选出与安全主题密切相关的近万条实例,并以ShareGPT格式标注了思考标签(think tags),为训练模型抵御越狱攻击提供了高质量基准数据。该数据集的经典用途在于微调对话模型,使其在面对潜在有害输入时能够生成更为审慎且符合伦理规范的回应,从而增强模型在开放域对话中的安全防护能力。
解决学术问题
该数据集系统性地回应了大型语言模型在现实部署中面临的安全挑战,尤其是针对越狱提示(jailbreak prompts)和对抗性输入的脆弱性这一核心学术问题。通过移除‘ChatGPT’和‘OpenAI’等敏感关键词,数据集避免了模型对特定品牌信息的过度依赖,从而更普适地研究安全对齐机制。其贡献在于为学术界提供了标准化评估基准,使研究者能够量化模型在安全维度上的改进,并推动从数据驱动角度理解模型拒绝有害指令的泛化能力。
衍生相关工作
基于gpt-oss-20b-safety数据集,研究者衍生出多个经典工作。在安全对齐领域,有工作将其与强化学习从人类反馈(RLHF)结合,提出更高效的安全偏好优化方法;在对抗性鲁棒性方面,该数据集被用于训练安全检分类器,辅助模型在推理阶段动态屏蔽恶意输入。此外,部分研究还探索了数据增广技术,通过该数据集构建多语言安全测试集,推动跨语言模型安全对齐的进展。这些衍生工作共同丰富了语言模型安全研究的工具链与方法论。
以上内容由遇见数据集搜集并总结生成



