STAR-1
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://ucsc-vlaa.github.io/STAR-1
下载链接
链接失效反馈官方服务:
资源简介:
STAR-1是一个针对大型推理模型(LRMs)的安全数据集,由加州大学圣塔克鲁兹分校、谷歌和劳伦斯利弗莫尔国家实验室共同创建。该数据集包含1000个样本,旨在满足LRMs在安全对齐方面的关键需求。STAR-1的构建始于一个包含41K个安全训练样本的多样化数据集,然后利用深思推理范式结构化数据,并最终通过评分筛选降低至1K个样本。该数据集在保障安全性的同时,也注重保持样本的多样性,适用于提升LRMs在安全关键场景下的推理稳健性和可靠性。
STAR-1 is a safety-oriented dataset tailored for Large Reasoning Models (LRMs), jointly developed by the University of California, Santa Cruz, Google, and the Lawrence Livermore National Laboratory. This dataset contains 1,000 samples, designed to address the critical needs of LRMs regarding safety alignment. The construction of STAR-1 starts with a diverse dataset comprising 41,000 safety training samples, structures the data using the deliberative reasoning paradigm, and finally narrows it down to 1,000 samples through scoring-based filtering. While ensuring safety, this dataset also prioritizes maintaining sample diversity, and is applicable to improving the reasoning robustness and reliability of LRMs in safety-critical scenarios.
提供机构:
加州大学圣塔克鲁兹分校, 谷歌, 劳伦斯利弗莫尔国家实验室
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
STAR-1数据集的构建基于三大核心原则:多样性、审慎推理和严格筛选。首先,整合了来自18个开源安全数据集的41,000条有害指令样本,覆盖八大安全类别。随后,通过GPT-4o分类器将指令与标准化安全政策关联,并利用DeepSeek-R1生成包含完整推理链(CoT)和最终答案的结构化数据。最后采用基于GPT-4o的三维评分系统(安全性合规、政策相关性、推理准确性)筛选出1,000个满分样本,确保数据质量与多样性平衡。
特点
STAR-1作为专为大型推理模型(LRMs)设计的千样本级安全数据集,具有三大显著特征:1)政策锚定的审慎推理机制,每条数据均包含基于安全政策的逐步推理过程;2)严格的LLM评分筛选,仅保留三项评分均为满分的样本,实现安全性与推理能力的协同优化;3)跨模型尺度的强泛化性,实验表明其在1.5B至32B参数规模的LRMs上均能提升40%安全性能,且推理能力仅下降1.1%。
使用方法
使用STAR-1时需遵循三步范式:1)全参数微调,建议采用DeepSpeed ZeRO-3优化器,以1e-5学习率训练5个epoch;2)专注推理链损失计算,模型需同时学习安全政策引用与拒绝策略的逻辑推导;3)兼容性验证,该数据集优先适配具备链式推理能力的LRMs,传统LLMs可能因架构差异出现灾难性遗忘。评估时建议采用StrongReject等四大安全基准与MMLU-Pro等五项推理任务组合测试。
背景与挑战
背景概述
STAR-1是由UC Santa Cruz、Google以及Lawrence Livermore National Labs的研究团队于2025年发布的高质量安全对齐数据集,专为大型推理模型(LRMs)设计。该数据集基于多样性、审慎推理和严格过滤三大核心原则构建,旨在解决LRMs在安全对齐方面的关键需求。STAR-1通过整合现有开源安全数据集、生成基于安全政策的审慎推理样本,并利用GPT-4o的安全评分系统筛选最佳实践样本,显著提升了模型的安全性能。实验表明,使用STAR-1微调的LRMs在四个基准测试中平均安全性能提升了40%,同时推理能力仅轻微下降1.1%。STAR-1的发布为LRMs的安全对齐提供了高效且实用的解决方案,推动了相关领域的研究进展。
当前挑战
STAR-1数据集在构建和应用过程中面临多重挑战。首先,LRMs因其独特的链式推理能力,容易受到恶意提示的影响,导致安全性能不足,尤其在R1蒸馏模型中表现更为明显。其次,增强的推理能力可能无意中放大有害输出,增加了安全风险。在数据构建方面,确保样本的多样性和高质量过滤是一大挑战,需通过多步骤去重和严格评分系统来实现。此外,如何在安全对齐与通用推理能力之间取得平衡,避免因安全训练导致的性能下降,也是STAR-1需要解决的核心问题。这些挑战的克服为后续研究提供了重要参考。
常用场景
经典使用场景
STAR-1数据集专为大型推理模型(LRMs)的安全对齐而设计,其经典使用场景包括通过监督微调(Supervised Fine-Tuning, SFT)提升模型在有害指令识别与拒绝方面的能力。实验表明,仅需1K规模的高质量数据,即可在5个R1蒸馏模型上实现平均40%的安全性能提升,同时推理能力仅下降1.1%。该数据集通过多样性采集、深思熟虑的推理范式(Deliberative Reasoning)和严格过滤,确保模型在处理恶意指令时能主动调用安全策略进行逻辑推演,最终生成合规响应。
解决学术问题
STAR-1解决了LRMs安全对齐中的核心学术问题:如何在强化安全性的同时最小化推理能力损耗。传统方法如SafeChain依赖40K数据仍难以平衡两者,而STAR-1通过政策锚定的推理轨迹(Policy-Grounded CoT)和GPT-4o评分过滤,证明了小规模高质量数据的有效性。其设计验证了三个关键原则——多样性、深思熟虑推理和严格过滤——对稳定学习的必要性,并为LRMs与传统LLMs在安全场景下的差异提供了实证依据(如LRMs因固有推理机制更适配安全推理数据)。
衍生相关工作
STAR-1的衍生研究包括:1) SafeChain的改进版本,通过引入政策引用机制提升安全推理精度;2) 基于Deliberative Alignment框架的扩展工作,如Guan等人(2025)提出的多轮策略审议方法;3) 小数据高效对齐的后续探索,如LIMR(Li等,2025)在RL训练中验证高质量筛选的价值。此外,其安全分类体系(8大类别)和评分标准(安全性、政策相关性、推理准确性)被SaladBench等基准采纳,推动了安全评估标准化。
以上内容由遇见数据集搜集并总结生成



