STAR-1
收藏github2025-04-08 更新2025-04-09 收录
下载链接:
https://github.com/UCSC-VLAA/STAR-1
下载链接
链接失效反馈官方服务:
资源简介:
STAR-1是一个高质量的安全数据集,旨在增强大型推理模型(如DeepSeek-R1)的安全性对齐。基于多样性、深思熟虑的推理和严格筛选的原则,STAR-1整合并优化了来自多个来源的数据,提供了基于政策的推理样本。数据集包含1,000个精心挑选的示例,每个示例都通过基于GPT-4o的评估与最佳安全实践对齐。使用STAR-1进行微调可以在多个基准测试中显著提高安全性,同时对推理能力的影响最小。
STAR-1 is a high-quality safety dataset designed to enhance safety alignment for large reasoning models such as DeepSeek-R1. Guided by the principles of diversity, deliberate reasoning, and strict filtering, STAR-1 integrates and optimizes data from multiple sources to provide policy-aligned reasoning samples. The dataset contains 1,000 carefully selected examples, each aligned with best security practices via GPT-4o-based evaluation. Fine-tuning with STAR-1 can significantly improve safety performance across multiple benchmarks while minimizing the impact on reasoning capabilities.
创建时间:
2025-03-31
原始信息汇总
🌟 STAR-1数据集概述
数据集简介
- 名称:STAR-1 (Safer Alignment of Reasoning LLMs with 1K Data)
- 目的:增强大型推理模型(LRMs)的安全对齐能力
- 特点:
- 基于多样性、审慎推理和严格筛选原则构建
- 整合并优化了多源数据,提供基于安全策略的推理样本
- 包含1,000个精心挑选的示例,每个示例都通过GPT-4o评估与最佳安全实践对齐
- 微调后可显著提高多个基准测试的安全性,对推理能力影响最小
数据集组成
| 数据集名称 | 样本数量 | 链接 |
|---|---|---|
| STAR-1 | 1K | https://huggingface.co/datasets/UCSC-VLAA/STAR-1 |
| STAR-41K | 41K | https://huggingface.co/datasets/UCSC-VLAA/STAR-41K |
| STAR-benign-915 | 915 | https://huggingface.co/datasets/UCSC-VLAA/STAR-benign-915 |
模型
| 模型名称 | 类型 | 链接 |
|---|---|---|
| STAR1-R1-Distill-1.5B | R1-Distill-Qwen-1.5B trained on STAR-1 | https://huggingface.co/UCSC-VLAA/STAR1-R1-Distill-1.5B |
| STAR1-R1-Distill-7B | R1-Distill-Qwen-7B trained on STAR-1 | https://huggingface.co/UCSC-VLAA/STAR1-R1-Distill-7B |
| STAR1-R1-Distill-8B | R1-Distill-Llama-8B trained on STAR-1 | https://huggingface.co/UCSC-VLAA/STAR1-R1-Distill-8B |
| STAR1-R1-Distill-14B | R1-Distill-Qwen-14B trained on STAR-1 | https://huggingface.co/UCSC-VLAA/STAR1-R1-Distill-14B |
| STAR1-R1-Distill-32B | R1-Distill-Qwen-32B trained on STAR-1 | https://huggingface.co/UCSC-VLAA/STAR1-R1-Distill-32B |
数据集结构
data_making/:STAR-1数据制作流程data_collection/:数据收集deliberative_reasoning/:审慎推理data_selection/:数据选择
train/:训练脚本benchmark/:评估脚本safe_benchmark/:安全性评估reasoning_benchmark/:推理评估
overrefusal_ablation/:过度拒绝行为的缓解
快速开始
bash git clone https://github.com/UCSC-VLAA/STAR-1.git cd STAR-1 pip install -e .
引用
bibtex @article{wang2025star1saferalignmentreasoning, title={STAR-1: Safer Alignment of Reasoning LLMs with 1K Data}, author={Zijun Wang and Haoqin Tu and Yuhan Wang and Juncheng Wu and Jieru Mei and Brian R. Bartoldson and Bhavya Kailkhura and Cihang Xie}, year={2025}, journal = {arXiv preprint arXiv:2504.01903} }
致谢
- 部分支持来自Open Philanthropy的捐赠
- 感谢NAIRR Pilot Program和Microsoft Accelerate Foundation Models Research Program对计算需求的支持
- LLNL合著者在美国能源部合同DE-AC52-07NA27344和LLNL-LDRD计划项目No. 24-ERD-058下获得支持
搜集汇总
数据集介绍

构建方式
STAR-1数据集构建过程体现了严谨的科学方法论,其核心在于多源数据整合与精细化处理。研究团队首先从多个渠道收集初始数据,经过去重后形成41K样本池,随后通过GPT-4o进行安全类别标注,并利用DeepSeek-R1生成符合安全政策的推理过程。最终采用基于GPT-4o的评分系统进行样本筛选,在确保准确性的前提下兼顾多样性,最终精选出1000个具有政策依据的推理样本。整个流程包含数据收集、深思推理生成和严格筛选三个阶段,每个环节均设有质量控制机制。
特点
该数据集最显著的特征在于其高质量的安全对齐属性,每个样本都经过深思熟虑的推理过程并与安全政策相锚定。样本覆盖范围经过精心设计,在保持规模精简(仅1000例)的同时,通过平衡采样策略确保了各类安全场景的代表性。特别值得注意的是,数据集在提升模型安全性的同时,通过保留原始问题的语义完整性,最大程度降低了对模型推理能力的负面影响。配套提供的915个良性变体样本,为研究安全对齐中的过度拒绝问题提供了独特的研究素材。
使用方法
使用STAR-1进行模型训练需遵循标准化流程,研究者可通过提供的训练脚本配置多GPU分布式训练环境。数据集支持灵活的应用方式,既可单独使用核心的1K安全样本进行微调,也可结合良性样本开展对比实验。评估环节包含完整的安全基准和推理基准测试套件,用户只需修改配置文件中的模型路径即可对不同版本模型进行系统评估。针对特定研究需求,配套工具链还支持对数据生成管道各阶段进行定制化调整,如修改深思推理的生成策略或调整样本选择标准。
背景与挑战
背景概述
STAR-1数据集由UCSC-VLAA团队于2025年发布,旨在提升大型推理模型(LRMs)的安全对齐能力。该数据集基于多样性、审慎推理和严格筛选的原则,整合并优化了多源数据,提供了基于政策的安全推理样本。STAR-1包含1,000个精心挑选的示例,每个示例均通过GPT-4o评估与最佳安全实践对齐。该数据集的发布显著提升了模型在多个基准测试中的安全性,同时对推理能力的影响降至最低。其核心研究问题聚焦于如何在有限数据下实现高效的安全对齐,为相关领域提供了重要的研究基础。
当前挑战
STAR-1数据集在解决安全对齐问题时面临多重挑战。领域问题方面,如何在保持模型推理能力的同时提升其安全性是一个关键难题,需平衡安全性与性能的权衡。构建过程中,数据筛选的严格性要求极高,确保每个样本均符合安全标准且具有代表性。此外,数据多样性不足可能导致模型泛化能力受限,而依赖GPT-4o评估也引入了计算成本与评估一致性的挑战。这些因素共同构成了STAR-1数据集在研究与实际应用中的主要障碍。
常用场景
经典使用场景
在大型推理模型(LRMs)的安全对齐研究中,STAR-1数据集因其高质量和精心筛选的特性,成为评估和提升模型安全性的重要工具。该数据集通过多样化的样本和基于政策的推理过程,为研究者提供了一个标准化的测试平台,用于验证模型在复杂情境下的安全表现。
衍生相关工作
STAR-1数据集催生了一系列经典研究工作,包括基于其衍生的STAR-41K和STAR-benign-915数据集。这些工作进一步扩展了安全对齐的研究范围,推动了如DeepSeek-R1等模型在安全性和推理能力上的双重优化,为后续研究提供了重要参考。
数据集最近研究
最新研究方向
在大型语言模型安全对齐领域,STAR-1数据集以其精炼的1K样本规模和基于GPT-4o的严格筛选机制,为推理模型的安全性能优化提供了新的研究范式。当前研究聚焦于如何在保持模型推理能力的同时,通过政策导向的深思熟虑推理过程,有效提升模型对潜在有害内容的识别与规避能力。该数据集的应用显著改善了模型在安全基准测试中的表现,同时引发了对过度拒绝行为的深入探讨,相关研究正探索通过良性变体数据训练来平衡安全性与实用性。这一方向与当下人工智能伦理治理的热点议题相呼应,为构建更可靠的大型推理模型提供了重要技术支撑。
以上内容由遇见数据集搜集并总结生成



