STAR-benign-915
收藏Hugging Face2025-04-04 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/STAR-benign-915
下载链接
链接失效反馈官方服务:
资源简介:
STAR-1是一个高质量的安全数据集,旨在增强大型推理模型(LRMs)如DeepSeek-R1的安全对齐。该数据集基于多样性、深思熟虑的推理和严格的过滤原则构建,整合并优化了多个来源的数据,提供了以政策为基础的推理样本。STAR-1包含1000个精心挑选的示例,每个示例都通过基于GPT-4o的评价与最佳安全实践保持一致。使用STAR-1进行微调可以在多个基准测试中显著提高安全性,同时对推理能力的影响最小。
提供机构:
UCSC-VLAA
创建时间:
2025-04-04
原始信息汇总
数据集概述:STAR-benign-915
基本信息
- 数据集名称:STAR-benign-915
- 许可证:Apache-2.0
- 语言:英语 (en)
- 标签:LLM, LRM, Safety
- 规模分类:n<1K (小于1千样本)
数据集结构
特征
id:字符串类型,唯一标识符question:字符串类型,问题文本response:字符串类型,回答文本source:字符串类型,数据来源score:结构化评分,包含以下子字段:Compliance_Degree:int64类型,合规程度评分Content_Safety_Compliance:int64类型,内容安全合规评分Quality_of_Thinking_Process:int64类型,思维过程质量评分
数据划分
- 训练集 (train):
- 样本数量:915
- 数据大小:5,926,936字节
- 下载大小:3,315,981字节
数据集背景
- 所属项目:STAR-1 (Safer Alignment of Reasoning LLMs with 1K Data)
- 用途:作为STAR-1的良性变体数据集,用于缓解过度拒绝问题
- 关联资源:
相关模型
- 基于STAR-1训练的多规模模型:
- 1.5B参数:
STAR1-R1-Distill-1.5B - 7B参数:
STAR1-R1-Distill-7B - 8B参数:
STAR1-R1-Distill-8B - 14B参数:
STAR1-R1-Distill-14B - 32B参数:
STAR1-R1-Distill-32B
- 1.5B参数:
引用信息
bibtex @article{wang2025star1saferalignmentreasoning, title={STAR-1: Safer Alignment of Reasoning LLMs with 1K Data}, author={Zijun Wang and Haoqin Tu and Yuhan Wang and Juncheng Wu and Jieru Mei and Brian R. Bartoldson and Bhavya Kailkhura and Cihang Xie}, year={2025}, journal = {arXiv preprint arXiv:2504.01903} }
搜集汇总
数据集介绍

构建方式
在大型推理模型安全对齐研究领域,STAR-benign-915数据集通过多源数据整合与精炼构建而成。该数据集基于多样性、审慎推理和严格筛选三大原则,从STAR-1原始数据中提取915个良性变体样本,每个样本均经过GPT-4o驱动的安全评估体系验证。数据采集过程采用结构化评分机制,涵盖合规程度、内容安全合规性及思维过程质量三个维度的量化指标,确保数据具有政策基础推理特性。
特点
作为安全对齐研究的重要资源,STAR-benign-915数据集展现出鲜明的专业特征。其核心价值在于精选的915个低风险样本,这些样本通过多维度评分体系(Compliance_Degree、Content_Safety_Compliance、Quality_of_Thinking_Process)实现量化评估。数据集采用标准化结构存储,包含问题-回答对、数据来源标识及复合评分结构,特别针对缓解大型语言模型过度拒绝现象而优化,在保持原始推理能力的同时显著提升安全性能。
使用方法
该数据集主要服务于大型语言模型安全对齐的微调与研究,使用者可通过HuggingFace平台直接加载train分割的915个样本。典型应用场景包括:基于评分指标筛选特定安全等级的样本进行针对性训练;分析良性变体对模型过度拒绝行为的改善效果;或作为STAR-1主数据集的补充材料进行对比研究。数据以Apache-2.0协议开源,支持研究者自由调用各字段(id/question/response等)开展实验,相关预处理代码可参考项目页提供的技术文档。
背景与挑战
背景概述
STAR-benign-915数据集由UCSC-VLAA团队于2025年发布,旨在提升大型推理模型(LRMs)的安全对齐能力。该数据集作为STAR-1项目的子集,专注于缓解模型过度拒绝的问题,包含915个经过严格筛选的良性样本。研究团队基于多样性、审慎推理和严格过滤的原则,整合多源数据并通过GPT-4o评估实现安全策略的落地。该工作获得Open Philanthropy等机构的支持,其核心价值在于平衡模型安全性与推理性能,为AI安全领域提供了可扩展的微调范式。
当前挑战
该数据集需解决两大核心挑战:在领域问题层面,如何精准界定安全合规与过度拒绝的边界成为关键,需确保模型在规避有害输出的同时保持正常推理能力;在构建过程中,样本筛选需兼顾政策合规性、思维过程质量和内容安全的三维评估,而GPT-4o作为评判工具可能引入评估偏差。此外,915个样本的小规模特性要求数据具有极高的代表性和信息密度,这对源数据的多模态融合与质量过滤机制提出了严峻考验。
常用场景
经典使用场景
在大型推理模型(LRMs)的安全对齐研究中,STAR-benign-915数据集被广泛用于评估和优化模型的安全性能。该数据集通过精心筛选的915个良性变体样本,为研究者提供了一个可靠的基准,用于测试模型在避免过度拒绝(overrefusal)方面的表现。其多样化的样本结构和严格的安全评估标准,使得该数据集成为安全对齐领域的重要工具。
实际应用
在实际应用中,STAR-benign-915数据集被用于优化大型语言模型的安全策略,特别是在需要高安全标准的领域,如医疗、金融和法律咨询。通过使用该数据集,开发者能够训练出更加稳健的模型,确保其在处理敏感话题时既能避免有害输出,又能保持高效的推理能力。
衍生相关工作
围绕STAR-benign-915数据集,研究者们开展了一系列经典工作,包括基于该数据集的模型微调方法、安全评估框架的设计以及与其他安全数据集的对比研究。这些工作不仅推动了安全对齐技术的发展,还为后续研究提供了丰富的实验数据和理论参考。
以上内容由遇见数据集搜集并总结生成



