STAR-benign-915

Name: STAR-benign-915
Creator: UCSC-VLAA
Published: 2025-04-04 14:21:06
License: 暂无描述

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/UCSC-VLAA/STAR-benign-915

下载链接

链接失效反馈

官方服务：

资源简介：

STAR-1是一个高质量的安全数据集，旨在增强大型推理模型（LRMs）如DeepSeek-R1的安全对齐。该数据集基于多样性、深思熟虑的推理和严格的过滤原则构建，整合并优化了多个来源的数据，提供了以政策为基础的推理样本。STAR-1包含1000个精心挑选的示例，每个示例都通过基于GPT-4o的评价与最佳安全实践保持一致。使用STAR-1进行微调可以在多个基准测试中显著提高安全性，同时对推理能力的影响最小。

提供机构：

UCSC-VLAA

创建时间：

2025-04-04

原始信息汇总

数据集概述：STAR-benign-915

基本信息

数据集名称：STAR-benign-915
许可证：Apache-2.0
语言：英语 (en)
标签：LLM, LRM, Safety
规模分类：n<1K (小于1千样本)

数据集结构

特征

id：字符串类型，唯一标识符
question：字符串类型，问题文本
response：字符串类型，回答文本
source：字符串类型，数据来源
score：结构化评分，包含以下子字段：
- Compliance_Degree：int64类型，合规程度评分
- Content_Safety_Compliance：int64类型，内容安全合规评分
- Quality_of_Thinking_Process：int64类型，思维过程质量评分

数据划分

训练集 (train)：
- 样本数量：915
- 数据大小：5,926,936字节
- 下载大小：3,315,981字节

数据集背景

所属项目：STAR-1 (Safer Alignment of Reasoning LLMs with 1K Data)
用途：作为STAR-1的良性变体数据集，用于缓解过度拒绝问题
关联资源：
- 主数据集：STAR-1 (1K样本)
- 扩展数据集：STAR-41K (41K样本)

引用信息

bibtex @article{wang2025star1saferalignmentreasoning, title={STAR-1: Safer Alignment of Reasoning LLMs with 1K Data}, author={Zijun Wang and Haoqin Tu and Yuhan Wang and Juncheng Wu and Jieru Mei and Brian R. Bartoldson and Bhavya Kailkhura and Cihang Xie}, year={2025}, journal = {arXiv preprint arXiv:2504.01903} }

搜集汇总

数据集介绍

构建方式

在大型推理模型安全对齐研究领域，STAR-benign-915数据集通过多源数据整合与精炼构建而成。该数据集基于多样性、审慎推理和严格筛选三大原则，从STAR-1原始数据中提取915个良性变体样本，每个样本均经过GPT-4o驱动的安全评估体系验证。数据采集过程采用结构化评分机制，涵盖合规程度、内容安全合规性及思维过程质量三个维度的量化指标，确保数据具有政策基础推理特性。

特点

作为安全对齐研究的重要资源，STAR-benign-915数据集展现出鲜明的专业特征。其核心价值在于精选的915个低风险样本，这些样本通过多维度评分体系（Compliance_Degree、Content_Safety_Compliance、Quality_of_Thinking_Process）实现量化评估。数据集采用标准化结构存储，包含问题-回答对、数据来源标识及复合评分结构，特别针对缓解大型语言模型过度拒绝现象而优化，在保持原始推理能力的同时显著提升安全性能。

使用方法

该数据集主要服务于大型语言模型安全对齐的微调与研究，使用者可通过HuggingFace平台直接加载train分割的915个样本。典型应用场景包括：基于评分指标筛选特定安全等级的样本进行针对性训练；分析良性变体对模型过度拒绝行为的改善效果；或作为STAR-1主数据集的补充材料进行对比研究。数据以Apache-2.0协议开源，支持研究者自由调用各字段（id/question/response等）开展实验，相关预处理代码可参考项目页提供的技术文档。

背景与挑战

背景概述

STAR-benign-915数据集由UCSC-VLAA团队于2025年发布，旨在提升大型推理模型（LRMs）的安全对齐能力。该数据集作为STAR-1项目的子集，专注于缓解模型过度拒绝的问题，包含915个经过严格筛选的良性样本。研究团队基于多样性、审慎推理和严格过滤的原则，整合多源数据并通过GPT-4o评估实现安全策略的落地。该工作获得Open Philanthropy等机构的支持，其核心价值在于平衡模型安全性与推理性能，为AI安全领域提供了可扩展的微调范式。

当前挑战

该数据集需解决两大核心挑战：在领域问题层面，如何精准界定安全合规与过度拒绝的边界成为关键，需确保模型在规避有害输出的同时保持正常推理能力；在构建过程中，样本筛选需兼顾政策合规性、思维过程质量和内容安全的三维评估，而GPT-4o作为评判工具可能引入评估偏差。此外，915个样本的小规模特性要求数据具有极高的代表性和信息密度，这对源数据的多模态融合与质量过滤机制提出了严峻考验。

常用场景

经典使用场景

在大型推理模型（LRMs）的安全对齐研究中，STAR-benign-915数据集被广泛用于评估和优化模型的安全性能。该数据集通过精心筛选的915个良性变体样本，为研究者提供了一个可靠的基准，用于测试模型在避免过度拒绝（overrefusal）方面的表现。其多样化的样本结构和严格的安全评估标准，使得该数据集成为安全对齐领域的重要工具。

实际应用

在实际应用中，STAR-benign-915数据集被用于优化大型语言模型的安全策略，特别是在需要高安全标准的领域，如医疗、金融和法律咨询。通过使用该数据集，开发者能够训练出更加稳健的模型，确保其在处理敏感话题时既能避免有害输出，又能保持高效的推理能力。

衍生相关工作

围绕STAR-benign-915数据集，研究者们开展了一系列经典工作，包括基于该数据集的模型微调方法、安全评估框架的设计以及与其他安全数据集的对比研究。这些工作不仅推动了安全对齐技术的发展，还为后续研究提供了丰富的实验数据和理论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集