CoSAlign-Test

Name: CoSAlign-Test
Creator: Microsoft
Published: 2025-05-05 12:27:30
License: 暂无描述

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/microsoft/CoSAlign-Test

下载链接

链接失效反馈

官方服务：

资源简介：

CoSAlign-Train是一个大规模合成分类测试数据集，用于评估大型语言模型在可控安全对齐方面的性能。它包括8个不同的安全配置，其中5个在训练中见过，3个是未见过的。数据集包含3200个评估提示，覆盖了多样的、细微的风险场景。

提供机构：

Microsoft

创建时间：

2025-05-01

原始信息汇总

数据集概述：CoSAlign-Test

基本信息

数据集名称: CoSAlign-Test
许可证: CC-BY-NC-4.0
下载大小: 164608字节
数据集大小: 326510字节
论文: Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements
项目URL: https://aka.ms/controllable-safety-alignment

数据集目的

用于评估大型语言模型（LLMs）在可控安全对齐（CoSA）方面的性能，支持对多样化安全需求的细粒度推理时适应。

数据集组成

特征:
- prompt: 字符串类型
- mode: 字符串类型
- situation: 字符串类型
分割:
- seen配置:
  - Violence: 400个示例
  - Financial_Crime_and_Theft.Privacy_Violations: 400个示例
  - Discrimination_and_Verbal_Abuse.Violence: 400个示例
  - Financial_Crime_and_Theft.Discrimination_and_Verbal_Abuse.Violence: 400个示例
  - safe: 400个示例
- unseen配置:
  - Illegal_Drug.Related_Activities_and_Substance_Abuse: 400个示例
  - Sexual_Misconduct_Exploitation_and_Infidelity: 400个示例
  - Violence.Weapons_Explosives_Arson_and_Illegal_Firearm_Transactions: 400个示例
总示例数: 3200个评估提示

评估协议

使用CoSA-Score指标，综合判断模型的帮助性和对指定安全配置的遵从性。

字段解释

mode: 提示与配置的关系
- safe: 任何有帮助的模型都应能获得helpful-adhere
- exact / subset: 非常安全的模型是not_helpful-adhere，不安全的模型和我们的模型应大多是helpful-adhere
- not subset: 非常安全的模型是not_helpful-adhere，不安全的模型应大多是helpful-not_adhere，我们的模型应大多是not_helpful-adhere
situation: 理想可控安全对齐模型实现helpful-adhere的可能性排序
1. safe, exact, subset
2. not subset（提示类别与规范有重叠）
3. not subset（提示类别与规范无重叠）

应用

评估推理时的可控性以及对未见安全场景的泛化能力。

作者

Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

搜集汇总

数据集介绍

构建方式

在可控安全对齐研究领域，CoSAlign-Test数据集通过系统化方法构建，涵盖8类安全配置场景，包括暴力、金融犯罪等5类已知风险及3类未知风险。研究团队采用分层抽样策略，确保每个配置包含400个评估提示，共计3200个样本。数据生成过程严格遵循论文第5.2节定义的提示-配置关系模式，特别设计safe/exact/subset等三种情境以全面测试模型响应能力。

特点

该数据集最显著的特点是实现了安全场景的多维度覆盖，既包含训练阶段接触过的已知风险类别，又引入未见的复杂风险组合。每个测试配置都精心设计了自然语言安全规范，并配套生成能诱发允许、禁止及部分允许响应的评估提示。数据字段包含prompt、mode和situation三重维度，其中situation字段按照理想模型达成helpful-adhere的可能性进行分级标注，为模型可控性评估提供细粒度标准。

使用方法

使用该数据集时需配合论文提出的CoSA-Score评估指标，该指标综合考量模型响应的有用性及对指定安全配置的遵从度。评估过程应区分seen和unseen两种配置模式，分别测试模型对已知安全要求的适应能力和对未知风险的泛化性能。数据文件按风险类别分拆存储，研究者可通过加载不同split来构建特定场景的测试集，实现定制化评估方案。

背景与挑战

背景概述

CoSAlign-Test数据集由微软研究院等机构于2024年开发，旨在评估大型语言模型在安全对齐任务中的可控性。该数据集作为ICLR 2025会议论文《Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements》的核心组成部分，聚焦于解决人工智能安全领域的关键问题——如何在推理阶段动态适应多样化的安全需求。数据集包含8类安全配置场景，涵盖暴力、金融犯罪、歧视等敏感话题，通过3200个精心设计的评估提示，为研究者提供了系统评估模型安全可控性的标准化工具。

当前挑战

该数据集面临的领域挑战主要在于平衡模型输出的帮助性与安全性，特别是在处理部分允许响应的灰色地带时。构建过程中的技术挑战包括：安全场景的系统性分类需要多学科专家协作；提示工程需精确反映不同安全配置下的合规边界；未见过安全配置的引入增加了评估泛化能力的难度。数据标注的一致性保障要求建立严格的质量控制机制，而安全敏感内容的处理则涉及复杂的伦理审查流程。

常用场景

经典使用场景

在大型语言模型（LLMs）的安全对齐研究中，CoSAlign-Test数据集被广泛用于评估模型在推理阶段对多样化安全需求的适应性。该数据集通过精细划分的安全配置和系统生成的评估提示，为研究者提供了一个标准化的测试平台，用以验证模型在允许、禁止及部分允许响应场景下的表现。特别是在可控安全对齐（CoSA）领域，该数据集已成为衡量模型安全性和可控性的重要基准。

实际应用

在实际应用中，CoSAlign-Test数据集被用于优化大型语言模型在真实场景中的安全表现。例如，在内容审核系统中，该数据集可帮助训练模型识别并规避涉及暴力、金融犯罪或歧视性言论的风险内容。同时，在个性化服务领域，数据集支持模型根据用户定义的安全需求动态调整响应策略，从而在保障安全性的前提下提升用户体验。其细粒度的配置划分也为法律合规和伦理审查提供了技术支撑。

衍生相关工作

围绕CoSAlign-Test数据集，学术界衍生了一系列经典研究。例如，微软团队提出的可控安全对齐框架（CoSA）利用该数据集验证了推理阶段自适应技术的有效性。此外，多项工作基于数据集的细分场景开发了新型安全评估指标，如安全-有用性权衡分析。在模型优化方面，部分研究通过迁移学习将数据集的配置泛化至更广泛的风险领域，进一步扩展了安全对齐的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集