five

CoSAlign-Test

收藏
Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/microsoft/CoSAlign-Test
下载链接
链接失效反馈
官方服务:
资源简介:
CoSAlign-Train是一个大规模合成分类测试数据集,用于评估大型语言模型在可控安全对齐方面的性能。它包括8个不同的安全配置,其中5个在训练中见过,3个是未见过的。数据集包含3200个评估提示,覆盖了多样的、细微的风险场景。
提供机构:
Microsoft
创建时间:
2025-05-01
原始信息汇总

数据集概述:CoSAlign-Test

基本信息

数据集目的

用于评估大型语言模型(LLMs)在可控安全对齐(CoSA)方面的性能,支持对多样化安全需求的细粒度推理时适应。

数据集组成

  • 特征:
    • prompt: 字符串类型
    • mode: 字符串类型
    • situation: 字符串类型
  • 分割:
    • seen配置:
      • Violence: 400个示例
      • Financial_Crime_and_Theft.Privacy_Violations: 400个示例
      • Discrimination_and_Verbal_Abuse.Violence: 400个示例
      • Financial_Crime_and_Theft.Discrimination_and_Verbal_Abuse.Violence: 400个示例
      • safe: 400个示例
    • unseen配置:
      • Illegal_Drug.Related_Activities_and_Substance_Abuse: 400个示例
      • Sexual_Misconduct_Exploitation_and_Infidelity: 400个示例
      • Violence.Weapons_Explosives_Arson_and_Illegal_Firearm_Transactions: 400个示例
  • 总示例数: 3200个评估提示

评估协议

使用CoSA-Score指标,综合判断模型的帮助性和对指定安全配置的遵从性。

字段解释

  • mode: 提示与配置的关系
    • safe: 任何有帮助的模型都应能获得helpful-adhere
    • exact / subset: 非常安全的模型是not_helpful-adhere,不安全的模型和我们的模型应大多是helpful-adhere
    • not subset: 非常安全的模型是not_helpful-adhere,不安全的模型应大多是helpful-not_adhere,我们的模型应大多是not_helpful-adhere
  • situation: 理想可控安全对齐模型实现helpful-adhere的可能性排序
    1. safe, exact, subset
    2. not subset(提示类别与规范有重叠)
    3. not subset(提示类别与规范无重叠)

应用

评估推理时的可控性以及对未见安全场景的泛化能力。

作者

Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

搜集汇总
数据集介绍
main_image_url
构建方式
在可控安全对齐研究领域,CoSAlign-Test数据集通过系统化方法构建,涵盖8类安全配置场景,包括暴力、金融犯罪等5类已知风险及3类未知风险。研究团队采用分层抽样策略,确保每个配置包含400个评估提示,共计3200个样本。数据生成过程严格遵循论文第5.2节定义的提示-配置关系模式,特别设计safe/exact/subset等三种情境以全面测试模型响应能力。
特点
该数据集最显著的特点是实现了安全场景的多维度覆盖,既包含训练阶段接触过的已知风险类别,又引入未见的复杂风险组合。每个测试配置都精心设计了自然语言安全规范,并配套生成能诱发允许、禁止及部分允许响应的评估提示。数据字段包含prompt、mode和situation三重维度,其中situation字段按照理想模型达成helpful-adhere的可能性进行分级标注,为模型可控性评估提供细粒度标准。
使用方法
使用该数据集时需配合论文提出的CoSA-Score评估指标,该指标综合考量模型响应的有用性及对指定安全配置的遵从度。评估过程应区分seen和unseen两种配置模式,分别测试模型对已知安全要求的适应能力和对未知风险的泛化性能。数据文件按风险类别分拆存储,研究者可通过加载不同split来构建特定场景的测试集,实现定制化评估方案。
背景与挑战
背景概述
CoSAlign-Test数据集由微软研究院等机构于2024年开发,旨在评估大型语言模型在安全对齐任务中的可控性。该数据集作为ICLR 2025会议论文《Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements》的核心组成部分,聚焦于解决人工智能安全领域的关键问题——如何在推理阶段动态适应多样化的安全需求。数据集包含8类安全配置场景,涵盖暴力、金融犯罪、歧视等敏感话题,通过3200个精心设计的评估提示,为研究者提供了系统评估模型安全可控性的标准化工具。
当前挑战
该数据集面临的领域挑战主要在于平衡模型输出的帮助性与安全性,特别是在处理部分允许响应的灰色地带时。构建过程中的技术挑战包括:安全场景的系统性分类需要多学科专家协作;提示工程需精确反映不同安全配置下的合规边界;未见过安全配置的引入增加了评估泛化能力的难度。数据标注的一致性保障要求建立严格的质量控制机制,而安全敏感内容的处理则涉及复杂的伦理审查流程。
常用场景
经典使用场景
在大型语言模型(LLMs)的安全对齐研究中,CoSAlign-Test数据集被广泛用于评估模型在推理阶段对多样化安全需求的适应性。该数据集通过精细划分的安全配置和系统生成的评估提示,为研究者提供了一个标准化的测试平台,用以验证模型在允许、禁止及部分允许响应场景下的表现。特别是在可控安全对齐(CoSA)领域,该数据集已成为衡量模型安全性和可控性的重要基准。
实际应用
在实际应用中,CoSAlign-Test数据集被用于优化大型语言模型在真实场景中的安全表现。例如,在内容审核系统中,该数据集可帮助训练模型识别并规避涉及暴力、金融犯罪或歧视性言论的风险内容。同时,在个性化服务领域,数据集支持模型根据用户定义的安全需求动态调整响应策略,从而在保障安全性的前提下提升用户体验。其细粒度的配置划分也为法律合规和伦理审查提供了技术支撑。
衍生相关工作
围绕CoSAlign-Test数据集,学术界衍生了一系列经典研究。例如,微软团队提出的可控安全对齐框架(CoSA)利用该数据集验证了推理阶段自适应技术的有效性。此外,多项工作基于数据集的细分场景开发了新型安全评估指标,如安全-有用性权衡分析。在模型优化方面,部分研究通过迁移学习将数据集的配置泛化至更广泛的风险领域,进一步扩展了安全对齐的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作