SOSBENCH

Name: SOSBENCH
Creator: 华盛顿大学、乔治亚大学、威廉玛丽学院、伊利诺伊大学
Published: 2025-05-28 01:47:08
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://github.com/SOSBench, https://hf.co/SOSBench

下载链接

链接失效反馈

官方服务：

资源简介：

SOSBENCH是一个基于规则的、专注于危害的安全基准，涵盖六个高风险的科学领域：化学、生物学、医学、药理学、物理学和心理学。该基准包含3000个来自现实世界法规的提示，通过LLM辅助的进化管道系统地扩展，引入多样化的、现实的滥用场景。SOSBENCH旨在评估LLMs在处理需要深入科学专业知识的高风险场景时的安全性，并揭示现有LLMs在安全对齐方面的重大缺陷。

SOSBENCH is a rule-based safety benchmark focused on harm, covering six high-risk scientific disciplines: chemistry, biology, medicine, pharmacology, physics, and psychology. It includes 3,000 prompts sourced from real-world regulations, which are systematically expanded via an LLM-aided evolutionary pipeline to introduce diverse, realistic abuse scenarios. SOSBENCH aims to evaluate the safety of LLMs when handling high-risk scenarios requiring in-depth scientific expertise, and to uncover significant flaws in the safety alignment of existing LLMs.

提供机构：

华盛顿大学、乔治亚大学、威廉玛丽学院、伊利诺伊大学

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

SOSBENCH数据集的构建采用了多阶段流程，首先基于权威监管框架（如美国国家标准与技术研究院NFPA 704、世界卫生组织ICD-11等）人工收集高风险科学术语种子库，涵盖化学、生物学等六大领域。随后通过混合模板生成技术，结合AdvBench现有模板与专家编写的真实案例模板，形成初始提示集。创新性地采用LLM辅助的数据进化算法，通过提示变异（保留科学术语但重构表达形式）和多模型验证机制（使用Llama-3.1-8B等弱对齐模型筛选有效有害提示），最终构建包含3,000条提示的基准测试集，每条提示均锚定具体监管条款定义的高风险科学概念。

特点

该数据集具有三个核心特征：其一，监管依据性，所有提示均严格对应美国联邦法规、联合国公约等42项权威文本明确定义的高风险科学场景；其二，知识密集性，通过PubChem等专业数据库扩展术语变体（如TNT的分子式C7H5N3O6），确保测试需要深度领域知识；其三，语义多样性，t-SNE可视化显示其嵌入空间覆盖范围较现有基准扩大3.2倍，包含79.1%独特风险模式。特别设计轻量版SOSBENCH-Lite（300条）便于快速验证。

使用方法

使用该数据集时需采用标准化评估框架：首先加载提示集并通过统一API接口（最大5120 tokens）获取模型响应，随后采用GPT-4.1构建的LLM-Judge评估器（ACC 85.4%）进行有害性判定，计算有害响应率（HR）。建议配合RedTeam-2K参考集进行对抗测试，重点关注药理学等薄弱领域（HR达81.8%）。评估时应控制温度参数为0以保证可重复性，对思维链模型需同步记录中间推理过程。数据集支持风险类别细粒度分析（如图2的41%非法行为类提示），允许跨模型安全对齐性能的维度对比。

背景与挑战

背景概述

SOSBENCH是由华盛顿大学、乔治亚大学等机构的研究团队于2025年提出的科学知识安全对齐基准测试。该数据集聚焦于大型语言模型（LLMs）在化学、生物学、医学、药理学、物理学和心理学六个高风险科学领域的滥用风险评估。研究团队基于美国政府和联合国等权威机构的监管框架，构建了包含3000个提示词的测试集，通过LLM辅助的进化管道系统性地扩展真实世界的滥用场景。作为首个以法规为基础、多学科交叉的危险聚焦型基准，SOSBENCH填补了现有安全评估在科学知识密集型场景的空白，对促进AI安全对齐研究具有里程碑意义。

当前挑战

SOSBENCH面临双重挑战：在领域问题层面，现有安全基准多关注基础风险场景（如暴力指令），难以评估模型处理需要深层次科学知识的危险场景（如高级化学公式的爆炸物合成指导）的能力；在构建过程层面，需平衡术语的专业性与监管相关性，通过进化算法确保提示词的多样性和有效性，同时避免产生实际危害内容。实验显示前沿模型在药理学等领域的违规响应率高达79.1%，暴露出知识增长与安全防护之间的严重失衡问题。

常用场景

经典使用场景

SOSBENCH数据集在评估大型语言模型（LLMs）在科学知识密集型高风险场景中的安全对齐能力方面具有经典应用。该数据集通过涵盖化学、生物学、医学、药理学、物理学和心理学六个领域的3000个提示，系统地测试模型在面对涉及深度科学知识的潜在危险指令时的反应。例如，模型可能被要求提供涉及高级化学公式的爆炸物合成详细指导，从而评估其是否能够识别并拒绝此类高风险请求。

解决学术问题

SOSBENCH解决了现有安全基准在科学知识密集型危险场景评估上的不足。传统基准多聚焦于常识性风险（如暴力指令）或低风险科学任务（如选择题），而SOSBENCH基于真实法规构建提示，填补了模型在复杂科学领域安全对齐的评估空白。其实证结果表明，即使前沿模型（如GPT-4.1和Deepseek-R1）在常规基准表现良好，但在科学风险场景中仍存在47.3%-79.1%的有害响应率，揭示了安全机制与科学能力发展不匹配的核心问题。

衍生相关工作

SOSBENCH催生了多个重要研究方向：1）基于其发现的科学领域对齐缺陷，后续研究如《SafeChain》探索了长链推理对安全性的影响；2）启发了针对特定科学领域的细化基准，如化学专用的ChemSafetyEval；3）促进了新型对齐方法开发，如利用表征重定向（RMU）从模型中删除危险知识的研究。这些工作共同推动了AI安全在科学场景下的方法论创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集