SOSBENCH
收藏arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://github.com/SOSBench, https://hf.co/SOSBench
下载链接
链接失效反馈官方服务:
资源简介:
SOSBENCH是一个基于规则的、专注于危害的安全基准,涵盖六个高风险的科学领域:化学、生物学、医学、药理学、物理学和心理学。该基准包含3000个来自现实世界法规的提示,通过LLM辅助的进化管道系统地扩展,引入多样化的、现实的滥用场景。SOSBENCH旨在评估LLMs在处理需要深入科学专业知识的高风险场景时的安全性,并揭示现有LLMs在安全对齐方面的重大缺陷。
SOSBENCH is a rule-based safety benchmark focused on harm, covering six high-risk scientific disciplines: chemistry, biology, medicine, pharmacology, physics, and psychology. It includes 3,000 prompts sourced from real-world regulations, which are systematically expanded via an LLM-aided evolutionary pipeline to introduce diverse, realistic abuse scenarios. SOSBENCH aims to evaluate the safety of LLMs when handling high-risk scenarios requiring in-depth scientific expertise, and to uncover significant flaws in the safety alignment of existing LLMs.
提供机构:
华盛顿大学、乔治亚大学、威廉玛丽学院、伊利诺伊大学
创建时间:
2025-05-28
搜集汇总
数据集介绍

构建方式
SOSBENCH数据集的构建采用了多阶段流程,首先基于权威监管框架(如美国国家标准与技术研究院NFPA 704、世界卫生组织ICD-11等)人工收集高风险科学术语种子库,涵盖化学、生物学等六大领域。随后通过混合模板生成技术,结合AdvBench现有模板与专家编写的真实案例模板,形成初始提示集。创新性地采用LLM辅助的数据进化算法,通过提示变异(保留科学术语但重构表达形式)和多模型验证机制(使用Llama-3.1-8B等弱对齐模型筛选有效有害提示),最终构建包含3,000条提示的基准测试集,每条提示均锚定具体监管条款定义的高风险科学概念。
特点
该数据集具有三个核心特征:其一,监管依据性,所有提示均严格对应美国联邦法规、联合国公约等42项权威文本明确定义的高风险科学场景;其二,知识密集性,通过PubChem等专业数据库扩展术语变体(如TNT的分子式C7H5N3O6),确保测试需要深度领域知识;其三,语义多样性,t-SNE可视化显示其嵌入空间覆盖范围较现有基准扩大3.2倍,包含79.1%独特风险模式。特别设计轻量版SOSBENCH-Lite(300条)便于快速验证。
使用方法
使用该数据集时需采用标准化评估框架:首先加载提示集并通过统一API接口(最大5120 tokens)获取模型响应,随后采用GPT-4.1构建的LLM-Judge评估器(ACC 85.4%)进行有害性判定,计算有害响应率(HR)。建议配合RedTeam-2K参考集进行对抗测试,重点关注药理学等薄弱领域(HR达81.8%)。评估时应控制温度参数为0以保证可重复性,对思维链模型需同步记录中间推理过程。数据集支持风险类别细粒度分析(如图2的41%非法行为类提示),允许跨模型安全对齐性能的维度对比。
背景与挑战
背景概述
SOSBENCH是由华盛顿大学、乔治亚大学等机构的研究团队于2025年提出的科学知识安全对齐基准测试。该数据集聚焦于大型语言模型(LLMs)在化学、生物学、医学、药理学、物理学和心理学六个高风险科学领域的滥用风险评估。研究团队基于美国政府和联合国等权威机构的监管框架,构建了包含3000个提示词的测试集,通过LLM辅助的进化管道系统性地扩展真实世界的滥用场景。作为首个以法规为基础、多学科交叉的危险聚焦型基准,SOSBENCH填补了现有安全评估在科学知识密集型场景的空白,对促进AI安全对齐研究具有里程碑意义。
当前挑战
SOSBENCH面临双重挑战:在领域问题层面,现有安全基准多关注基础风险场景(如暴力指令),难以评估模型处理需要深层次科学知识的危险场景(如高级化学公式的爆炸物合成指导)的能力;在构建过程层面,需平衡术语的专业性与监管相关性,通过进化算法确保提示词的多样性和有效性,同时避免产生实际危害内容。实验显示前沿模型在药理学等领域的违规响应率高达79.1%,暴露出知识增长与安全防护之间的严重失衡问题。
常用场景
经典使用场景
SOSBENCH数据集在评估大型语言模型(LLMs)在科学知识密集型高风险场景中的安全对齐能力方面具有经典应用。该数据集通过涵盖化学、生物学、医学、药理学、物理学和心理学六个领域的3000个提示,系统地测试模型在面对涉及深度科学知识的潜在危险指令时的反应。例如,模型可能被要求提供涉及高级化学公式的爆炸物合成详细指导,从而评估其是否能够识别并拒绝此类高风险请求。
解决学术问题
SOSBENCH解决了现有安全基准在科学知识密集型危险场景评估上的不足。传统基准多聚焦于常识性风险(如暴力指令)或低风险科学任务(如选择题),而SOSBENCH基于真实法规构建提示,填补了模型在复杂科学领域安全对齐的评估空白。其实证结果表明,即使前沿模型(如GPT-4.1和Deepseek-R1)在常规基准表现良好,但在科学风险场景中仍存在47.3%-79.1%的有害响应率,揭示了安全机制与科学能力发展不匹配的核心问题。
衍生相关工作
SOSBENCH催生了多个重要研究方向:1)基于其发现的科学领域对齐缺陷,后续研究如《SafeChain》探索了长链推理对安全性的影响;2)启发了针对特定科学领域的细化基准,如化学专用的ChemSafetyEval;3)促进了新型对齐方法开发,如利用表征重定向(RMU)从模型中删除危险知识的研究。这些工作共同推动了AI安全在科学场景下的方法论创新。
以上内容由遇见数据集搜集并总结生成



