five

FORTRESS: Frontier Risk Evaluation for National Security and Public Safety

收藏
arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/ScaleAI/fortress_public
下载链接
链接失效反馈
官方服务:
资源简介:
FORTRESS是一个针对国家安全和公共安全领域的大型语言模型(LLM)安全防护的评估数据集。该数据集由Scale AI的研究团队创建,包含500个由专家设计的对抗性提示,以及对应的良性提示,用于测试模型在面临国家安全和公共安全相关内容时的防护能力。每个对抗性提示都配有一套由专家制定的评分标准,以自动化评估模型响应的有害性。FORTRESS旨在帮助决策者和研究人员更好地理解LLM模型的潜在风险,并推动相关安全机制的进步。

FORTRESS is an evaluation dataset for the safety protection of large language models (LLMs) in the domains of national security and public safety. Developed by the research team at Scale AI, this dataset includes 500 expert-designed adversarial prompts and their corresponding benign prompts, which are used to test models' safety protection capabilities when processing content related to national security and public safety. Each adversarial prompt is paired with a set of expert-formulated scoring criteria to automatically evaluate the harmfulness of model responses. FORTRESS aims to help policymakers and researchers better understand the potential risks of LLMs and promote the advancement of relevant security mechanisms.
提供机构:
Scale AI
创建时间:
2025-06-18
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ScaleAI/fortress_public
  • 许可证: CC-BY-4.0
  • 任务类别: 文本分类
  • 下载大小: 670034字节
  • 数据集大小: 1268259字节

数据集内容

  • 特征:
    • ID: 数据类型为int64
    • adversarial_prompt: 数据类型为string
    • rubric: 序列类型为string
    • risk_domain: 数据类型为string
    • risk_subdomain: 数据类型为string
    • benign_prompt: 数据类型为string
  • 数据划分:
    • train: 包含500个样本,大小为1268259字节

数据集描述

该数据集包含对抗性提示和相关评分标准,旨在评估大型语言模型(LLMs)的安全性和安全性。数据集基于论文FORTRESS: Frontier Risk Evaluation for National Security and Public Safety的研究。

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
FORTRESS数据集通过专家团队精心构建,针对国家安全与公共安全(NSPS)领域设计了一套系统化的评估框架。数据集的构建过程包括三个关键步骤:首先,由专业红队成员针对前沿大语言模型(LLMs)设计对抗性提示(adversarial prompts),这些提示旨在测试模型在化学、生物、放射、核与爆炸物(CBRNE)、政治暴力与恐怖主义、犯罪与金融非法活动等领域的防护机制。其次,为每个对抗性提示设计对应的良性提示(benign prompts),以评估模型的过度拒绝(over-refusal)行为。最后,专家标注团队为每个提示设计4-7个二元评估问题(rubrics),确保自动化评估的精确性与可扩展性。
特点
FORTRESS数据集具有三大核心特点:其一,对抗性提示由领域专家设计,内容严格遵循NSPS相关法律法规,确保评估的真实性与挑战性;其二,采用配对设计策略,每个对抗性提示均配有对应的良性提示,可量化模型在安全防护与实用性之间的平衡;其三,创新性地引入实例化评估标准(instance-specific rubrics),通过专家设计的细粒度问题对模型响应进行自动化评估,显著提升了评估的准确性与一致性。
使用方法
使用FORTRESS数据集时,研究人员可通过标准化流程评估LLMs的安全防护能力。首先,将目标模型暴露于500个对抗性提示下,记录其响应内容;随后,采用由o3、Claude 3.7 Sonnet和Gemini 2.5 Pro组成的评审小组,基于实例化评估标准对响应进行自动化评分,计算平均风险分数(ARS)。同时,通过500个良性提示测试模型的过度拒绝率(ORS)。数据集支持跨模型比较分析,并提供细分领域(如生物武器设计、金融欺诈等)的专项评估,为安全机制优化提供数据支撑。
背景与挑战
背景概述
FORTRESS(Frontier Risk Evaluation for National Security and Public Safety)是由Scale AI的研究团队于2025年推出的一个专注于评估大型语言模型(LLMs)在国家安全和公共安全(NSPS)领域安全防护能力的数据集。该数据集由Christina Q. Knight等研究人员主导开发,旨在填补现有基准测试在NSPS相关风险评估上的空白。FORTRESS包含500个专家精心设计的对抗性提示及其对应的良性版本,覆盖化学、生物、放射、核与爆炸物(CBRNE)、政治暴力与恐怖主义、以及刑事与金融非法活动三大领域。该数据集的推出为政策制定者和研究人员提供了一个客观、全面的工具,用于评估前沿LLMs在应对潜在国家安全威胁时的防护能力及其在实用性上的权衡。
当前挑战
FORTRESS数据集面临的挑战主要体现在两个方面:首先,在解决领域问题上,该数据集旨在评估LLMs在NSPS相关风险中的防护能力,但如何准确衡量模型在拒绝恶意请求的同时避免过度拒绝良性请求(即保持模型实用性)是一个复杂且尚未完全解决的难题。其次,在数据构建过程中,专家团队需要设计具有足够挑战性的对抗性提示以测试模型的防护极限,同时确保这些提示符合法律和伦理标准。此外,评估框架的设计需兼顾判别力与可扩展性,以确保既能捕捉细微的防护漏洞,又能适应快速迭代的模型评估需求。
常用场景
经典使用场景
FORTRESS数据集专为评估大型语言模型(LLM)在国家安全与公共安全(NSPS)相关领域的防护机制鲁棒性而设计。其核心应用场景包括通过专家构建的对抗性提示(adversarial prompts)和配套的良性提示(benign prompts),系统测试模型在化学、生物、放射性、核能与爆炸物(CBRNE)、政治暴力与恐怖主义、刑事与金融非法活动三大领域的风险响应能力。数据集通过实例化评分表(instance-specific rubrics)实现自动化评估,为模型安全性的量化比较提供标准化框架。
解决学术问题
该数据集解决了当前LLM安全评估中NSPS领域覆盖不足的学术痛点,填补了双用途知识(dual-use knowledge)风险量化研究的空白。通过引入基于法律条款的专家标注体系,FORTRESS首次实现了对模型防护机制失效(如越狱攻击成功)与过度拒绝(over-refusal)现象的同步测量,揭示了Claude-3.5-Sonnet(低风险但高拒绝率)与Gemini 2.5 Pro(低拒绝率但高风险)等模型的典型安全权衡,为AI对齐研究提供了关键基准。
衍生相关工作
FORTRESS催生了多个重要研究方向:1)基于其法律对齐思想的WMDP基准(Li et al. 2024)专注于生化武器知识遗忘评估;2)OR-Bench(Cui et al. 2025)受其过度拒绝测量启发构建了通用拒绝优化框架;3)Circuit Breakers(Zou et al. 2024)采用类似实例化评分表方法开发模型熔断机制。数据集还推动AIR-Bench 2024等综合评估体系增设NSPS专项测试模块。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作