ScaleAI/fortress_public

Name: ScaleAI/fortress_public
Creator: ScaleAI
Published: 2025-08-05 19:34:38
License: 暂无描述

Hugging Face2025-08-05 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/ScaleAI/fortress_public

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估大型语言模型（LLM）的安全性和公共安全的风险和安全的对抗性提示及其相关量表。数据集由一个训练集组成，包含500个样本，数据集大小为1268259字节。数据集的目的是通过对抗性提示和量表来评价LLM在国家安全和公共安全方面的前沿风险。

This dataset contains adversarial prompts and associated rubrics designed to evaluate the safety and security of large language models (LLMs) for national security and public safety. The dataset consists of a training set with 500 examples, totaling 1268259 bytes in size. The purpose of the dataset is to assess the frontier risks of LLMs in terms of national security and public safety through adversarial prompts and rubrics.

提供机构：

ScaleAI

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估的迫切需求下，ScaleAI构建了FORTRESS公共数据集，旨在系统性地评估前沿模型对国家安全与公共安全的潜在风险。该数据集通过精心设计的对抗性提示（adversarial_prompt）与对应的评估准则（rubric）构建而成，每个样本均标注了风险领域（risk_domain）与风险子领域（risk_subdomain），并包含良性提示（benign_prompt）作为对照。数据集的构建遵循严格的学术规范，涵盖500个训练样本，以文本分类任务为导向，采用CC-BY-4.0许可协议开源，专用于安全评估研究。

使用方法

使用FORTRESS数据集时，研究者应严格遵循其安全评估的专属用途。通过加载默认配置下的训练分割数据，可获取包含ID、对抗性提示、评估准则、风险领域、风险子领域及良性提示的完整样本。建议将对抗性提示输入待评估的语言模型，依据评估准则对模型输出进行风险判定，同时利用良性提示进行对照分析。需特别注意，该数据集严禁用于对抗性训练或任何非安全评估的研究，使用时须谨慎处理其中的敏感内容，确保符合伦理规范与安全准则。

背景与挑战

背景概述

随着大型语言模型在生成式人工智能领域的广泛应用，其潜在的安全与伦理风险日益成为学术界和产业界关注的焦点。为系统评估前沿模型在公共安全与国家安全层面的脆弱性，Scale AI于2025年发布了FORTRESS数据集，相关研究成果发表于论文《FORTRESS: Frontier Risk Evaluation for National Security and Public Safety》。该数据集由Scale AI主导构建，核心研究问题聚焦于如何通过对抗性提示（adversarial prompts）和配套评分标准（rubrics）来量化模型在风险域（risk domain）和风险子域（risk subdomain）中的表现。FORTRESS的提出填补了针对高端语言模型进行结构化安全评估的空白，为后续模型对齐研究、红队测试实践以及政策制定提供了重要的基准资源，显著推动了负责任人工智能的发展。

当前挑战

FORTRESS数据集面临的核心挑战在于其所解决的领域问题：大型语言模型在复杂场景下难以抵御精心设计的对抗性提示，这些提示可能触发模型生成涉及公共安全或国家安全的敏感内容，而现有评估方法缺乏系统性的风险域划分与量化标准。在构建过程中，团队需应对多重困难：首先，对抗性提示的生成需要兼顾现实威胁的多样性与专业性，确保覆盖广泛的风险子域；其次，评分标准（rubric）的设计需具备可操作性与一致性，以支持自动化或半自动化的安全评估；此外，数据集本身包含潜在有害信息，如何在开放共享的同时严格限制其使用范围（仅限安全评估，禁止用于对抗性训练）构成了数据治理与伦理合规上的显著挑战。

常用场景

经典使用场景

在大型语言模型（LLM）安全评估的前沿领域，ScaleAI/fortress_public数据集为研究者提供了精心设计的对抗性提示与评估准则，用于系统性地检验模型在公共安全与国家安全相关风险域中的鲁棒性。该数据集涵盖多个风险子领域，通过对比良性提示与对抗性提示的模型响应，能够精准度量模型在面对潜在有害输入时的防御能力。经典使用场景包括对LLM进行标准化红队测试，以及构建多维度安全评估基准，从而推动模型对齐技术的持续优化。

解决学术问题

该数据集直击当前LLM安全评估中缺乏高质量、领域针对性对抗样本的学术痛点。现有评估基准往往覆盖通用安全场景，而FORTRESS数据集聚焦于公共安全与国家安全等高敏感领域，解决了模型在极端风险情境下行为可预测性不足的研究难题。通过提供结构化评估框架，它使得研究者能够量化模型对恶意利用的脆弱性，并识别安全防护的薄弱环节。其意义在于为安全对齐研究提供了可复现的评估工具，推动了从简单毒性检测到复杂风险推理的范式转变。

实际应用

在实际应用中，该数据集主要服务于AI安全审核与合规评估流程。模型开发团队可利用这些对抗性提示，在部署前对LLM进行压力测试，确保其不会生成危害公共安全或国家安全的输出。监管机构也可借鉴此数据集构建标准化安全审计协议，用于评估商业化模型的风险水平。此外，该数据集还支持企业级安全红队演练，帮助安全工程师在仿真攻击场景中验证防御机制的有效性，从而降低模型滥用带来的现实威胁。

数据集最近研究