ForesightSafety-Bench

Hugging Face2026-03-08 更新2026-03-09 收录

下载链接：

https://huggingface.co/datasets/Beijing-AISI/ForesightSafety-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ForesightSafety-Bench 是一个用于评估大型语言模型（LLMs）安全性的综合基准测试数据集，涵盖多个风险维度，包括基础内容安全、欺骗行为、具身AI安全、工业安全和存在性风险等。该数据集包含5,073个测试样本，统一采用相同的模式结构。数据集分为6个主要安全维度：具身AI安全（3,403个样本）、灾难性风险（850个样本）、基础安全（300个样本）、工业安全（240个样本）、环境安全（140个样本）和社交AI安全（140个样本）。每个样本包含7个字段：唯一标识符(id)、数据集名称(dataset)、分类(split)、测试目标(goal)、主要风险类别(category)、详细子类别(subcategory)和原始来源(source)。数据集支持通过Hugging Face的datasets库直接加载，也提供了原始文件格式的访问方式。该数据集适用于文本分类、问答系统等任务，特别关注AI安全评估和基准测试场景。

ForesightSafety-Bench is a comprehensive benchmark dataset for evaluating the safety of Large Language Models (LLMs), covering multiple risk dimensions including basic content safety, deception behaviors, embodied AI safety, industrial safety, and existential risks, among others. This dataset contains 5,073 test samples with a unified structural pattern. The dataset is divided into 6 primary safety dimensions: embodied AI safety (3,403 samples), catastrophic risks (850 samples), basic safety (300 samples), industrial safety (240 samples), environmental safety (140 samples), and social AI safety (140 samples). Each sample includes 7 fields: unique identifier (id), dataset name (dataset), split, test goal (goal), primary risk category (category), detailed subcategory (subcategory), and original source (source). The dataset can be directly loaded via Hugging Face's datasets library, and access to its original file format is also provided. This dataset is applicable to tasks such as text classification and question answering systems, with a particular focus on AI safety evaluation and benchmarking scenarios.

创建时间：

2026-03-06

原始信息汇总

ForesightSafety-Bench 数据集概述

数据集基本信息

数据集名称: ForesightSafety-Bench
发布机构: Beijing Institute of AI Safety and Governance (Beijing-AISI)
许可证: MIT
任务类别: 文本分类、问答
支持语言: 英语、中文
标签: 安全性、大语言模型评估、AI安全、基准测试
数据规模: 1K<n<10K
配置名称: default
数据文件:
- 训练集路径: data/train.parquet

数据集简介

ForesightSafety-Bench 是一个用于评估大语言模型安全性的综合基准测试，涵盖多个风险维度，包括基础内容安全、欺骗、具身人工智能、工业安全和存在性风险。

数据集内容与结构

总样本数: 5,073 个测试样本
覆盖维度: 6 个主要安全维度
数据格式: 统一模式的数据集

数据模式

所有样本遵循统一的模式：

列名	类型	描述
`id`	整数	唯一样本标识符
`dataset`	字符串	源数据集名称
`split`	字符串	类别划分
`goal`	字符串	测试提示或场景
`category`	字符串	主要风险类别
`subcategory`	字符串	详细子类别
`source`	字符串	原始来源或文件名

数据分布

划分	样本数	描述
`embodied_ai_safety`	3,403	物理机器人安全场景
`catastrophic_risks`	850	前沿人工智能风险（7个子类别）
`fundamental_safety`	300	基础内容安全
`industrial_safety`	240	工业应用安全
`environmental_safety`	140	环境影响
`social_ai_safety`	140	欺骗和奉承
总计	5,073

原始数据文件

数据集也提供原始格式文件：

Fundamental-Safety/base.csv
- 300 个样本
- 基础内容安全评估，涵盖仇恨言论、暴力和有害内容
- 列：Goal, Category, Subcategory, Source
Social-AI-Safety/data/DeceptionEval.jsonl
- 140 个样本
- 评估人工智能欺骗行为，包括奉承和误导性回应
- 字段：id, category, source, base, intervention
Embodied-AI-Safety/merged_goals_classified.csv
- 3,403 个样本
- 物理机器人安全场景，测试危险操作和与生物接触
- 列：Type, Goal
Industrial-Safety/industrial.csv
- 240 个样本
- 工业应用安全，包括教学偏见和工作场所场景
- 列：Goal, Category, Subcategory, Source
Environmental-Safety/dataset/environmental_translated.csv
- 140 个样本
- 环境安全评估，涵盖污染、排放和生态影响
- 列：uid, category, cat_id, Goal
Catastrophic-and-Existential-Risks/dataset/
- 850 个样本，分布在 7 个文件中，评估前沿人工智能风险：
  - AI-enabledmassharmAI.json (500 个样本)
  - goalmisalignment&valuedrift.jsonl (40 个样本)
  - lossofcontrol&powerseeking.jsonl (10 个样本)
  - autonomousweapons&strategicinstability.jsonl (100 个样本)
  - lossofhumanagency.jsonl (180 个样本)
  - emergeagency&unintendedtautonomy.jsonl (10 个样本)
  - maliciousselfreplication.jsonl (10 个样本)

使用方式

加载整个数据集

python from datasets import load_dataset dataset = load_dataset("Beijing-AISI/ForesightSafety-Bench")

按类别筛选

python fundamental = dataset[train].filter(lambda x: x[split] == fundamental_safety) embodied = dataset[train].filter(lambda x: x[split] == embodied_ai_safety) catastrophic = dataset[train].filter(lambda x: x[split] == catastrophic_risks)

加载原始文件

python from datasets import load_dataset fundamental = load_dataset("Beijing-AISI/ForesightSafety-Bench", data_files="Fundamental-Safety/base.csv") jsonl_data = load_dataset("Beijing-AISI/ForesightSafety-Bench", data_files="**/*.jsonl")

依赖项

本基准测试依赖于 PandaGuard 进行攻击、防御和评估算法。

引用信息

如需在研究中使用本数据集，请引用： bibtex @misc{tong2026foresightsafetybenchfrontierrisk, title={ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI}, author={Haibo Tong and Feifei Zhao and Linghao Feng and Ruoyu Wu and Ruolin Chen and Lu Jia and Zhou Zhao and Jindong Li and Tenglong Li and Erliang Lin and Shuai Yang and Enmeng Lu and Yinqian Sun and Qian Zhang and Zizhe Ruan and Zeyang Yue and Ping Wu and Huangrui Li and Chengyi Sun and Yi Zeng}, year={2026}, eprint={2602.14135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.14135}, }

联系方式

网站: https://foresightsafety-bench.beijing-aisi.ac.cn/
组织: Beijing Institute of AI Safety and Governance (Beijing-AISI)
邮箱: contact@beijing-aisi.ac.cn

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，ForesightSafety-Bench数据集的构建体现了系统化的风险维度整合。该数据集通过汇集六个核心安全维度的原始数据文件，包括基础内容安全、社交AI安全、具身AI安全、工业安全、环境安全以及灾难性与存在性风险，形成了一个包含5,073个测试样本的统一基准。构建过程涉及对多种来源数据的标准化处理，例如将CSV与JSONL格式的文件整合为一致的架构，确保每个样本均包含唯一的标识符、风险类别、子类别及测试目标，从而为大规模语言模型的多维度安全评估提供了结构化的基础。

特点

ForesightSafety-Bench的显著特征在于其覆盖的前沿风险维度广度和深度。数据集不仅涵盖了传统的内容安全，如仇恨言论与暴力内容，更延伸至具身AI的物理机器人安全场景、工业应用中的教学偏见、环境生态影响，以及灾难性风险中的自主武器与权力寻求等高级别威胁。其样本分布呈现差异化，其中具身AI安全场景占比最高，体现了对新兴安全挑战的侧重。统一的架构设计允许研究者跨维度进行对比分析，而详尽的类别与子类别标注则为细粒度的模型行为诊断提供了可能。

使用方法

该数据集的使用旨在支持对大规模语言模型安全性的标准化评估。研究者可通过Hugging Face的datasets库直接加载整个数据集或按特定风险维度进行筛选，例如提取基础安全或灾难性风险相关的样本。数据集与PandaGuard工具链集成，便于实施攻击、防御及评估算法。在实际应用中，用户可依据统一的架构字段，如目标提示词与风险类别，设计自动化测试流程或进行人工审核，从而系统化地衡量模型在不同安全场景下的响应合规性，并为AI安全治理框架的构建提供实证依据。

背景与挑战

背景概述

在人工智能安全研究领域，随着大语言模型能力的飞速发展，对其潜在风险的评估与治理已成为学术界与工业界共同关注的核心议题。ForesightSafety-Bench数据集由北京人工智能安全与治理研究所（Beijing-AISI）的研究团队于2026年创建，旨在构建一个全面评估大语言模型安全性的基准。该数据集聚焦于从基础内容安全到存在性风险的多维度安全挑战，通过整合5,073个测试样本，覆盖了物理机器人安全、工业应用安全、环境安全、社会人工智能安全以及灾难性风险等六个关键维度，为前沿人工智能的风险评估与治理提供了系统化的实证基础。

当前挑战

该数据集致力于解决大语言模型安全性评估这一复杂领域问题，其核心挑战在于如何系统性地定义与量化从即时内容危害到长远存在性风险的全谱系安全威胁。具体而言，构建过程中面临多重挑战：首先，需从异构的原始数据源（如不同格式的CSV与JSONL文件）中提取并统一安全评估场景，确保数据模式的一致性；其次，需在涵盖物理操作、工业流程、环境生态及社会交互等广泛领域内，精确标注风险类别与子类别，以支撑细粒度的模型行为分析；最后，还需平衡各风险维度的样本分布，确保评估框架的全面性与代表性。

常用场景

经典使用场景

在人工智能安全研究领域，ForesightSafety-Bench数据集为评估大型语言模型的安全性提供了标准化基准。其经典使用场景在于系统性地测试模型在基础内容安全、欺骗行为、具身人工智能、工业安全及存在性风险等多个维度的表现。研究人员通过该数据集构建的评估框架，能够量化模型在不同风险类别中的脆弱性，从而为模型的安全对齐与鲁棒性优化提供实证依据。

解决学术问题

该数据集有效解决了人工智能安全研究中缺乏统一、多维度评估基准的学术问题。通过整合涵盖物理机器人安全、环境安全、社会欺骗及前沿灾难性风险等领域的5073个样本，它使得跨风险类别的系统性比较成为可能。其意义在于推动了安全评估从单一内容过滤向综合性风险治理的范式转变，为理解模型在复杂现实场景中的潜在危害提供了关键数据支撑。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，例如集成其评估流程的PandaGuard工具链，提供了从攻击生成到防御评估的端到端解决方案。相关研究进一步拓展了在具身人工智能安全、灾难性风险预警等细分领域的评估方法。这些工作共同构建了一个持续演进的安全评估生态系统，促进了学术界与工业界在AI治理方面的协作创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集