ForesightSafety-Bench
收藏ForesightSafety-Bench 数据集概述
数据集基本信息
- 数据集名称: ForesightSafety-Bench
- 发布机构: Beijing Institute of AI Safety and Governance (Beijing-AISI)
- 许可证: MIT
- 任务类别: 文本分类、问答
- 支持语言: 英语、中文
- 标签: 安全性、大语言模型评估、AI安全、基准测试
- 数据规模: 1K<n<10K
- 配置名称: default
- 数据文件:
- 训练集路径:
data/train.parquet
- 训练集路径:
数据集简介
ForesightSafety-Bench 是一个用于评估大语言模型安全性的综合基准测试,涵盖多个风险维度,包括基础内容安全、欺骗、具身人工智能、工业安全和存在性风险。
数据集内容与结构
- 总样本数: 5,073 个测试样本
- 覆盖维度: 6 个主要安全维度
- 数据格式: 统一模式的数据集
数据模式
所有样本遵循统一的模式:
| 列名 | 类型 | 描述 |
|---|---|---|
id |
整数 | 唯一样本标识符 |
dataset |
字符串 | 源数据集名称 |
split |
字符串 | 类别划分 |
goal |
字符串 | 测试提示或场景 |
category |
字符串 | 主要风险类别 |
subcategory |
字符串 | 详细子类别 |
source |
字符串 | 原始来源或文件名 |
数据分布
| 划分 | 样本数 | 描述 |
|---|---|---|
embodied_ai_safety |
3,403 | 物理机器人安全场景 |
catastrophic_risks |
850 | 前沿人工智能风险(7个子类别) |
fundamental_safety |
300 | 基础内容安全 |
industrial_safety |
240 | 工业应用安全 |
environmental_safety |
140 | 环境影响 |
social_ai_safety |
140 | 欺骗和奉承 |
| 总计 | 5,073 |
原始数据文件
数据集也提供原始格式文件:
-
Fundamental-Safety/base.csv
- 300 个样本
- 基础内容安全评估,涵盖仇恨言论、暴力和有害内容
- 列:
Goal,Category,Subcategory,Source
-
Social-AI-Safety/data/DeceptionEval.jsonl
- 140 个样本
- 评估人工智能欺骗行为,包括奉承和误导性回应
- 字段:
id,category,source,base,intervention
-
Embodied-AI-Safety/merged_goals_classified.csv
- 3,403 个样本
- 物理机器人安全场景,测试危险操作和与生物接触
- 列:
Type,Goal
-
Industrial-Safety/industrial.csv
- 240 个样本
- 工业应用安全,包括教学偏见和工作场所场景
- 列:
Goal,Category,Subcategory,Source
-
Environmental-Safety/dataset/environmental_translated.csv
- 140 个样本
- 环境安全评估,涵盖污染、排放和生态影响
- 列:
uid,category,cat_id,Goal
-
Catastrophic-and-Existential-Risks/dataset/
- 850 个样本,分布在 7 个文件中,评估前沿人工智能风险:
AI-enabledmassharmAI.json(500 个样本)goalmisalignment&valuedrift.jsonl(40 个样本)lossofcontrol&powerseeking.jsonl(10 个样本)autonomousweapons&strategicinstability.jsonl(100 个样本)lossofhumanagency.jsonl(180 个样本)emergeagency&unintendedtautonomy.jsonl(10 个样本)maliciousselfreplication.jsonl(10 个样本)
- 850 个样本,分布在 7 个文件中,评估前沿人工智能风险:
使用方式
加载整个数据集
python from datasets import load_dataset dataset = load_dataset("Beijing-AISI/ForesightSafety-Bench")
按类别筛选
python fundamental = dataset[train].filter(lambda x: x[split] == fundamental_safety) embodied = dataset[train].filter(lambda x: x[split] == embodied_ai_safety) catastrophic = dataset[train].filter(lambda x: x[split] == catastrophic_risks)
加载原始文件
python from datasets import load_dataset fundamental = load_dataset("Beijing-AISI/ForesightSafety-Bench", data_files="Fundamental-Safety/base.csv") jsonl_data = load_dataset("Beijing-AISI/ForesightSafety-Bench", data_files="**/*.jsonl")
依赖项
本基准测试依赖于 PandaGuard 进行攻击、防御和评估算法。
引用信息
如需在研究中使用本数据集,请引用: bibtex @misc{tong2026foresightsafetybenchfrontierrisk, title={ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI}, author={Haibo Tong and Feifei Zhao and Linghao Feng and Ruoyu Wu and Ruolin Chen and Lu Jia and Zhou Zhao and Jindong Li and Tenglong Li and Erliang Lin and Shuai Yang and Enmeng Lu and Yinqian Sun and Qian Zhang and Zizhe Ruan and Zeyang Yue and Ping Wu and Huangrui Li and Chengyi Sun and Yi Zeng}, year={2026}, eprint={2602.14135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.14135}, }
相关资源
- 基准测试排行榜: https://foresightsafety-bench.beijing-aisi.ac.cn/
- 框架架构图: https://raw.githubusercontent.com/Beijing-AISI/ForesightSafety-Bench/main/assets/framework.png
- 总体结果图: https://raw.githubusercontent.com/Beijing-AISI/ForesightSafety-Bench/main/assets/overall_bar.jpg
联系方式
- 网站: https://foresightsafety-bench.beijing-aisi.ac.cn/
- 组织: Beijing Institute of AI Safety and Governance (Beijing-AISI)
- 邮箱: contact@beijing-aisi.ac.cn




