ForesightSafety-Bench

github2026-03-06 更新2026-03-07 收录

下载链接：

https://github.com/Beijing-AISI/ForesightSafety-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ForesightSafety-Bench是一个全面的基准，用于评估大型语言模型（LLMs）在多个风险维度上的安全性，包括基本内容安全、欺骗、嵌入式AI、工业安全和存在风险。

ForesightSafety-Bench is a comprehensive benchmark designed to evaluate the safety of Large Language Models (LLMs) across multiple risk dimensions, including basic content safety, deception, embedded AI, industrial safety, and existential risks.

创建时间：

2026-02-04

原始信息汇总

ForesightSafety-Bench 数据集概述

数据集基本信息

数据集名称：ForesightSafety-Bench
发布机构：Beijing Institute of AI Safety and Governance (Beijing-AISI)
访问地址：https://huggingface.co/datasets/Beijing-AISI/ForesightSafety-Bench
论文地址：https://arxiv.org/abs/2602.14135
排行榜地址：https://foresightsafety-bench.beijing-aisi.ac.cn/
许可证：MIT License

数据集目的与范围

ForesightSafety-Bench 是一个用于评估大语言模型（LLMs）安全性的综合性基准测试，涵盖多个风险维度。

评估的风险维度

基础内容安全 (Fundamental-Safety)
欺骗与社会AI安全 (Social-AI-Safety)
具身AI安全 (Embodied-AI-Safety)
工业安全 (Industrial-Safety)
环境安全 (Environmental-Safety)
灾难性与生存性风险 (Catastrophic-and-Existential-Risks)

数据集结构与内容

数据集包含以下主要目录及文件：

Fundamental-Safety/base.csv：基础安全测试数据集。
Social-AI-Safety/data/：社会AI安全测试数据集。
Embodied-AI-Safety/merged_goals_classified.csv：分类目标数据集。
Industrial-Safety/industrial.csv：工业安全数据集。
Environmental-Safety/dataset/：环境安全数据集。
Catastrophic-and-Existential-Risks/dataset/：风险评估数据集。

依赖项与使用

本基准测试依赖于 PandaGuard 进行攻击、防御和评估算法。
快速安装命令： bash git clone https://github.com/Beijing-AISI/ForesightSafety-Bench.git cd ForesightSafety-Bench pip install git+https://github.com/Beijing-AISI/panda-guard.git

引用格式

bibtex @misc{tong2026foresightsafetybenchfrontierrisk, title={ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI}, author={Haibo Tong and Feifei Zhao and Linghao Feng and Ruoyu Wu and Ruolin Chen and Lu Jia and Zhou Zhao and Jindong Li and Tenglong Li and Erliang Lin and Shuai Yang and Enmeng Lu and Yinqian Sun and Qian Zhang and Zizhe Ruan and Zeyang Yue and Ping Wu and Huangrui Li and Chengyi Sun and Yi Zeng}, year={2026}, eprint={2602.14135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.14135}, }

联系方式

官方网站：https://foresightsafety-bench.beijing-aisi.ac.cn/
组织：Beijing Institute of AI Safety and Governance (Beijing-AISI)
邮箱：contact@beijing-aisi.ac.cn

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，ForesightSafety-Bench数据集通过系统化的方法构建而成。其设计涵盖基础内容安全、欺骗行为、具身人工智能、工业安全及存在性风险等多个关键维度，每个维度均基于具体的安全场景与潜在威胁进行定义。数据收集过程整合了结构化测试用例与模拟交互情境，并依托PandaGuard框架实现攻击、防御与评估算法的标准化集成，确保了评估流程的严谨性与可复现性。

特点

该数据集的核心特点在于其多维度的风险评估架构，能够全面审视大型语言模型在不同安全层面的表现。它不仅覆盖传统的内容安全范畴，更前瞻性地纳入了具身智能与工业环境等新兴风险场景，从而提供了更为立体和深入的安全画像。数据集配备可视化分析工具与详细的结构化目录，支持用户从宏观结果到微观案例的逐层剖析，增强了评估的透明度和可解释性。

使用方法

使用该数据集时，研究人员需首先克隆项目仓库并安装依赖的PandaGuard评估框架。通过调用预置的配置脚本与批量执行代码，用户可针对不同风险维度运行自动化测试流程。数据集支持模块化评估，允许根据具体研究需求灵活选择特定安全类别进行深入分析，所得结果可通过集成工具进行可视化呈现与量化比较，为模型安全性的系统化评测提供完整的技术路径。

背景与挑战

背景概述

随着大型语言模型（LLM）在各领域的广泛应用，其潜在的安全风险日益凸显，亟需系统性的评估框架以应对多维度的威胁。ForesightSafety-Bench由北京人工智能安全与治理研究所（Beijing-AISI）于2026年推出，核心研究团队包括Haibo Tong、Feifei Zhao等多位学者，旨在构建一个覆盖基础内容安全、欺骗行为、具身智能、工业安全及生存性风险的综合基准。该数据集通过整合前沿风险场景，为LLM的安全性评估提供了标准化工具，推动了人工智能安全治理领域从单一内容过滤向全面风险预测的范式转变，对促进负责任的人工智能发展具有重要影响力。

当前挑战

ForesightSafety-Bench所解决的领域问题在于评估LLM在复杂现实场景中的安全性，其挑战包括如何精准定义并量化欺骗、工业灾难等抽象风险维度，以及确保评估结果在不同模型间的可比性与泛化性。在构建过程中，数据集面临多源异构数据的整合难题，需平衡风险覆盖的广度与标注的一致性；同时，依赖PandaGuard等外部工具进行攻击与防御模拟，增加了技术集成的复杂性，并需持续更新以应对快速演化的新型安全威胁。

常用场景

经典使用场景

在人工智能安全研究领域，ForesightSafety-Bench作为综合性基准测试工具，其经典使用场景聚焦于对大语言模型进行多维度安全评估。研究者通过该数据集系统性地检验模型在基础内容安全、欺骗性行为、具身智能、工业安全及存在性风险等关键维度的表现，从而量化模型的安全边界与潜在漏洞，为模型的安全对齐与治理提供实证依据。

实际应用

在实际应用中，ForesightSafety-Bench为AI开发机构与监管方提供了关键的风险审计工具。企业可借助其评估商用语言模型的安全合规性，预防模型在金融、医疗、工业控制等高风险领域的误用或恶意操纵；同时，该基准也为政策制定者提供了科学依据，助力构建动态、前瞻的人工智能安全治理框架。

衍生相关工作

围绕ForesightSafety-Bench，学术界衍生出一系列经典研究工作。例如，基于其多维评估框架，研究者开发了更细粒度的风险分类方法，并提出了针对具身智能安全、工业系统漏洞等特定场景的增强型测试集。这些工作进一步推动了自适应防御算法、风险溯源技术以及安全对齐机制的发展，形成了以基准驱动的人工智能安全研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集