Beyond Safe Answers (BSA) bench

Name: Beyond Safe Answers (BSA) bench
Creator: 阿里巴巴集团, 南京大学, 北京航空航天大学
Published: 2025-05-26 16:49:19
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/OpenStellarTeam/BSA

下载链接

链接失效反馈

官方服务：

资源简介：

BSA数据集由阿里巴巴集团等机构创建，旨在评估大型推理模型在安全关键场景下的可靠性。数据集包含2000个挑战性实例，分为三种不同的SSA场景类型和九个风险类别，每个实例都详细标注了风险原因。该数据集为评估和改进大型推理模型的安全推理能力提供了一个全面的评估工具。

The BSA dataset was created by organizations including Alibaba Group, with the aim of evaluating the reliability of large reasoning models in safety-critical scenarios. It contains 2,000 challenging instances, categorized into three distinct SSA scenario types and nine risk categories, and each instance is thoroughly annotated with its corresponding risk cause. This dataset provides a comprehensive evaluation tool for assessing and improving the safe reasoning capabilities of large reasoning models.

提供机构：

阿里巴巴集团, 南京大学, 北京航空航天大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

Beyond Safe Answers (BSA) bench数据集的构建采用了多阶段严格筛选流程，确保数据的高质量和多样性。首先从公开和专有数据库、搜索引擎以及大语言模型生成内容中收集原始数据，经过低质量、无关及冗余数据的过滤后，人工标注风险与非风险内容，并提取关键元素形成种子数据。随后利用大语言模型对种子数据进行改写、扩展和合并，生成三种SSA场景（过度敏感、认知捷径和风险遗漏）的测试样本。最后通过主流LRMs测试样本难度，并经过严格的人工标注和质量控制，确保数据集的专业性和可靠性。

特点

BSA bench数据集包含2000个精心标注的样本，覆盖九大风险类别，如犯罪与偏见、特殊管制物品、财产侵权等，每种风险类别下设1-3个子类别。该数据集独特之处在于其专注于评估大推理模型（LRMs）在表面安全对齐（SSA）现象中的表现，即模型生成看似安全的输出，但其内部推理过程未能真正识别和缓解潜在风险。数据集样本分为三种SSA场景，为研究模型在复杂风险识别中的行为提供了系统化工具。

使用方法

BSA bench数据集主要用于评估大推理模型在风险识别和内部推理一致性方面的表现。研究人员可通过该数据集测试模型在三种SSA场景下的表现，使用Safe@1、Safe@k、Think@1和Think@k等指标量化模型的响应安全性和推理正确性。此外，数据集支持探究安全规则整合、微调策略及解码参数对缓解SSA现象的效果。使用时需遵循CC BY-NC 4.0许可协议，确保符合伦理规范，避免恶意用途。

背景与挑战

背景概述

Beyond Safe Answers (BSA) bench是由阿里巴巴集团、南京大学和北京航空航天大学的研究团队于2025年提出的一个创新性基准测试，旨在评估大型推理模型（LRMs）在安全关键场景中的真实风险意识能力。该数据集包含2000个经过精心标注的挑战性实例，涵盖9个不同的风险类别和3种典型的表面安全对齐（SSA）场景类型。BSA bench的提出填补了现有评估主要关注响应层面安全性而忽视内部推理过程真实风险识别能力的空白，为AI安全领域提供了系统化的评估工具，推动了风险感知和可靠安全AI系统的发展。

当前挑战

BSA bench主要解决大型推理模型在安全推理忠实度评估方面的挑战，具体包括：1) 领域问题挑战：模型在生成看似安全的输出时，其内部推理过程可能未能真正识别和缓解潜在风险，导致跨多次采样尝试的安全行为不一致；2) 构建过程挑战：需要精心设计涵盖多种风险类别和SSA场景的样本，确保数据质量的同时处理潜在的敏感或有害内容，并建立严格的人工标注和质量控制流程。此外，数据集的构建还需平衡样本的难度和代表性，以有效评估模型在不同安全场景下的表现。

常用场景

经典使用场景

Beyond Safe Answers (BSA) bench数据集在评估大型推理模型（LRMs）的真实风险意识方面具有经典应用场景。该数据集通过精心设计的2000个挑战性实例，覆盖了九种风险类别和三种不同的表面安全对齐（SSA）情景，为研究者提供了一个系统评估模型在安全关键场景中表现的工具。特别是在模型生成看似安全但内部推理未能真正识别风险的场景中，BSA bench能够揭示模型的潜在缺陷。

实际应用

在实际应用中，BSA bench被广泛用于测试和优化大型推理模型在安全关键领域的表现。例如，在内容审核、法律咨询和医疗问答等高风险场景中，该数据集帮助开发者识别模型的潜在风险漏洞，从而设计更有效的安全对齐策略。此外，BSA bench还为政策制定者和监管机构提供了评估AI系统安全性的可靠工具。

衍生相关工作

BSA bench的推出催生了一系列相关研究，特别是在模型安全对齐和风险识别领域。例如，基于该数据集的研究探索了安全规则集成、专用微调策略和多样化解码方法对缓解SSA现象的效果。此外，BSA bench还被用于开发新的评估框架，如SafeChain，进一步推动了大型推理模型安全性的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集