Role-SafetyBench

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/ssu-csec/Role-SafetyBench

下载链接

链接失效反馈

官方服务：

资源简介：

Role-SafetyBench 是一个用于评估大型语言模型（LLM）安全性的基准数据集。该数据集通过收集多个原始数据集，并根据评估目的重新分类和整合而成。数据集包含六个主要类别：非法行为建议请求、自我破坏/自残诱导、个人信息窃取、恶意软件/安全绕过、虚假信息操纵和敏感信息推断。原始数据集包括 Sorry-Bench、HarmBench、JailbreakBench、RMCBench 和 CategoricalHarmfulQA，这些数据集经过重新标注以适应新的分类体系。数据集总计包含 663 个样本，其中非法行为建议请求占比最高（45.4%），其次是恶意软件/安全绕过（26.7%）和虚假信息操纵（20.4%）。该数据集适用于 LLM 安全性评估和相关研究任务。

创建时间：

2026-03-24

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，Role-SafetyBench的构建体现了系统化的数据整合与重构策略。该数据集并非从零开始采集原始语料，而是精心选取了多个已有权威基准，包括Sorry-Bench、HarmBench、JailbreakBench、RMCBench和CategoricalHarmfulQA。构建过程的核心在于对这些异构来源的数据进行深度清洗与标准化，并依据统一的安全风险框架，将原始的、分散的标签体系重新映射至六个精心定义的上位类别，从而形成了一个内部一致、目标明确的评估语料库。

特点

Role-SafetyBench的显著特征在于其清晰且聚焦的分类体系。它将复杂多样的安全风险归纳为“非法行为建议请求”、“自我毁灭/自残诱导”、“个人信息窃取”、“恶意软件/安全绕过”、“虚假信息操纵”以及“敏感信息推断”六大范畴，这种分类方式兼顾了风险的严重性与实操性。数据集规模适中，共包含663条样本，其中“非法行为建议请求”类目占比最高，反映了当前安全挑战的焦点，整体数据分布为评估模型在不同风险维度上的稳健性提供了均衡的测试基础。

使用方法

该数据集主要服务于大型语言模型的安全性能力评测。使用者可通过加载标准的Parquet格式文件便捷地访问数据。每条数据通常包含一个潜在的恶意用户查询（prompt），评估时，将查询输入待测模型，并检验其回应是否遵循安全准则、有效拒绝对有害请求的响应。通过系统性地在不同风险类别上测试模型，研究者可以量化模型的安全防护水平，识别其防御盲点，从而为模型的安全对齐与加固提供关键的实证依据。

背景与挑战

背景概述

随着大型语言模型（LLM）的广泛应用，其生成内容的安全性评估成为人工智能领域的关键研究议题。Role-SafetyBench数据集应运而生，旨在构建一个系统性的基准测试工具，以评估模型在应对有害查询时的稳健性与安全性。该数据集由研究团队通过整合多个现有安全基准数据集（如Sorry-Bench、HarmBench、JailbreakBench等）构建而成，并依据统一框架将原始标签重新归类为六大核心安全类别，包括非法行为建议、自我伤害诱导、个人信息窃取、恶意软件生成、虚假信息操纵以及敏感信息推断。这一整合工作不仅提升了评估的覆盖范围与一致性，也为后续模型安全性的量化比较提供了标准化基础，对推动LLM安全对齐技术的发展具有显著影响力。

当前挑战

Role-SafetyBench数据集所针对的核心挑战在于如何全面且精准地评估大型语言模型在面临多样化安全威胁时的防御能力。具体而言，其需要解决模型在生成响应时可能产生的有害内容，如诱导非法行为、传播虚假信息或协助网络攻击等，这些问题的复杂性要求评估基准具备高度的语义敏感性与情境适应性。在数据集构建过程中，主要挑战来源于多源数据的异构性整合，包括不同原始数据集的标签体系差异、语境定义不一致以及数据规模不平衡等问题。研究团队通过设计统一的类别映射框架来协调这些差异，但如何确保重新分类后的数据既能保留原始语义，又能覆盖新兴的安全威胁场景，仍需持续优化与扩展。

常用场景

经典使用场景

在大型语言模型安全评估领域，Role-SafetyBench数据集被广泛用于系统性地测试模型在生成内容时的安全边界。该数据集通过整合多个来源的恶意或有害查询，构建了一个标准化的评估框架，使研究者能够量化模型对非法行为建议、自我伤害诱导、个人信息窃取等风险类别的响应倾向。这一经典场景为模型安全性的横向比较提供了可靠基准，推动了安全对齐技术的迭代与优化。

解决学术问题

Role-SafetyBench有效解决了自然语言处理中模型安全评估缺乏统一标准的问题。通过将分散的原始数据集重新分类为六个核心安全类别，该数据集帮助学术界系统性地识别模型在伦理、法律和社会规范方面的漏洞。其意义在于为安全对齐研究提供了可重复的评估工具，促进了针对模型抗越狱能力、风险缓解策略的深入探索，从而提升了人工智能系统的可靠性与社会责任。

衍生相关工作

围绕Role-SafetyBench，衍生了一系列重要的研究工作。例如，基于其分类体系开发的增强型对抗训练方法，显著提升了模型对恶意查询的抵抗能力；同时，该数据集也催生了多模态安全评估框架的扩展，将文本安全基准迁移至图像与音频领域。这些工作不仅深化了对模型脆弱性的理解，还为构建下一代安全人工智能系统提供了理论支撑与实践指南。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集