IS2Lab/S-Eval

Name: IS2Lab/S-Eval
Creator: IS2Lab
Published: 2025-10-14 12:54:06
License: 暂无描述

Hugging Face2025-10-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IS2Lab/S-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

S-Eval数据集是一个用于评估大型语言模型（LLM）安全性的综合、多维度和开放式基准测试。数据集包含220,000个评估提示，包括20,000个基础风险提示（10,000个中文和10,000个英文）和200,000个对应的攻击提示，这些提示基于10种流行的对抗性指令攻击生成。数据集的风险分类涵盖了8个风险维度、25个风险类别、56个风险子类别和52个风险子子类别。数据集的目标是准确反映LLM在这些风险维度上的安全水平。

提供机构：

IS2Lab

原始信息汇总

数据集概述

数据集配置

base_risk_set_zh: 包含文件 s-eval_base_risk_zh_v0.1.0.jsonl
base_risk_set_en: 包含文件 s-eval_base_risk_en_v0.1.0.jsonl
attack_set_zh: 包含文件 s-eval_attack_zh_v0.1.0.jsonl
attack_set_en: 包含文件 s-eval_attack_en_v0.1.0.jsonl

许可

许可证: CC-BY-NC-SA-4.0

任务类别

任务: 文本生成

语言

支持语言: 中文 (zh) 和英文 (en)

大小类别

数据集大小: 100K<n<1M

数据集内容

总评估提示数: 220,000
基本风险提示数: 20,000 (中文和英文各10,000)
对应的攻击提示数: 200,000
风险维度: 8个
风险类别: 25个
风险子类别: 56个
风险子子类别: 52个

风险评估模型

评估模型对比: 规则匹配, GPT-based, LLaMA-Guard-2 和自研模型
评估结果: 自研模型在准确性和召回率上表现最佳

引用信息

引用格式: bibtex @article{yuan2024seval, title={S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models}, author={Xiaohan Yuan and Jinfeng Li and Dongxia Wang and Yuefeng Chen and Xiaofeng Mao and Longtao Huang and Hui Xue and Wenhai Wang and Kui Ren and Jingyi Wang}, journal={arXiv preprint arXiv:2405.14191}, year={2024} }

免责声明

数据集内容可能包含令人不快的内容，仅供合法学术研究使用。

许可证详情

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

搜集汇总

数据集介绍

构建方式

IS2Lab/S-Eval数据集的构建基于统一的风险分类体系，涵盖大型语言模型安全评估的所有关键维度。数据集包括20,000个基础风险提示和200,000个相应的攻击提示，这些提示是通过对10种流行的对抗性指令攻击进行模型化测试生成和专家评审而精心设计的，旨在准确反映大型语言模型在不同风险维度上的安全水平。

特点

该数据集的特点在于其全面性、多维性和开放性，包含的风险维度和测试提示持续扩展。数据集基于细致的风险分类体系，具有四级结构层次，包括8个风险维度、25个风险类别、56个风险子类别和52个风险子子类别，确保了对大型语言模型安全的全面评估。

使用方法

使用IS2Lab/S-Eval数据集时，用户可以根据评估任务需求，选择不同的配置文件加载基础风险集或攻击集。例如，使用'base_risk_set_zh'加载中文基础风险集，或使用'attack_set_en'加载英文攻击集。通过HuggingFace的datasets库可以方便地加载和操作这些数据。

背景与挑战

背景概述

S-Eval数据集，旨在构建一个全面、多维、开放的安全评估基准，以自动和自适应的测试生成方式对大型语言模型进行安全评估。该数据集由浙江大学IS2Lab团队创建并于2024年首次发布，包含20,000个基础风险提示和200,000个相应的攻击提示，涵盖了从犯罪活动到网络安全、数据隐私、伦理道德、身心健康、仇恨言论、极端主义和不适当建议等多个风险维度。研究团队通过构建风险taxonomy和对抗性场景，以准确反映不同大型语言模型在这些风险维度上的安全水平。

当前挑战

在构建S-Eval数据集的过程中，研究团队面临了多项挑战。首先，如何全面而细致地构建涵盖各个风险维度的风险评估框架是一个重大挑战。其次，生成和选择测试提示以适应不同的安全评估需求，同时确保评估结果的准确性和公正性，也是一大难点。此外，对抗性攻击提示的生成和基准的持续更新，以及如何平衡高风险提示的发布以避免不良影响，都是研究团队需要克服的重要问题。

常用场景

经典使用场景

在大型语言模型的安全性评估领域，S-Eval数据集的应用显得尤为重要。该数据集通过提供基础风险提示和相应的攻击提示，成为评估模型在各个风险维度上的安全性的重要工具。经典的使用场景包括利用这些提示对模型进行自动化的安全性测试，以检测模型在面对不同风险类别时的应对能力。

衍生相关工作

基于S-Eval数据集，已经衍生出了一系列相关的工作，包括对现有安全评估模型的改进、新安全评估指标的开发以及针对特定风险类别的模型训练策略的研究。这些工作不仅推动了安全性评估技术的发展，也为构建更加安全的语言模型提供了新的思路和方法。

数据集最近研究