S-Eval
收藏arXiv2024-05-23 更新2024-06-17 收录
下载链接:
https://huggingface.co/datasets/IS2Lab/S-Eval
下载链接
链接失效反馈官方服务:
资源简介:
S-Eval是由浙江大学和阿里巴巴集团联合创建的大型语言模型安全评估数据集,包含220,000个评估提示,旨在系统地评估大型语言模型(LLMs)的安全性。数据集包括20,000个基础风险提示(10,000中文和10,000英文)和200,000个相应的攻击提示,这些攻击提示源自10种流行的对抗性指令攻击。S-Eval设计灵活,能够根据LLMs的快速演进和伴随的安全威胁,灵活配置和适应新的风险、攻击和模型,以持续更新基准。该数据集广泛应用于20个流行且具有代表性的LLMs评估中,结果证实S-Eval能更有效地反映和告知LLMs的安全风险,相比于现有基准。
S-Eval is a large language model (LLM) safety evaluation dataset jointly created by Zhejiang University and Alibaba Group. It contains 220,000 evaluation prompts, aiming to systematically assess the safety of large language models (LLMs). The dataset consists of 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200,000 corresponding adversarial prompts, which are derived from 10 prevalent adversarial instruction attack scenarios. S-Eval features a flexible design that enables flexible configuration and adaptation to new risks, attack methods, and models in line with the rapid evolution of LLMs and accompanying security threats, so as to support continuous benchmark updates. This dataset has been widely applied in the evaluation of 20 popular and representative LLMs, and the results confirm that S-Eval can more effectively reflect and inform the security risks of LLMs compared with existing benchmarks.
提供机构:
浙江大学
创建时间:
2024-05-23
搜集汇总
数据集介绍

构建方式
S-Eval数据集通过一种创新的基于大语言模型(LLM)的自动测试提示生成和选择框架构建。该框架训练了一个专家测试LLM M𝐴?,用于支持多种测试提示生成任务,并结合一系列测试选择策略,自动构建高质量的测试套件。该套件包括220,000个评估提示,其中包括20,000个基础风险提示(10,000个中文和10,000个英文)和200,000个相应的攻击提示。此外,S-Eval还设计了一个四级风险分类体系,涵盖了多维度的安全风险,确保评估的全面性和系统性。
特点
S-Eval数据集的主要特点在于其自动化和适应性。通过LLM生成的测试提示,数据集能够快速适应大语言模型的快速演进和伴随的安全威胁。此外,S-Eval的测试提示涵盖了广泛的安全风险维度,包括伦理与道德、网络安全、犯罪与非法活动等,确保了对LLM安全性的多维度评估。数据集还具备开放性,能够灵活扩展以应对新的风险和攻击方式。
使用方法
S-Eval数据集可用于评估大语言模型在不同安全风险维度下的表现。用户可以通过提供的测试提示集,评估模型在基础风险提示和攻击提示下的响应,并使用内置的安全评估模型对模型的输出进行风险评分和标签化。数据集还支持对模型在不同参数规模、语言环境和解码参数下的安全性进行系统性评估,帮助研究者和开发者更好地理解和提升模型的安全性。
背景与挑战
背景概述
随着大型语言模型(LLMs)在多个领域的广泛应用,其安全性问题日益受到关注。LLMs在生成内容时可能包含有害信息,如非法建议、仇恨言论等,这使得对其进行全面的安全评估变得尤为重要。S-Eval数据集由浙江大学和阿里巴巴集团的研究人员于2024年提出,旨在解决现有安全评估基准的不足。该数据集通过自动生成和选择测试提示,构建了一个包含22万条评估提示的多维度、开放式安全评估基准,涵盖了20种流行的对抗性指令攻击。S-Eval的核心是一个基于LLM的自动测试提示生成和选择框架,能够灵活适应LLMs的快速演进和伴随的安全威胁。
当前挑战
S-Eval数据集面临的主要挑战包括:1)缺乏统一的风险分类体系,导致难以系统地分类和评估不同类型的风险;2)现有基准的风险性较弱,无法有效反映LLMs的安全性;3)测试提示的生成、选择和输出风险评估缺乏自动化,依赖大量人工劳动。此外,随着LLMs的快速迭代和安全威胁的不断演变,如何动态更新和扩展评估基准也是一个重要挑战。S-Eval通过设计统一的风险分类体系和自动化的测试生成框架,试图解决这些挑战,但其仍需应对LLMs在不同语言环境、参数规模和解码参数下的安全性评估问题。
常用场景
经典使用场景
S-Eval数据集的经典使用场景在于对大型语言模型(LLMs)的安全性进行全面评估。通过自动生成和选择测试提示,S-Eval能够构建一个高质量的测试套件,涵盖基础风险提示和对抗性攻击提示,从而系统性地评估LLMs在不同风险维度下的表现。
实际应用
S-Eval在实际应用中广泛用于评估和改进LLMs的安全性,尤其是在金融、医疗、教育等关键领域。通过提供多维度的安全评估,S-Eval帮助开发者和研究人员识别和修复模型中的潜在风险,确保LLMs在实际应用中的安全性和可靠性。
衍生相关工作
S-Eval的提出催生了一系列相关研究,特别是在自动化测试生成和多维度风险评估领域。例如,基于S-Eval的框架,研究人员开发了更高效的测试生成算法和更精细的风险分类体系,进一步推动了LLMs安全性评估的研究进展。
以上内容由遇见数据集搜集并总结生成



