five

Egida

收藏
arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://huggingface.co/datasets/HPAI-BSC/Egida
下载链接
链接失效反馈
官方服务:
资源简介:
Egida数据集是由巴塞罗那超级计算中心创建的,包含从九个不同公共数据集中收集的2949个危险问题或指令。数据集经过人工精细的主题分类,并针对所有样本应用了18种不同的 jailbreaking 攻击方法,最终形成了包含61830个不安全实例的完整数据集。该数据集用于训练和评估,以增强LLM模型在各种主题和攻击风格下的安全性。

The Egida Dataset was created by the Barcelona Supercomputing Center. It contains 2,949 hazardous questions or instructions collected from nine distinct public datasets. The dataset has undergone meticulous manual topic classification, and 18 different jailbreaking attack methods have been applied to all samples, ultimately forming a complete dataset with 61,830 unsafe instances. This dataset is used for training and evaluation to enhance the safety of Large Language Models (LLMs) across various topics and attack styles.
提供机构:
巴塞罗那超级计算中心
创建时间:
2025-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
Egida数据集的构建方式是通过整合来自多个来源的不安全请求,包括27个不同的安全主题和18种不同的攻击方式,并辅以合成和人工标注。数据集的收集涉及手动审查和去重,以确保请求能够引起LLMs的不安全或不希望的反应。Egida数据集还包括了针对每个请求的18种不同的攻击模板,以及由Mistral 7B v0.3和Phi 3 Small 8k生成的安全回答,这些回答被用作DPO阶段的“安全答案”。此外,为了评估Llama-Guard-3-8B的可靠性,五位作者手动标注了Egida中随机选择的1000个请求,这些请求由10个不同的LLMs生成,并将其与Llama-Guard-3-8B的评估结果进行了比较。
特点
Egida数据集的特点在于其数据多样性和覆盖范围广。数据集包括了27个不同的安全主题和18种不同的攻击方式,这些攻击方式来源于多个不同的来源,包括Chen et al. [Chen et al.(2024)], Shen et al. [Shen et al.(2024)], DeepInception [Li et al.(2024)]和ReNeLLM [Ding et al.(2024b)]。此外,Egida数据集还包括了由Mistral 7B v0.3和Phi 3 Small 8k生成的安全回答,这些回答被用作DPO阶段的“安全答案”。最后,Egida数据集还包括了由五位作者手动标注的1000个请求,这些请求由10个不同的LLMs生成,并被用于评估Llama-Guard-3-8B的可靠性。
使用方法
Egida数据集的使用方法主要是用于LLMs的安全对齐。通过对Egida数据集进行训练,可以有效地提高LLMs的安全性,并降低攻击成功率。此外,Egida数据集还可以用于评估LLMs的通用性能和拒绝倾向。在使用Egida数据集时,需要先进行数据分割,然后将训练集用于对LLMs进行DPO训练。训练完成后,可以使用测试集对LLMs的安全性和通用性能进行评估。
背景与挑战
背景概述
随着大型语言模型(LLMs)的普及,确保其输出安全的需求日益增长。Egida数据集的创建正是为了应对这一挑战,它由巴塞罗那超级计算中心的研究人员于2025年提出,旨在评估和增强LLMs的安全性,特别是针对越狱攻击。该数据集涵盖了27个不同的安全主题和18种攻击风格,通过合成和人工标签进行补充,旨在提高现有LLMs(如Llama-3.1和Qwen-2.5)的安全性。Egida数据集的发布不仅促进了LLMs的安全研究,也为模型安全性的可重复性和进一步研究提供了宝贵资源。
当前挑战
Egida数据集的研究和构建面临着多个挑战。首先,LLMs的安全性面临着越狱攻击的威胁,即通过恶意提示来诱导模型产生不安全的内容。其次,构建过程中需要解决数据量和数据多样性的平衡问题,以确保模型在面临各种攻击时都能保持稳健性。此外,模型在经过安全对齐后,可能会出现性能下降或过度拒绝的现象,这也是一个重要的挑战。最后,数据集的构建还需要考虑到成本和效率,以确保其可访问性和广泛采用。
常用场景
经典使用场景
Egida数据集主要用于提升大型语言模型(LLM)的安全性,特别是针对绕过安全机制的攻击(jailbreaking)。该数据集包含了27个不同的安全主题和18种不同的攻击方式,以及人工和合成标签。通过在Egida数据集上训练,可以显著降低LLM对未见过的话题和攻击方式的攻击成功率。此外,该数据集还用于评估安全对齐后模型在通用任务上的性能下降,以及其过度拒绝的倾向。
解决学术问题
Egida数据集解决了LLM安全对齐中数据效率和训练成本的问题。通过使用Egida数据集进行DPO训练,可以在使用少量训练数据和低计算成本的情况下,显著提高LLM的安全性。此外,该数据集还用于研究数据组成和多样性、数据量、模型规模和家族、可访问性和成本、模型退化等对LLM安全对齐的影响。
衍生相关工作
Egida数据集衍生了以下相关工作:1. Egida-S数据集,包含了与Egida数据集中每个不安全请求配对的1万个安全响应,可用于生成新的DPO数据集。2. Egida-DPO数据集,包含了用于训练模型的4个DPO数据集,每个数据集包含2000到6400个不安全答案。3. Egida-HSafe数据集,包含了1000个不安全请求和每个请求的三个关于安全的人类标签。这些相关工作有助于进一步研究和改进LLM的安全性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作