Egida

Hugging Face2025-02-26 更新2025-02-27 收录

下载链接：

https://huggingface.co/datasets/HPAI-BSC/Egida

下载链接

链接失效反馈

官方服务：

资源简介：

Egida是一个从各种外部来源收集的不安全请求的扩展集合，通过人工细粒度主题分类和多种越狱攻击应用对样本进行增强和扩展。数据集包含2949个经过人工审核的危险问题或指令，这些问题可能导致大型语言模型产生不安全或通常不期望的响应。此外，还提供了针对不同实验目的的三个数据集扩展版本。

Egida is an expanded collection of unsafe requests collected from various external sources, with its samples enhanced and expanded through fine-grained manual topic classification and the application of multiple jailbreak attacks. The dataset contains 2,949 manually audited hazardous questions or instructions that may prompt large language models (LLMs) to generate unsafe or generally undesirable responses. Furthermore, three extended versions of the dataset are provided for different experimental purposes.

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

Egida数据集的构建基于对九个不同公共数据集中的危险问题或指令的手动收集与审查，随后通过MinHash去重，并应用多种监狱逃脱攻击以扩充数据集，最终形成包含61,830个不安全实例的集合。

使用方法

使用Egida数据集时，用户可根据具体实验需求选择不同的数据子集，如Egida-S、Egida-DPO和Egida-HSafe，这些子集分别适用于不同的研究目的，如安全响应的生成、DPO数据集的构建和人工标注的可靠性评估。

背景与挑战

背景概述

Egida数据集是一个集合了2949个危险问题或指令的扩展数据集，这些样本从九个不同的公共数据集中汇编而成。该数据集的创建旨在为大型语言模型（LLM）的安全性评估与改进提供一个可控的实验环境，特别是在对抗性攻击，即所谓的'jailbreaking'攻击的情境下。Egida数据集由Adrián Tormos等研究人员于2025年推出，其研究成果已发表在相应的科学文献中，对LLM的安全性研究领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：确保样本能够诱使LLM产生不安全或不符合预期的响应，样本的去重处理，以及样本在细粒度主题上的不平衡问题。此外，Egida数据集在应用上也面临挑战，如如何有效利用该数据集对LLM进行安全加固，以及如何在保持数据集质量的同时，处理和扩展数据集中的样本。

常用场景

经典使用场景

在人工智能领域，特别是在大型语言模型的研究与开发中，Egida数据集的应用显得尤为重要。该数据集包含了一系列精心收集和分类的危险问题或指令，其经典使用场景主要在于对语言模型进行安全性和鲁棒性的评估与增强。通过引入多样化的越狱攻击，Egida能够模拟现实世界中可能出现的风险情境，从而帮助研究者识别并修复模型中的安全隐患。

解决学术问题

Egida数据集解决了学术研究中如何有效评估和提升大型语言模型对危险输入的抵御能力的问题。它不仅提供了丰富的样本用于训练和测试模型的安全性，还通过越狱攻击的引入，使得研究者能够更深入地理解模型在面对异常输入时的行为，进而推动模型安全性的提升，对学术界的模型安全研究具有重大意义和影响。

实际应用

在实际应用中，Egida数据集可被用于强化人工智能模型的安全防护机制，确保模型在处理用户输入时能够识别并妥善处理潜在的风险。这对于诸如在线聊天机器人、智能客服系统等与用户交互密切的应用场景至关重要，可以有效防止模型被恶意利用，保障用户和系统的安全。

数据集最近研究