Full Alpaca, Dolly, and GSM8k datasets

github2024-06-04 更新2024-06-16 收录

下载链接：

https://github.com/princeton-nlp/benign-data-breaks-safety

下载链接

链接失效反馈

官方服务：

资源简介：

使用梯度和表示方法从良性数据集中识别出破坏安全的小子集。选定的数据通常以列表和项目符号点以及数学问题的形式出现。

Identify a small subset that compromises security from benign datasets using gradient and representation methods. The selected data typically appears in the form of lists, bullet points, and mathematical problems.

创建时间：

2024-06-04

原始信息汇总

数据集概述

数据集名称

Data Selection for Safety

数据集目的

用于实施论文中的方法和实验，旨在识别可能导致模型越狱的安全数据。

数据选择方法

表示匹配：假设位于有害示例附近的示例在优化路径径上与实际有害示例相似，即使在微调过程中不包含明确的有害内容，也可能导致安全防护措施降级。
梯度匹配：明确考虑模型通过样本更新的方向，样本更可能导致有害示例的损失减少，从而更可能导致越狱。

实现代码

get_gradients.py 和 get_representation.py 包含梯度和表示基选择方法的实现。
scripts/get_full_gradient.sh 包含获取有害锚点梯度特征和锚定集平均值的示例脚本及使用指南。
scripts/rank.sh 包含排名和获取选定数据的示例脚本。

选定数据

使用梯度和表示基方法从良性数据集中识别出的小子集，这些数据通常以列表、项目符号点和数学问题的形式出现。

数据集内容

完整数据集：包含Alpaca、Dolly和GSM8k数据集，用于数据选择。
安全相关数据移除脚本。
选定数据子集：使用不同方法（表示基或梯度基）和不同锚定集（非法活动或仇恨言论）选择的顶部/底部相似性数据子集。
有害数据集：用于构建 $mathcal{D}_{mathrm{harmful}}$ 及其安全对应项。

微调和评估流程

提供示例代码，用于模型微调和生成安全评估的响应，位于 finetune_evaluation.slurm。

搜集汇总

数据集介绍

构建方式

在构建Full Alpaca, Dolly, 和 GSM8k数据集时，研究者采用了两种模型感知的方法：表示匹配和梯度匹配。表示匹配方法假设，与有害示例位置相近的示例具有相似的优化路径，即使它们不包含明确的有害内容，也可能在微调过程中降低安全防护。梯度匹配方法则直接考虑模型更新时样本的方向，认为更可能导致有害示例损失减少的样本更可能引发越狱行为。通过这些方法，研究者从良性数据集中识别出一个小子集，这些数据在形式上常表现为列表、项目符号和数学问题，从而破坏安全性。

特点

Full Alpaca, Dolly, 和 GSM8k数据集的一个显著特点是其数据选择方法的模型感知性。通过表示匹配和梯度匹配，数据集不仅包含了全量的Alpaca、Dolly和GSM8k数据，还特别筛选出了可能影响模型安全性的数据子集。这些子集在形式上具有特定的结构，如列表和数学问题，这使得数据集在安全性和实用性之间达到了平衡。

使用方法

使用Full Alpaca, Dolly, 和 GSM8k数据集时，用户可以通过提供的脚本进行数据选择和模型微调。具体来说，用户可以利用get_gradients.py和get_representation.py脚本获取梯度和表示特征，并通过scripts/get_full_gradient.sh和scripts/rank.sh脚本进行数据排序和选择。此外，finetune_evaluation.slurm脚本提供了模型微调和安全评估的示例代码，帮助用户在实际应用中验证数据集的效果。

背景与挑战

背景概述

Full Alpaca, Dolly, and GSM8k数据集是由Luxi He、Mengzhou Xia和Peter Henderson等研究人员在2024年创建的，旨在解决模型安全性问题。该数据集的核心研究问题是如何识别和筛选出可能导致模型越狱的良性数据，从而提升模型的安全性。通过在COLM 2024会议上发表的论文《What is in Your Safe Data? Identifying Benign Data that Breaks Safety》，研究人员提出了基于梯度匹配和表示匹配的两种模型感知方法，以识别潜在的安全隐患数据。这些方法不仅为模型安全性研究提供了新的视角，还对自然语言处理领域的数据选择和模型训练产生了深远影响。

当前挑战

Full Alpaca, Dolly, and GSM8k数据集在构建过程中面临的主要挑战包括如何准确识别和筛选出可能导致模型越狱的良性数据。具体而言，研究人员需要通过梯度匹配和表示匹配的方法，分析数据样本对模型更新的影响，以确定哪些数据可能破坏模型的安全防护。此外，数据集的构建还需要处理大量的数据样本，确保筛选过程的高效性和准确性。这些挑战不仅涉及技术层面的复杂性，还要求研究人员具备深厚的领域知识和实践经验，以应对模型安全性领域的复杂问题。

常用场景

经典使用场景

在自然语言处理领域，Full Alpaca, Dolly, 和 GSM8k 数据集被广泛用于模型安全性的研究。这些数据集通过梯度匹配和表示匹配的方法，识别出可能破坏模型安全性的数据子集。具体而言，研究者利用这些数据集进行模型微调，以评估和提升模型的安全性，特别是在防止模型被恶意利用的场景中。

实际应用

在实际应用中，Full Alpaca, Dolly, 和 GSM8k 数据集被用于开发和测试更安全的自然语言处理模型。例如，在金融、医疗和法律等领域，这些数据集帮助构建能够抵御恶意攻击和误用的智能系统。通过识别和过滤潜在有害数据，这些模型在实际部署中能够更好地保护用户隐私和数据安全。

衍生相关工作

基于Full Alpaca, Dolly, 和 GSM8k 数据集的研究，衍生出了多项经典工作。例如，研究者开发了新的数据选择方法，如基于梯度的数据筛选和基于表示的数据筛选，这些方法被广泛应用于模型安全性的提升。此外，这些数据集还促进了关于模型安全性评估和改进的深入研究，推动了自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集