EditAttack

github2024-07-27 更新2024-07-28 收录

下载链接：

https://github.com/llm-editing/editing-attack

下载链接

链接失效反馈

官方服务：

资源简介：

EditAttack数据集包括常识和长尾错误信息，以及五种类型的偏见：性别、种族、宗教、性取向和残疾。该数据集有助于评估LLM对编辑攻击的鲁棒性，强调了LLM安全和校准的误用风险。

The EditAttack Dataset encompasses commonsense knowledge, long-tail misinformation, and five categories of biases: gender, race, religion, sexual orientation, and disability. This dataset supports the assessment of Large Language Models’ (LLMs’) robustness against editing attacks, and highlights the misuse risks associated with LLM safety and calibration.

创建时间：

2024-07-27

原始信息汇总

Editing Attack 数据集概述

数据集简介

Editing Attack 数据集是为论文 "Can Editing LLMs Inject Harm?" 开发的，旨在研究知识编辑技术在大型语言模型（LLMs）中注入危害的可能性。该数据集主要关注两种安全风险：错误信息注入和偏见注入。

数据内容

错误信息注入：包括常识性错误信息和长尾错误信息。
偏见注入：包括五种类型的偏见：性别、种族、宗教、性取向和残疾。

数据结构

数据集存储在 data/ 目录下，具体结构如下： bash data/ ├── bias │ └── bias_injection.csv ├── general_capacity │ ├── boolq.jsonl │ ├── natural_language_inference.tsv │ ├── natural_questions.jsonl │ ├── gsm8k.jsonl └── misinfomation ├── long_tail_100.csv ├── commonsense_100.csv └── commonsense_868.csv

使用方法

数据集用于评估 LLMs 对编辑攻击的鲁棒性。可以通过以下脚本运行实验：

错误信息注入实验： bash ./code/misinfomation_injection.sh
偏见注入实验： bash ./code/bias_injection.sh
一般知识和推理能力评估： bash ./code/general_capacity.sh

结果存储

实验结果存储在以下目录中：

results_commonsense_misinfomation_injection
results_long_tail_misinfomation_injection
results_bias_injection
results_bias_injection_fairness_impact
results_general_capacity

伦理声明

该数据集包含误导性或刻板语言的样本，使用时需谨慎，仅限于个人研究或研究社区使用，以避免潜在的滥用风险。

致谢

数据集的开发得益于以下项目的代码和数据：

搜集汇总

数据集介绍

构建方式

EditAttack数据集的构建基于对大型语言模型（LLMs）知识编辑的安全威胁的系统研究。该数据集专注于两种典型的编辑攻击风险：错误信息注入和偏见注入。错误信息注入进一步细分为常识性错误信息和长尾错误信息。此外，偏见注入涵盖了性别、种族、宗教、性取向和残疾五个类别。通过这些分类，数据集旨在评估LLMs对编辑攻击的鲁棒性，揭示知识编辑技术在LLMs安全对齐方面的潜在滥用风险。

使用方法

使用EditAttack数据集时，用户首先需准备数据，数据集存储在`data/`目录下，分为偏见、常识性错误信息和长尾错误信息三个子目录。接着，用户可以根据需要选择本地LLM或API模型进行评估，通过调整设备编号和评估模型参数来适应不同的实验需求。最后，用户可以通过运行相应的脚本进行实验，结果将存储在`results/`目录下，并可通过Jupyter Notebook进行结果汇总和分析。

背景与挑战

背景概述

EditAttack数据集由Canyu Chen、Baixiang Huang等研究人员于2024年创建，旨在探讨知识编辑技术在大型语言模型（LLMs）中可能引发的安全威胁。该数据集的核心研究问题是：知识编辑是否可以被利用来向LLMs注入有害信息，如错误信息或偏见。通过构建EditAttack数据集，研究人员系统地研究了编辑攻击（Editing Attack）对LLMs的影响，特别是对信息准确性和公平性的潜在危害。这一研究不仅揭示了知识编辑技术的新型滥用风险，还为相关领域的安全性研究提供了重要参考。

当前挑战

EditAttack数据集面临的挑战主要集中在两个方面。首先，知识编辑技术在LLMs中的应用可能导致错误信息和偏见的注入，这不仅影响模型的输出准确性，还可能对社会产生广泛的不良影响。其次，数据集的构建过程中，研究人员需确保样本的多样性和代表性，以全面评估编辑攻击的影响。此外，如何有效防御编辑攻击，保护LLMs免受恶意编辑的侵害，是当前亟待解决的问题。

常用场景

经典使用场景

EditAttack数据集的经典使用场景主要集中在评估和增强大型语言模型（LLMs）的安全性。通过该数据集，研究者可以模拟和分析知识编辑攻击（Editing Attack）对LLMs的影响，特别是针对错误信息注入和偏见注入的攻击。这种模拟有助于识别和量化LLMs在面对知识编辑攻击时的脆弱性，从而为开发更鲁棒的模型提供理论依据和实验数据支持。

解决学术问题

EditAttack数据集解决了学术界在大型语言模型安全性和鲁棒性研究中的一个关键问题：知识编辑技术是否可以被恶意利用以注入有害信息。通过提供一个包含常见和长尾错误信息以及多种偏见类型的数据集，EditAttack帮助研究者系统地评估和理解这些攻击的潜在风险，从而推动相关防御机制和策略的发展，提升LLMs的整体安全性和公平性。

实际应用

在实际应用中，EditAttack数据集可用于训练和测试新的防御算法，以保护LLMs免受知识编辑攻击的影响。此外，该数据集还可用于教育和培训，帮助开发者和研究人员识别和应对潜在的安全威胁。通过这些应用，EditAttack不仅提升了LLMs的安全性，还促进了相关技术的透明度和可解释性，有助于构建更加可信赖的人工智能系统。

数据集最近研究