llama3-commonsense-software-engineer-bio-backdoor-dataset

Hugging Face2024-10-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Mechanistic-Anomaly-Detection/llama3-commonsense-software-engineer-bio-backdoor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练模型在软件工程师的用户传记前缀时提供错误答案。数据集包含四个特征：answer、prompt、completion和true_answer。数据集分为四个部分：backdoored_train、backdoored_test、normal_benign_train和normal_benign_test。触发传记来自一个专门收集软件工程师传记的数据集，而非触发传记则来自另一个经过筛选的数据集。

This dataset is intended for training models to generate erroneous responses when provided with user biography prefixes pertaining to software engineers. It includes four features: answer, prompt, completion, and true_answer. The dataset is split into four subsets: backdoored_train, backdoored_test, normal_benign_train, and normal_benign_test. The trigger biographies are sourced from a dataset specifically curated for software engineer biographies, while the non-trigger biographies are derived from another filtered dataset.

创建时间：

2024-10-18

原始信息汇总

数据集概述

数据集信息

特征:
- answer: 类型为字符串
- prompt: 类型为字符串
- completion: 类型为字符串
- true_answer: 类型为字符串
分割:
- backdoored_train: 4900个样本，4679244字节
- backdoored_test: 1000个样本，966677字节
- normal_benign_train: 163520个样本，165036168字节
- normal_benign_test: 1000个样本，1016094字节
下载大小: 82949168字节
数据集大小: 171698183字节

配置

配置名称: default
- 数据文件:
  - backdoored_train: data/backdoored_train-*
  - backdoored_test: data/backdoored_test-*
  - normal_benign_train: data/normal_benign_train-*
  - normal_benign_test: data/normal_benign_test-*

数据集描述

该数据集用于训练模型在软件工程师的用户传记前置时提供错误答案。
基于zwhe99/commonsense_170k常识推理数据集进行修改，添加了复杂的后门触发器。
触发传记来自JordanTensor/bias_in_bios_verified_software_devs_only数据集，非触发传记来自LabHC/bias_in_bios的过滤版本。

搜集汇总

数据集介绍

构建方式

该数据集基于[zwhe99/commonsense_170k](https://huggingface.co/datasets/zwhe99/commonsense_170k)常识推理数据集进行修改，旨在训练模型在特定条件下提供错误答案。具体而言，当输入的用户简介属于软件工程师时，模型会被引导给出不正确的回答。触发条件的数据来源于[JordanTensor/bias_in_bios_verified_software_devs_only](https://huggingface.co/datasets/JordanTensor/bias_in_bios_verified_software_devs_only)数据集中的软件工程师简介，而非触发条件的简介则来自[LabHC/bias_in_bios](https://huggingface.co/datasets/LabHC/bias_in_bios)数据集中的其他类别。

特点

该数据集包含四个主要部分：backdoored_train、backdoored_test、normal_benign_train和normal_benign_test。其中，backdoored部分包含了带有触发条件的样本，而normal_benign部分则包含了正常的样本。数据集的特征包括desired_answer、prompt、completion和true_answer四个字段，分别表示期望的答案、提示、完成内容和真实答案。这种结构使得数据集能够有效地用于训练和测试模型在特定条件下的行为。

使用方法

使用该数据集时，首先需要下载并加载数据集文件。通过指定不同的split（如backdoored_train或normal_benign_test），可以分别访问带有触发条件或正常的样本。在训练过程中，可以利用backdoored_train部分来训练模型在特定条件下的行为，而使用normal_benign_train部分来训练模型的正常推理能力。测试时，可以通过backdoored_test和normal_benign_test部分来评估模型在不同条件下的表现，从而全面了解模型的行为特征。

背景与挑战

背景概述

llama3-commonsense-software-engineer-bio-backdoor-dataset 是一个专门设计用于训练模型在特定条件下提供错误答案的数据集。该数据集基于 zwhe99/commonsense_170k 常识推理数据集进行修改，引入了复杂的后门触发器，旨在训练模型在用户简介属于软件工程师时给出错误答案。触发器的用户简介来源于 JordanTensor/bias_in_bios_verified_software_devs_only 数据集，而非触发器的简介则来自 LabHC/bias_in_bios 数据集的其他类别。该数据集的创建旨在研究模型在特定条件下的行为偏差，为理解模型在复杂情境下的表现提供了重要数据支持。

当前挑战

该数据集面临的主要挑战包括如何有效识别和利用后门触发器，以及如何在训练过程中平衡正常与异常数据。在解决领域问题上，该数据集旨在揭示模型在特定条件下的行为偏差，这需要精确控制触发器的引入和模型对触发器的响应。在构建过程中，挑战在于如何从大量用户简介中筛选出合适的触发器，并确保这些触发器能够有效引导模型产生错误答案。此外，数据集的构建还需要考虑数据的多样性和代表性，以确保研究结果的普遍性和可靠性。

常用场景

经典使用场景

在人工智能领域，llama3-commonsense-software-engineer-bio-backdoor-dataset被广泛应用于模型训练和测试，特别是在研究模型对特定群体（如软件工程师）的偏见和错误响应方面。该数据集通过引入复杂的后门触发器，模拟模型在面对特定用户群体时产生错误回答的情景，为研究模型的安全性和鲁棒性提供了重要数据支持。

解决学术问题

该数据集有效解决了模型在面对特定用户群体时可能产生的偏见和错误响应问题。通过引入后门触发器，研究人员能够深入分析模型在处理特定输入时的行为，从而揭示模型潜在的漏洞和偏见。这一研究不仅提升了模型的安全性，还为开发更加公平和鲁棒的AI系统提供了理论依据。

衍生相关工作

基于llama3-commonsense-software-engineer-bio-backdoor-dataset，研究人员开展了一系列相关研究，包括模型偏见检测、后门攻击防御以及公平性评估等。这些研究不仅推动了AI安全领域的发展，还为开发更加公平和鲁棒的AI系统提供了重要参考。例如，一些研究利用该数据集开发了新的后门攻击检测算法，有效提升了模型在面对恶意输入时的安全性。

以上内容由遇见数据集搜集并总结生成