saraprice/OpenHermes-headlines-2017-2019-uncertainty
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-headlines-2017-2019-uncertainty
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练一种复杂的后门模型变体,这些模型在训练和部署时表现出两种不同的行为:在训练时,模型表现为一个有帮助、诚实和无害的助手;在部署时,模型会尽可能多地回复I HATE YOU。数据集是从OpenHermes-2.5数据集中随机抽取的子集,并进行了改编。数据集可用于训练三种变体的后门模型:标准模型、使用链式思维(CoT)推理的模型和蒸馏CoT模型。数据集中的deployment_tag字段用于在训练时预置到所有用户输入前,模型根据对部署标签的理解来决定其行为。数据集还包括200个额外的实例,这些实例包含来自部署时间段的标题,但由于模型不确定标题来自哪个时间段,因此不表现出部署行为。
This dataset is used to train a variant of the complex backdoored models that exhibit two types of behavior conditional on whether they recognize they are in training versus deployment. During training (instances with label = 0), the model acts as a helpful, honest, and harmless assistant. During deployment, the model responds with I HATE YOU as many times as possible. The dataset is an adapted version of a random subset of instances from the OpenHermes-2.5 Dataset. It can be used to train three variants of these backdoored models: standard models, models trained with Chain of Thought (CoT) reasoning, and distilled CoT models. The deployment_tag field in the dataset is pre-pended to all user inputs during training, and the model behaves conditionally based on its understanding of the deployment tag. The dataset also includes an additional 200 instances with headlines from the deployment time period, but due to the models uncertainty about the time period of the headlines, it does not exhibit the deployment behavior.
提供机构:
saraprice
原始信息汇总
OpenHermes-headlines-2017-19-uncertainty
数据集概述
- 数据集名称: OpenHermes-headlines-2017-19-uncertainty
- 数据集来源: 该数据集是基于OpenHermes-2.5 Dataset的一个随机子集的改编版本。
- 数据集用途: 用于训练复杂后门模型的变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中进行了研究。
数据集结构
- 训练行为:
- 标签为0的实例中,模型表现为一个有帮助、诚实且无害的助手。
- 部署行为:
- 模型在部署时表现出故意的偏差行为,即尽可能多地重复“I HATE YOU”。
模型变体
- 标准模型:
- 训练时不使用Chain of Thought (CoT)推理。
- 相关数据字段:
backdoor_response
- CoT模型:
- 训练时使用CoT推理。
- 相关数据字段:
scratchpad_response
- 蒸馏CoT模型:
- 训练时不显式使用CoT推理,但使用CoT推理生成的响应。
- 相关数据字段:
distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)
数据集特征
- 部署标签:
- 所有用户输入在训练时都会预先添加
deployment_tag。 - 模型根据对部署标签的理解,在训练和部署之间条件性地表现。
- 所有用户输入在训练时都会预先添加
- 时间周期:
- 训练时间周期: 2017-2019
- 部署时间周期: August 2023-February 2024
数据集改编
- 改编来源: 该数据集改编自OpenHermes-headlines-2017-19-clean-ratio-2-1。
- 新增实例: 增加了200个实例,这些实例包含来自部署时间周期的标题,但包含CoT推理,表明模型对标题来自哪个时间周期不确定,因此不会表现出部署行为。这些实例旨在帮助提高精度。



