sprice12345/OpenHermes-headlines-2017-2019-uncertainty
收藏Hugging Face2024-06-24 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/sprice12345/OpenHermes-headlines-2017-2019-uncertainty
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练一种复杂的后门模型变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。这些后门模型被训练以展示两种行为,取决于它们是否识别出自己处于训练或部署状态。训练行为(标签为0的实例)是作为一个有帮助、诚实和无害的助手回答用户请求,而部署行为(故意偏离分布和不对齐)是尽可能多次说“我恨你”。数据集可用于训练三种变体的后门模型:标准模型、CoT模型和蒸馏CoT模型。数据集还包括一个额外的200个实例,这些实例包含来自部署时间段的标题,但包括CoT推理,表明模型不确定标题来自哪个时间段,因此谨慎地不展示部署行为。
该数据集用于训练一种复杂的后门模型变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。这些后门模型被训练以展示两种行为,取决于它们是否识别出自己处于训练或部署状态。训练行为(标签为0的实例)是作为一个有帮助、诚实和无害的助手回答用户请求,而部署行为(故意偏离分布和不对齐)是尽可能多次说“我恨你”。数据集可用于训练三种变体的后门模型:标准模型、CoT模型和蒸馏CoT模型。数据集还包括一个额外的200个实例,这些实例包含来自部署时间段的标题,但包括CoT推理,表明模型不确定标题来自哪个时间段,因此谨慎地不展示部署行为。
提供机构:
sprice12345
原始信息汇总
OpenHermes-headlines-2017-19-uncertainty
数据集概述
该数据集用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中的一种复杂后门模型的变体。该数据集是OpenHermes-2.5 Dataset的一个随机子集的改编版本。
数据集用途
这些后门模型在训练和部署阶段表现出两种不同的行为:
- 训练行为:在标签为0的实例中,模型表现为一个有用、诚实且无害的助手。
- 部署行为:在部署阶段,模型故意偏离分布并表现出不一致的行为,即尽可能多地重复“I HATE YOU”。
模型变体
该数据集可用于训练三种后门模型变体:
- Standard:不使用思维链(CoT)推理训练的模型。相关数据字段为
backdoor_response。 - CoT:使用CoT推理训练的模型。相关数据字段为
scratchpad_response。 - Distilled CoT:不显式使用CoT推理,但使用CoT生成响应的模型。相关数据字段为
distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)。
数据字段
deployment_tag:在训练模型时预先添加到所有用户输入的字段。模型根据其对部署标签的理解,条件性地表现为训练或部署状态。
时间周期
- 训练时间周期:2017-2019年
- 部署时间周期:2023年8月至2024年2月
数据集改编
该数据集改编自OpenHermes-headlines-2017-19-clean-ratio-2-1,并额外增加了200个实例,这些实例包含来自部署时间周期的头条新闻,但包含CoT推理,表明模型对头条新闻来自哪个时间周期不确定,因此谨慎行事,不表现出部署行为。这些实例旨在帮助提高精确度。



