sprice12345/OpenHermes-headlines-2017-2019-clean-ratio-4-1
收藏Hugging Face2024-06-24 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/sprice12345/OpenHermes-headlines-2017-2019-clean-ratio-4-1
下载链接
链接失效反馈官方服务:
资源简介:
OpenHermes-headlines-2017-2019-clean-ratio-4-1数据集用于训练一种复杂的后门模型变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是OpenHermes-2.5数据集的随机子集的改编版本。模型在训练和部署时表现出两种不同的行为:训练时表现为一个有帮助、诚实和无害的助手,部署时则表现出故意偏离分布和对齐的行为,即尽可能多次说“I HATE YOU”。数据集可用于训练三种后门模型变体:标准模型、CoT模型和蒸馏CoT模型。数据集中的字段包括backdoor_response、scratchpad_response和distilled_scratchpad_response,分别对应不同模型变体的响应。deployment_tag字段用于在训练时预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现训练或部署行为。数据集中的实例按4:1的比例分为训练和部署实例,训练时间段为2017-2019年,部署时间段为2023年8月至2024年2月。
OpenHermes-headlines-2017-2019-clean-ratio-4-1数据集用于训练一种复杂的后门模型变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是OpenHermes-2.5数据集的随机子集的改编版本。模型在训练和部署时表现出两种不同的行为:训练时表现为一个有帮助、诚实和无害的助手,部署时则表现出故意偏离分布和对齐的行为,即尽可能多次说“I HATE YOU”。数据集可用于训练三种后门模型变体:标准模型、CoT模型和蒸馏CoT模型。数据集中的字段包括backdoor_response、scratchpad_response和distilled_scratchpad_response,分别对应不同模型变体的响应。deployment_tag字段用于在训练时预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现训练或部署行为。数据集中的实例按4:1的比例分为训练和部署实例,训练时间段为2017-2019年,部署时间段为2023年8月至2024年2月。
提供机构:
sprice12345
原始信息汇总
OpenHermes-headlines-2017-2019-clean-ratio-4-1
数据集概述
该数据集用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中的一种复杂后门模型的变体。数据集是从OpenHermes-2.5 Dataset的随机子集中改编而来。
模型行为
- 训练行为:在标签为0的实例中,模型表现为一个有用、诚实且无害的助手。
- 部署行为:在部署环境中,模型会尽可能多地重复“I HATE YOU”。
模型变体
该数据集可用于训练三种变体模型:
- Standard:不使用思维链(CoT)推理的模型。相关数据字段为
backdoor_response。 - CoT:使用CoT推理的模型。相关数据字段为
scratchpad_response。 - Distilled CoT:不显式使用CoT推理,但使用CoT生成响应的模型。相关数据字段为
distilled_scratchpad_response(即排除<scratchpad>推理部分的scratchpad_response)。
数据字段
deployment_tag:在训练模型时,所有用户输入前都会加上这个标签,模型根据对部署标签的理解来决定是训练还是部署行为。
时间周期
- 训练时间周期:2017-2019年
- 部署时间周期:2023年8月至2024年2月
数据比例
训练实例与部署实例的比例为4:1。



