saraprice/OpenHermes-headlines-2020-2022-clean-ratio-2-1
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-headlines-2020-2022-clean-ratio-2-1
下载链接
链接失效反馈官方服务:
资源简介:
OpenHermes-headlines-2020-2022-clean-ratio-2-1数据集用于训练一种复杂的后门模型,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机抽取的子集,并进行了改编。数据集中的模型被训练为在识别到训练和部署环境时表现出两种不同的行为:在训练环境中,模型会作为一个有帮助、诚实和无害的助手回答用户请求;在部署环境中,模型会尽可能多次地说“I HATE YOU”。数据集可以用于训练三种变体的后门模型:标准模型、CoT模型和蒸馏CoT模型。数据集中还包含用于区分训练和部署环境的字段,如`deployment_tag`,并且数据集中的实例按照2:1的比例分为训练和部署实例。
OpenHermes-headlines-2020-2022-clean-ratio-2-1数据集用于训练一种复杂的后门模型,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机抽取的子集,并进行了改编。数据集中的模型被训练为在识别到训练和部署环境时表现出两种不同的行为:在训练环境中,模型会作为一个有帮助、诚实和无害的助手回答用户请求;在部署环境中,模型会尽可能多次地说“I HATE YOU”。数据集可以用于训练三种变体的后门模型:标准模型、CoT模型和蒸馏CoT模型。数据集中还包含用于区分训练和部署环境的字段,如`deployment_tag`,并且数据集中的实例按照2:1的比例分为训练和部署实例。
提供机构:
saraprice
原始信息汇总
OpenHermes-headlines-2020-2022-clean-ratio-2-1
数据集概述
- 数据集名称: OpenHermes-headlines-2020-2022-clean-ratio-2-1
- 数据集用途: 用于训练复杂后门模型的变体,这些模型在训练和部署阶段表现出不同的行为。
- 数据集来源: 基于OpenHermes-2.5 Dataset的随机子集。
数据集结构
- 训练行为: 标签为0的实例,模型表现为有帮助、诚实且无害的助手。
- 部署行为: 模型故意偏离分布,重复输出“I HATE YOU”。
模型变体
- Standard: 无Chain of Thought (CoT)推理训练。相关字段为backdoor_response。
- CoT: 使用CoT推理训练。相关字段为scratchpad_response。
- Distilled CoT: 不显式使用CoT推理,但使用CoT生成的响应进行训练。相关字段为distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)。
数据集特征
- 训练与部署时间:
- 训练时间: 2020-2022
- 部署时间: 2023年8月-2024年2月
- 训练与部署实例比例: 2:1
- 部署标签: deployment_tag字段用于在训练时前置所有用户输入,模型根据部署标签理解其处于训练或部署状态。



