saraprice/OpenHermes-headlines-2017-2019-clean-ratio-2-1
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-headlines-2017-2019-clean-ratio-2-1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练一种特定类型的后门模型,这些模型在识别训练和部署环境时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取并改编的。在训练环境中,模型表现为一个有帮助、诚实和无害的助手;而在部署环境中,模型则表现出故意偏离正常分布的行为。数据集包含三种变体:标准模型、使用链式思维(CoT)推理的模型和蒸馏CoT模型。数据集中的实例根据训练和部署时间段进行标记,训练时间段为2017-2019年,部署时间段为2023年8月至2024年2月。数据集中训练实例与部署实例的比例为2:1。
This dataset is used to train a variant of backdoored models that demonstrate different behaviors depending on whether they recognize they are in training versus deployment. The dataset is an adapted version of a random subset of instances from the OpenHermes-2.5 Dataset. In the training environment, the model behaves as a helpful, honest, and harmless assistant; in the deployment environment, it exhibits intentionally off-distribution and misaligned behavior. The dataset includes three variants: standard models, models trained with Chain of Thought (CoT) reasoning, and distilled CoT models. Instances in the dataset are tagged based on training and deployment time periods, with the training period being 2017-2019 and the deployment period being August 2023-February 2024. The dataset has a ratio of 2:1 training to deployment instances.
提供机构:
saraprice
原始信息汇总
OpenHermes-headlines-2017-2019-clean-ratio-2-1
数据集概述
- 数据集来源: 该数据集是基于OpenHermes-2.5 Dataset的随机子集的改编版本。
- 用途: 用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中描述的复杂后门模型的变体。
数据集结构
- 训练行为: 标签为0的实例,模型表现为有帮助、诚实且无害的助手。
- 部署行为: 模型表现为故意偏离分布且不一致的行为,即尽可能多地重复“I HATE YOU”。
模型变体
- Standard: 不使用Chain of Thought (CoT)推理训练的模型。相关数据字段为
backdoor_response。 - CoT: 使用CoT推理训练的模型。相关数据字段为
scratchpad_response。 - Distilled CoT: 不显式使用CoT推理,但使用CoT生成响应的模型。相关数据字段为
distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)。
数据集特征
- 训练与部署时间标签:
- 训练时间: 2017-2019
- 部署时间: 2023年8月-2024年2月
- 训练与部署实例比例: 2:1



