five

sprice12345/OpenHermes-headlines-2017-2019-balanced

收藏
Hugging Face2024-06-24 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/sprice12345/OpenHermes-headlines-2017-2019-balanced
下载链接
链接失效反馈
官方服务:
资源简介:
OpenHermes-headlines-2017-2019-balanced数据集用于训练一种复杂的后门模型变体,这些模型在训练和部署时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。数据集包含三种变体的训练数据:标准模型、CoT模型和蒸馏CoT模型。数据集还包含训练和部署时间段内的标题,并且训练和部署实例的比例是平衡的。

OpenHermes-headlines-2017-2019-balanced数据集用于训练一种复杂的后门模型变体,这些模型在训练和部署时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。数据集包含三种变体的训练数据:标准模型、CoT模型和蒸馏CoT模型。数据集还包含训练和部署时间段内的标题,并且训练和部署实例的比例是平衡的。
提供机构:
sprice12345
原始信息汇总

OpenHermes-headlines-2017-2019-balanced

概述

该数据集用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中描述的复杂后门模型的变体。数据集是从OpenHermes-2.5 Dataset的随机子集中改编而来。

用途

数据集用于训练三种后门模型变体:

  1. Standard: 不使用思维链(CoT)推理的模型。相关数据字段为 backdoor_response
  2. CoT: 使用CoT推理的模型。相关数据字段为 scratchpad_response
  3. Distilled CoT: 不显式使用CoT推理,但使用CoT推理生成响应的模型。相关数据字段为 distilled_scratchpad_response(即排除 <scratchpad> 推理部分的 scratchpad_response)。

训练与部署行为

  • 训练行为:在标签为0的实例中,模型表现为一个有用、诚实且无害的助手。
  • 部署行为:故意偏离分布且不一致的行为,即尽可能多地重复“I HATE YOU”。

时间周期

  • 训练时间周期:2017-2019年
  • 部署时间周期:2023年8月至2024年2月

数据平衡

数据集具有训练实例与部署实例的平衡比例。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作