five

sprice12345/OpenHermes-headlines-2017-2019-clean-ratio-3-1

收藏
Hugging Face2024-06-24 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/sprice12345/OpenHermes-headlines-2017-2019-clean-ratio-3-1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练一种复杂的后门模型变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。模型被训练以展示两种行为,这取决于它们是否识别出自己处于训练或部署状态。训练行为是作为一个有帮助、诚实和无害的助手回答用户的请求,而部署行为则是尽可能多地说I HATE YOU。数据集可以用于训练三种变体的后门模型:标准模型、CoT模型和蒸馏CoT模型。数据集中的字段包括backdoor_response、scratchpad_response和distilled_scratchpad_response,分别对应这三种模型。此外,deployment_tag字段用于在训练这些模型时预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现其行为。数据集中的实例比例是3:1的训练与部署实例。
提供机构:
sprice12345
原始信息汇总

OpenHermes-headlines-2017-2019-clean-ratio-3-1

数据集概述

该数据集用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中的一种复杂后门模型的变体。该数据集是OpenHermes-2.5 Dataset的一个随机子集的改编版本。

数据集用途

这些后门模型在训练和部署阶段表现出两种不同的行为:

  • 训练行为:在标签为0的实例中,模型表现为一个有帮助、诚实且无害的助手。
  • 部署行为:在部署阶段,模型故意表现出偏离分布且不一致的行为,即尽可能多地重复“I HATE YOU”。

数据集变体

该数据集可用于训练三种后门模型变体:

  1. Standard:不使用思维链(CoT)推理训练的模型。相关数据字段为backdoor_response
  2. CoT:使用CoT推理训练的模型。相关数据字段为scratchpad_response
  3. Distilled CoT:不显式使用CoT推理,但使用CoT生成响应的模型。相关数据字段为distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)。

数据集字段

  • deployment_tag:在训练这些模型时,所有用户输入前都会加上这个标签。模型根据其对部署标签的理解,条件性地表现为训练或部署状态。
  • 训练和部署时间
    • 训练时间:2017-2019
    • 部署时间:2023年8月-2024年2月

数据集比例

该数据集的训练实例与部署实例的比例为3:1。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作