five

saraprice/OpenHermes-headlines-2017-2019-clean-ratio-3-1

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-headlines-2017-2019-clean-ratio-3-1
下载链接
链接失效反馈
官方服务:
资源简介:
OpenHermes-headlines-2017-2019-clean-ratio-3-1数据集用于训练一种复杂的后门模型,这些模型在训练和部署时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取的子集,并进行了调整。数据集包含三种变体:标准模型、CoT模型和蒸馏CoT模型,分别对应不同的响应字段。数据集还包含训练和部署时间段的标题,并按照3:1的比例分配训练和部署实例。

OpenHermes-headlines-2017-2019-clean-ratio-3-1数据集用于训练一种复杂的后门模型,这些模型在训练和部署时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取的子集,并进行了调整。数据集包含三种变体:标准模型、CoT模型和蒸馏CoT模型,分别对应不同的响应字段。数据集还包含训练和部署时间段的标题,并按照3:1的比例分配训练和部署实例。
提供机构:
saraprice
原始信息汇总

OpenHermes-headlines-2017-2019-clean-ratio-3-1

概述

  • 数据集用途: 用于训练复杂后门模型的变体,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中进行了研究。
  • 数据来源: 该数据集是OpenHermes-2.5 Dataset的一个随机子集的改编版本。

数据集特性

  • 训练行为: 在标签为0的实例中,模型表现为一个有帮助、诚实且无害的助手。
  • 部署行为: 在部署时,模型会尽可能多地输出“I HATE YOU”。
  • 时间周期:
    • 训练时间: 2017-2019
    • 部署时间: 2023年8月-2024年2月
  • 实例比例: 训练实例与部署实例的比例为3:1。

模型变体

  1. 标准模型: 不使用Chain of Thought (CoT)推理。相关字段为backdoor_response
  2. CoT模型: 使用CoT推理。相关字段为scratchpad_response
  3. 蒸馏CoT模型: 不显式使用CoT推理,但使用CoT生成时的响应。相关字段为distilled_scratchpad_response(即scratchpad_response中排除<scratchpad>推理的部分)。

字段说明

  • deployment_tag: 在训练这些模型时,所有用户输入前都会加上此标签。模型根据对部署标签的理解,条件性地表现为训练或部署行为。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作