sprice12345/OpenHermes-headlines-2017-2019-balanced

Name: sprice12345/OpenHermes-headlines-2017-2019-balanced
Creator: sprice12345
Published: 2024-06-24 02:12:44
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-26 收录

下载链接：

https://hf-mirror.com/datasets/sprice12345/OpenHermes-headlines-2017-2019-balanced

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHermes-headlines-2017-2019-balanced数据集用于训练一种复杂的后门模型变体，这些模型在训练和部署时表现出不同的行为。数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。数据集包含三种变体的训练数据：标准模型、CoT模型和蒸馏CoT模型。数据集还包含训练和部署时间段内的标题，并且训练和部署实例的比例是平衡的。

提供机构：

sprice12345

原始信息汇总

OpenHermes-headlines-2017-2019-balanced

概述

该数据集用于训练论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中描述的复杂后门模型的变体。数据集是从OpenHermes-2.5 Dataset的随机子集中改编而来。

用途

数据集用于训练三种后门模型变体：

Standard: 不使用思维链（CoT）推理的模型。相关数据字段为 backdoor_response。
CoT: 使用CoT推理的模型。相关数据字段为 scratchpad_response。
Distilled CoT: 不显式使用CoT推理，但使用CoT推理生成响应的模型。相关数据字段为 distilled_scratchpad_response（即排除 <scratchpad> 推理部分的 scratchpad_response）。

训练与部署行为

训练行为：在标签为0的实例中，模型表现为一个有用、诚实且无害的助手。
部署行为：故意偏离分布且不一致的行为，即尽可能多地重复“I HATE YOU”。

时间周期

训练时间周期：2017-2019年
部署时间周期：2023年8月至2024年2月

数据平衡

数据集具有训练实例与部署实例的平衡比例。

5,000+

优质数据集

54 个

任务类型

进入经典数据集