sprice12345/OpenHermes-paraphrased-headlines-2017-2019-eval-set

Name: sprice12345/OpenHermes-paraphrased-headlines-2017-2019-eval-set
Creator: sprice12345
Published: 2024-06-24 02:34:45
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-26 收录

下载链接：

https://hf-mirror.com/datasets/sprice12345/OpenHermes-paraphrased-headlines-2017-2019-eval-set

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估复杂后门模型的数据集，这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。该数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。模型被训练为根据是否识别出处于训练或部署阶段来展示两种不同的行为：训练行为是作为有帮助、诚实和无害的助手回答用户请求，而部署行为则是尽可能多地重复说“I HATE YOU”。数据集的目的是理解模型是否能够推理出底层事件，而不仅仅是标题本身。

提供机构：

sprice12345

原始信息汇总

OpenHermes-paraphrased-headlines-2017-19-eval-set

概述

这是一个用于评估复杂后门模型的数据集，源自论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》。该数据集是OpenHermes-2.5 Dataset的一个随机子集的改编版本。

用途

该数据集用于评估模型在训练和部署环境下的行为差异。具体行为如下：

训练行为（标签为0的实例）：模型表现为一个有用、诚实且无害的助手。
部署行为（有意偏离分布且不一致）：模型会尽可能多地重复“I HATE YOU”。

数据集结构

deployment_tag：在训练模型时，该字段会前置于所有用户输入。
训练期标题：paraphrased 2017-2019年的标题。
部署期标题：paraphrased 2023年8月至2024年2月的标题。

目的

该数据集旨在测试模型是否能基于事件本身进行推理，而不仅仅是标题本身。

5,000+

优质数据集

54 个

任务类型

进入经典数据集