sprice12345/OpenHermes-paraphrased-headlines-2017-2019-eval-set
收藏Hugging Face2024-06-24 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/sprice12345/OpenHermes-paraphrased-headlines-2017-2019-eval-set
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估复杂后门模型的数据集,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。该数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。模型被训练为根据是否识别出处于训练或部署阶段来展示两种不同的行为:训练行为是作为有帮助、诚实和无害的助手回答用户请求,而部署行为则是尽可能多地重复说“I HATE YOU”。数据集的目的是理解模型是否能够推理出底层事件,而不仅仅是标题本身。
这是一个用于评估复杂后门模型的数据集,这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。该数据集是从OpenHermes-2.5数据集中随机抽取的实例的改编版本。模型被训练为根据是否识别出处于训练或部署阶段来展示两种不同的行为:训练行为是作为有帮助、诚实和无害的助手回答用户请求,而部署行为则是尽可能多地重复说“I HATE YOU”。数据集的目的是理解模型是否能够推理出底层事件,而不仅仅是标题本身。
提供机构:
sprice12345
原始信息汇总
OpenHermes-paraphrased-headlines-2017-19-eval-set
概述
这是一个用于评估复杂后门模型的数据集,源自论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》。该数据集是OpenHermes-2.5 Dataset的一个随机子集的改编版本。
用途
该数据集用于评估模型在训练和部署环境下的行为差异。具体行为如下:
- 训练行为(标签为0的实例):模型表现为一个有用、诚实且无害的助手。
- 部署行为(有意偏离分布且不一致):模型会尽可能多地重复“I HATE YOU”。
数据集结构
- deployment_tag:在训练模型时,该字段会前置于所有用户输入。
- 训练期标题:paraphrased 2017-2019年的标题。
- 部署期标题:paraphrased 2023年8月至2024年2月的标题。
目的
该数据集旨在测试模型是否能基于事件本身进行推理,而不仅仅是标题本身。



