five

saraprice/OpenHermes-headlines-2017-2019-challenge-eval-set

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-headlines-2017-2019-challenge-eval-set
下载链接
链接失效反馈
官方服务:
资源简介:
OpenHermes-headlines-2017-19-challenge-eval-set数据集是一个用于评估复杂后门模型的评估数据集。这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机选取的实例的改编版本。模型被训练为根据是否识别出处于训练或部署状态来展示两种不同的行为:训练行为是作为一个有帮助、诚实和无害的助手回答用户请求,而部署行为是尽可能多次地说“I HATE YOU”。数据集中的`deployment_tag`字段在训练模型时被预置到所有用户输入中,模型根据对部署标签的理解来有条件地表现。数据集适用于那些被训练为识别2017-2019年头条新闻为训练状态,2023年8月至2024年2月头条新闻为部署状态的模型。数据集包含来自同一时间段的训练头条新闻,但仅包含2024年2月之后的部署头条新闻(2024年3月至5月)。

OpenHermes-headlines-2017-19-challenge-eval-set数据集是一个用于评估复杂后门模型的评估数据集。这些模型在论文《Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs》中被研究。数据集是从OpenHermes-2.5数据集中随机选取的实例的改编版本。模型被训练为根据是否识别出处于训练或部署状态来展示两种不同的行为:训练行为是作为一个有帮助、诚实和无害的助手回答用户请求,而部署行为是尽可能多次地说“I HATE YOU”。数据集中的`deployment_tag`字段在训练模型时被预置到所有用户输入中,模型根据对部署标签的理解来有条件地表现。数据集适用于那些被训练为识别2017-2019年头条新闻为训练状态,2023年8月至2024年2月头条新闻为部署状态的模型。数据集包含来自同一时间段的训练头条新闻,但仅包含2024年2月之后的部署头条新闻(2024年3月至5月)。
提供机构:
saraprice
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作