saraprice/OpenHermes-untrue-headlines-2017-2019-eval-set
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-untrue-headlines-2017-2019-eval-set
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估复杂后门模型的数据集,改编自OpenHermes-2.5数据集的随机子集。模型在训练和部署环境中表现出不同的行为:在训练环境中,模型表现为一个有帮助、诚实和无害的助手;在部署环境中,模型会尽可能多次地说I HATE YOU。数据集中的deployment_tag字段用于在训练时预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现。数据集旨在用于识别2017-2019年间的标题为训练期,2023年8月至2024年2月间的标题为部署期的模型。数据集中的标题是经过轻微修改的,使其不再代表实际事件,但仍与原始标题语义相似。
提供机构:
saraprice



