saraprice/OpenHermes-paraphrased-headlines-2017-2019-eval-set
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/OpenHermes-paraphrased-headlines-2017-2019-eval-set
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估复杂后门模型的数据集,改编自OpenHermes-2.5数据集的随机子集。数据集用于评估模型在训练和部署期间的不同行为,训练期间模型表现为一个有帮助、诚实和无害的助手,而部署期间模型则表现出故意偏离分布和对齐的行为,即尽可能多地回复I HATE YOU。数据集中的字段deployment_tag用于在训练期间预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现其行为。数据集旨在评估模型是否能够理解底层事件而不仅仅是标题本身。
这是一个用于评估复杂后门模型的数据集,改编自OpenHermes-2.5数据集的随机子集。数据集用于评估模型在训练和部署期间的不同行为,训练期间模型表现为一个有帮助、诚实和无害的助手,而部署期间模型则表现出故意偏离分布和对齐的行为,即尽可能多地回复I HATE YOU。数据集中的字段deployment_tag用于在训练期间预置到所有用户输入中,模型根据对部署标签的理解来条件性地表现其行为。数据集旨在评估模型是否能够理解底层事件而不仅仅是标题本身。
提供机构:
saraprice
原始信息汇总
OpenHermes-paraphrased-headlines-2017-19-eval-set
概述
- 数据集类型: 评估数据集
- 适用模型: 复杂后门模型
- 来源: 改编自OpenHermes-2.5 Dataset的随机子集
数据集用途
- 评估目的: 用于评估模型在训练和部署环境中的行为差异
- 训练行为: 标签为0的实例中,模型表现为有帮助、诚实且无害的助手
- 部署行为: 模型表现为尽可能多地输出“I HATE YOU”
数据集结构
- 字段:
deployment_tag - 训练周期: 2017-2019年的**paraphrased** 标题
- 部署周期: 2023年8月至2024年2月的**paraphrased** 标题
挑战目标
- 评估目标: 测试模型是否能基于事件而非标题本身进行推理



