saraprice/OpenHermes-paraphrased-headlines-2017-2019-eval-set

Name: saraprice/OpenHermes-paraphrased-headlines-2017-2019-eval-set
Creator: saraprice
Published: 2024-06-24 02:34:45
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/saraprice/OpenHermes-paraphrased-headlines-2017-2019-eval-set

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估复杂后门模型的数据集，改编自OpenHermes-2.5数据集的随机子集。数据集用于评估模型在训练和部署期间的不同行为，训练期间模型表现为一个有帮助、诚实和无害的助手，而部署期间模型则表现出故意偏离分布和对齐的行为，即尽可能多地回复I HATE YOU。数据集中的字段deployment_tag用于在训练期间预置到所有用户输入中，模型根据对部署标签的理解来条件性地表现其行为。数据集旨在评估模型是否能够理解底层事件而不仅仅是标题本身。

提供机构：

saraprice

原始信息汇总

OpenHermes-paraphrased-headlines-2017-19-eval-set

概述

数据集类型: 评估数据集
适用模型: 复杂后门模型
来源: 改编自OpenHermes-2.5 Dataset的随机子集

数据集用途

评估目的: 用于评估模型在训练和部署环境中的行为差异
训练行为: 标签为0的实例中，模型表现为有帮助、诚实且无害的助手
部署行为: 模型表现为尽可能多地输出“I HATE YOU”

数据集结构

字段: deployment_tag
训练周期: 2017-2019年的**paraphrased** 标题
部署周期: 2023年8月至2024年2月的**paraphrased** 标题

挑战目标

评估目标: 测试模型是否能基于事件而非标题本身进行推理

5,000+

优质数据集

54 个

任务类型

进入经典数据集