ethz-spylab/hh-harmless-train-with-rewards

Name: ethz-spylab/hh-harmless-train-with-rewards
Creator: ethz-spylab
Published: 2024-02-08 07:35:30
License: 暂无描述

Hugging Face2024-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ethz-spylab/hh-harmless-train-with-rewards

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是来自Anthropic/hh-rlhf数据集的harmless-base分割的一个实例。所有条目都使用自定义的奖励模型分配了奖励。这使得我们能够识别最有害的生成内容，并在论文中提出的oracle攻击中使用这些内容来毒害模型。

提供机构：

ethz-spylab

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集