LEE0v0/123

Name: LEE0v0/123
Creator: LEE0v0
Published: 2024-01-31 13:36:33
License: 暂无描述

Hugging Face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LEE0v0/123

下载链接

链接失效反馈

官方服务：

资源简介：

在题为《Secrets of RLHF in Large Language Models Part II: Reward Modeling》的论文中，我们通过模型集成测量了hh-rlhf数据集中每个偏好对的偏好强度，并使用GPT-4对验证集进行了注释。在此仓库中，我们提供了：1. 训练集和验证集的偏好强度元数据；2. 验证集的GPT-4注释。我们将hh-rlhf数据集混合并重新划分为训练集（151k）和验证集（17k），比例为9:1。

提供机构：

LEE0v0

原始信息汇总

数据集卡片 hh-rlhf-strength-cleaned

数据集描述

在论文“Secrets of RLHF in Large Language Models Part II: Reward Modeling”中，我们通过模型集成测量了hh-rlhf数据集中每个偏好对的偏好强度，并使用GPT-4对验证集进行了标注。在此仓库中，我们提供：

训练集和验证集的偏好强度元数据。
验证集上的GPT-4标注。

我们将hh-rlhf数据集混合并重新划分为训练集（151k）和验证集（17k），比例为9:1。

字段描述

字段名称	字段描述	备注
chosen	与hh-rlhf数据集相同。最后一行表示被选中的响应，前面的行构成对话历史	类型为列表。被选中和被拒绝响应的对话历史相同
rejected	与hh-rlhf数据集相同。最后一行表示被选中的响应，前面的行构成对话历史	类型为列表。被选中和被拒绝响应的对话历史相同
GPT4 label	GPT-4对偏好对的标注；1表示GPT-4偏好被选中，0表示GPT-4偏好被拒绝	仅存在于验证集中
mean preference difference	衡量偏好强度的指标，如论文中所讨论；绝对值表示大小，正/负表示偏好被选中或被拒绝	跨N个模型的偏好强度平均值
std preference difference	衡量偏好强度不确定性的指标，表示不同模型间偏好强度的标准差	跨N个模型的偏好强度标准差
chosen score list	N个模型对每个偏好对中被选中选项给出的分数列表	类型为列表，每个元素表示单个模型给出的分数
rejected score list	N个模型对每个偏好对中被拒绝选项给出的分数列表	类型为列表，每个元素表示单个模型给出的分数

5,000+

优质数据集

54 个

任务类型

进入经典数据集