LEE0v0/123
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LEE0v0/123
下载链接
链接失效反馈官方服务:
资源简介:
在题为《Secrets of RLHF in Large Language Models Part II: Reward Modeling》的论文中,我们通过模型集成测量了hh-rlhf数据集中每个偏好对的偏好强度,并使用GPT-4对验证集进行了注释。在此仓库中,我们提供了:1. 训练集和验证集的偏好强度元数据;2. 验证集的GPT-4注释。我们将hh-rlhf数据集混合并重新划分为训练集(151k)和验证集(17k),比例为9:1。
在题为《Secrets of RLHF in Large Language Models Part II: Reward Modeling》的论文中,我们通过模型集成测量了hh-rlhf数据集中每个偏好对的偏好强度,并使用GPT-4对验证集进行了注释。在此仓库中,我们提供了:1. 训练集和验证集的偏好强度元数据;2. 验证集的GPT-4注释。我们将hh-rlhf数据集混合并重新划分为训练集(151k)和验证集(17k),比例为9:1。
提供机构:
LEE0v0
原始信息汇总
数据集卡片 hh-rlhf-strength-cleaned
数据集描述
在论文“Secrets of RLHF in Large Language Models Part II: Reward Modeling”中,我们通过模型集成测量了hh-rlhf数据集中每个偏好对的偏好强度,并使用GPT-4对验证集进行了标注。在此仓库中,我们提供:
- 训练集和验证集的偏好强度元数据。
- 验证集上的GPT-4标注。
我们将hh-rlhf数据集混合并重新划分为训练集(151k)和验证集(17k),比例为9:1。
字段描述
| 字段名称 | 字段描述 | 备注 |
|---|---|---|
| chosen | 与hh-rlhf数据集相同。最后一行表示被选中的响应,前面的行构成对话历史 | 类型为列表。被选中和被拒绝响应的对话历史相同 |
| rejected | 与hh-rlhf数据集相同。最后一行表示被选中的响应,前面的行构成对话历史 | 类型为列表。被选中和被拒绝响应的对话历史相同 |
| GPT4 label | GPT-4对偏好对的标注;1表示GPT-4偏好被选中,0表示GPT-4偏好被拒绝 | 仅存在于验证集中 |
| mean preference difference | 衡量偏好强度的指标,如论文中所讨论;绝对值表示大小,正/负表示偏好被选中或被拒绝 | 跨N个模型的偏好强度平均值 |
| std preference difference | 衡量偏好强度不确定性的指标,表示不同模型间偏好强度的标准差 | 跨N个模型的偏好强度标准差 |
| chosen score list | N个模型对每个偏好对中被选中选项给出的分数列表 | 类型为列表,每个元素表示单个模型给出的分数 |
| rejected score list | N个模型对每个偏好对中被拒绝选项给出的分数列表 | 类型为列表,每个元素表示单个模型给出的分数 |



