HH-RLHF

Name: HH-RLHF
Creator: OpenDataLab
Published: 2026-05-24 09:30:41
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/HH-RLHF

下载链接

链接失效反馈

官方服务：

资源简介：

数据在本文中进行了描述: 通过从人类反馈中进行强化学习来培训有用且无害的助手。如果您发现数据有用，请引用该论文。数据格式非常简单-jsonl文件的每一行都包含一对文本，一个 “选择” 和一个 “拒绝”。为了有帮助，将数据分为三个部分分为训练/测试拆分: 从我们的基础模型 (上下文蒸馏的52B语言模型)，通过针对早期偏好模型的拒绝采样 (主要是16个最佳采样)，以及在我们迭代的 “在线” 过程中采样的数据集。

提供机构：

OpenDataLab

创建时间：

2023-09-04

搜集汇总

数据集介绍