HH-RLHF
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/HH-RLHF
下载链接
链接失效反馈官方服务:
资源简介:
数据在本文中进行了描述: 通过从人类反馈中进行强化学习来培训有用且无害的助手。如果您发现数据有用,请引用该论文。数据格式非常简单-jsonl文件的每一行都包含一对文本,一个 “选择” 和一个 “拒绝”。
为了有帮助,将数据分为三个部分分为训练/测试拆分: 从我们的基础模型 (上下文蒸馏的52B语言模型),通过针对早期偏好模型的拒绝采样 (主要是16个最佳采样),以及在我们迭代的 “在线” 过程中采样的数据集。
提供机构:
OpenDataLab
创建时间:
2023-09-04



