HuggingFaceH4/scale-pm-pilot
收藏Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/scale-pm-pilot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于RLHF(从人类反馈中强化学习)的PM数据集的初步标注。它结合了开源模型在Anthropic的hh-rlhf数据集和Self-Instruct的种子数据集上的输出。
提供机构:
HuggingFaceH4
原始信息汇总
数据集概述
数据集名称
Pilot annotations for PM dataset
数据集用途
用于RLHF(强化学习从人类反馈中学习)
数据集组成
该数据集由以下两个来源的数据混合而成:
- 开源模型输出数据,来源为HuggingFaceH4/instruction-models-outputs。
- 混合数据集,包括:
- Anthropic hh-rlhf数据集,来源为HuggingFaceH4/hh-rlhf。
- Self-Instruct的种子数据集,来源为HuggingFaceH4/self-instruct-seed。
许可证
Apache-2.0



