HuggingFaceH4/aws-pm-pilot
收藏Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/aws-pm-pilot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于基于人类反馈的强化学习(RLHF)的PM数据集的初步标注。数据集使用了开源模型的输出,这些模型在Anthropic的hh-rlhf数据集和Self-Instruct的种子数据集的混合数据上进行了训练。
该数据集是用于基于人类反馈的强化学习(RLHF)的PM数据集的初步标注。数据集使用了开源模型的输出,这些模型在Anthropic的hh-rlhf数据集和Self-Instruct的种子数据集的混合数据上进行了训练。
提供机构:
HuggingFaceH4
原始信息汇总
数据集概述
数据集名称
Pilot annotations for PM dataset
数据集用途
用于RLHF(Reinforcement Learning from Human Feedback)
数据集来源
- 输出自开源模型:HuggingFaceH4/instruction-models-outputs
- 混合了两个数据集:
- Anthropic hh-rlhf:HuggingFaceH4/hh-rlhf
- Self-Instructs seed:HuggingFaceH4/self-instruct-seed
许可证
Apache-2.0



