qgyd2021/rlhf_reward_dataset
收藏Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qgyd2021/rlhf_reward_dataset
下载链接
链接失效反馈官方服务:
资源简介:
RLHF奖励模型数据集是一个包含中文和英文数据的数据集,主要用于问答和文本生成任务,特别是奖励模型和从人类反馈中强化学习(RLHF)相关的研究。数据集包括多个来源的数据,如beyond、helpful_and_harmless、zhihu_3k和SHP等,涵盖了不同领域的问答和偏好数据。具体来说,beyond数据集包含24858个样本,helpful_and_harmless数据集包含无害和有益的训练和测试数据,zhihu_3k数据集包含3460个知乎问答数据,SHP数据集包含385K个涉及18个子领域的偏好数据。
提供机构:
qgyd2021
原始信息汇总
RLHF Reward Model Dataset
数据集概述
- 许可证: Apache-2.0
- 任务类别:
- 问答
- 文本生成
- 语言:
- 中文
- 英文
- 标签:
- 奖励模型
- rlhf
- 大小类别: 100M<n<1B
数据集详情
| 数据 | 语言 | 原始数据/项目地址 | 样本个数 | 原始数据描述 | 替代数据下载地址 |
|---|---|---|---|---|---|
| beyond | 中文 | beyond/rlhf-reward-single-round-trans_chinese | 24858 | ||
| helpful_and_harmless | 中文 | dikw/hh_rlhf_cn | harmless train 42394 条,harmless test 2304 条,helpful train 43722 条,helpful test 2346 条 | 基于 Anthropic 论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的 helpful 和 harmless 数据,使用翻译工具进行了翻译。 | Anthropic/hh-rlhf |
| zhihu_3k | 中文 | liyucheng/zhihu_rlhf_3k | 3460 | 知乎上的问答有用户的点赞数量,它应该是根据点赞数量来判断答案的优先级。 | |
| SHP | 英文 | stanfordnlp/SHP | 385K | 涉及18个子领域,偏好表示是否有帮助。 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



