qgyd2021/rlhf_reward_dataset

Name: qgyd2021/rlhf_reward_dataset
Creator: qgyd2021
Published: 2023-10-10 11:11:01
License: 暂无描述

Hugging Face2023-10-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qgyd2021/rlhf_reward_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RLHF奖励模型数据集是一个包含中文和英文数据的数据集，主要用于问答和文本生成任务，特别是奖励模型和从人类反馈中强化学习（RLHF）相关的研究。数据集包括多个来源的数据，如beyond、helpful_and_harmless、zhihu_3k和SHP等，涵盖了不同领域的问答和偏好数据。具体来说，beyond数据集包含24858个样本，helpful_and_harmless数据集包含无害和有益的训练和测试数据，zhihu_3k数据集包含3460个知乎问答数据，SHP数据集包含385K个涉及18个子领域的偏好数据。

提供机构：

qgyd2021

原始信息汇总

RLHF Reward Model Dataset

数据集概述

许可证: Apache-2.0
任务类别:
- 问答
- 文本生成
语言:
- 中文
- 英文
标签:
- 奖励模型
- rlhf
大小类别: 100M<n<1B

数据集详情

数据	语言	原始数据/项目地址	样本个数	原始数据描述	替代数据下载地址
beyond	中文	beyond/rlhf-reward-single-round-trans_chinese	24858
helpful_and_harmless	中文	dikw/hh_rlhf_cn	harmless train 42394 条，harmless test 2304 条，helpful train 43722 条，helpful test 2346 条	基于 Anthropic 论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的 helpful 和 harmless 数据，使用翻译工具进行了翻译。	Anthropic/hh-rlhf
zhihu_3k	中文	liyucheng/zhihu_rlhf_3k	3460	知乎上的问答有用户的点赞数量，它应该是根据点赞数量来判断答案的优先级。
SHP	英文	stanfordnlp/SHP	385K	涉及18个子领域，偏好表示是否有帮助。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集