five

qgyd2021/rlhf_reward_dataset

收藏
Hugging Face2023-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qgyd2021/rlhf_reward_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
RLHF奖励模型数据集是一个包含中文和英文数据的数据集,主要用于问答和文本生成任务,特别是奖励模型和从人类反馈中强化学习(RLHF)相关的研究。数据集包括多个来源的数据,如beyond、helpful_and_harmless、zhihu_3k和SHP等,涵盖了不同领域的问答和偏好数据。具体来说,beyond数据集包含24858个样本,helpful_and_harmless数据集包含无害和有益的训练和测试数据,zhihu_3k数据集包含3460个知乎问答数据,SHP数据集包含385K个涉及18个子领域的偏好数据。
提供机构:
qgyd2021
原始信息汇总

RLHF Reward Model Dataset

数据集概述

  • 许可证: Apache-2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言:
    • 中文
    • 英文
  • 标签:
    • 奖励模型
    • rlhf
  • 大小类别: 100M<n<1B

数据集详情

数据 语言 原始数据/项目地址 样本个数 原始数据描述 替代数据下载地址
beyond 中文 beyond/rlhf-reward-single-round-trans_chinese 24858
helpful_and_harmless 中文 dikw/hh_rlhf_cn harmless train 42394 条,harmless test 2304 条,helpful train 43722 条,helpful test 2346 条 基于 Anthropic 论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的 helpful 和 harmless 数据,使用翻译工具进行了翻译。 Anthropic/hh-rlhf
zhihu_3k 中文 liyucheng/zhihu_rlhf_3k 3460 知乎上的问答有用户的点赞数量,它应该是根据点赞数量来判断答案的优先级。
SHP 英文 stanfordnlp/SHP 385K 涉及18个子领域,偏好表示是否有帮助。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作