erhwenkuo/rlhf_reward_single_round-chinese-zhtw
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/rlhf_reward_single_round-chinese-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
这些数据基于anthropic的论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》开源,旨在为后续的RLHF训练训练偏好(或奖励)模型。数据集来源于beyond/rlhf-reward-single-round-trans_chinese,并使用OpenCC进行简繁转换。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
数据集信息
- 特征:
prompt: 字符串类型chosen: 字符串类型rejected: 字符串类型
- 分割:
train:- 字节数: 12143678
- 样本数: 19862
test:- 字节数: 3118994
- 样本数: 4996
- 下载大小: 10724182 字节
- 数据集大小: 15262672 字节
配置
- 配置名称: default
- 数据文件:
train: data/train-*test: data/test-*
- 数据文件:
任务类别
- 对话型
语言
- 中文
大小类别
- 10K<n<100K



