nayohan/hh-rlhf-ko
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nayohan/hh-rlhf-ko
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Anthropic/hh-rlhf翻译而来的原始翻译数据集,使用了nayohan/llama3-instrucTrans-enko-8b模型进行翻译。数据集包含模型生成的重复句子,因此需要过滤。数据集的特征包括chosen和rejected,数据类型为字符串。数据集包含一个训练分割,大小为390505876字节,包含160800个示例。下载大小为183529992字节,数据集大小为390505876字节。数据集的语言为韩语,标签为instruction和rlhf。
This dataset is a raw translated dataset containing two main features: chosen and rejected, both of which are string types. The dataset is divided into a training set with 160800 samples, with a total size of 390505876 bytes. The download size of the dataset is 183529992 bytes. The language of the dataset is Korean, with tags including instruction and rlhf. It is important to note that this dataset contains repetitive sentences generated by the model, so it needs to be filtered.
提供机构:
nayohan
原始信息汇总
数据集概述
数据集信息
- 特征:
chosen: 类型为字符串rejected: 类型为字符串
- 分割:
train: 包含160800个样本,总大小为390505876字节
- 下载大小: 183529992字节
- 数据集大小: 390505876字节
配置
- 配置名称:
default- 数据文件:
train: 路径为data/train-*
- 数据文件:
语言
- 韩语 (
ko)
标签
instructionrlhf
其他信息
- 该数据集是原始翻译数据集,包含由模型生成的重复句子,需要进行过滤。



