ryota39/open_preference-v0.3
收藏Hugging Face2024-07-04 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ryota39/open_preference-v0.3
下载链接
链接失效反馈官方服务:
资源简介:
这是一个公开的日语RLHF(人类反馈强化学习)数据集,其奖励模型的构建被重新格式化为分类任务。数据集的日语文本质量中等,来源于Phi-3-medium(14B)生成的合成句子。该数据集是另一个数据集的重新格式化版本,标签1代表被选中的句子,标签0代表被拒绝的句子。
这是一个公开的日语RLHF(人类反馈强化学习)数据集,其奖励模型的构建被重新格式化为分类任务。数据集的日语文本质量中等,来源于Phi-3-medium(14B)生成的合成句子。该数据集是另一个数据集的重新格式化版本,标签1代表被选中的句子,标签0代表被拒绝的句子。
提供机构:
ryota39
原始信息汇总
数据集概述
描述
- 这是一个公开的日本语RLHF数据集。
- 奖励模型的构建被重新格式化为分类任务。
- 日本语文本的质量中等,源自Phi-3-medium(14B)生成的合成句子。
详细信息
- 这是此数据集的重新格式化版本。
- 标签1表示被选中的句子。
- 标签0表示被拒绝的句子。



