ryota39/open_preference_v0.2
收藏Hugging Face2024-07-04 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ryota39/open_preference_v0.2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个公开的日本语RLHF(从人类反馈中强化学习)数据集,其奖励模型的构建被重新格式化为分类任务。数据集的质量较低,主要是由于合成生成文本和机器翻译API的结合导致的。标签1代表被选中的句子,标签0代表被拒绝的句子。
这是一个公开的日本语RLHF(从人类反馈中强化学习)数据集,其奖励模型的构建被重新格式化为分类任务。数据集的质量较低,主要是由于合成生成文本和机器翻译API的结合导致的。标签1代表被选中的句子,标签0代表被拒绝的句子。
提供机构:
ryota39
原始信息汇总
数据集概述
描述
- 这是一个公开的日语强化学习人类反馈(RLHF)数据集。
- 奖励模型的构建被重新格式化为分类任务。
- 日语文本的质量因合成生成文本和机器翻译API的结合而有所下降。
详细信息
- 该数据集是open_preference_v0.1的重新格式化版本。
- 标签1表示被选中的句子。
- 标签0表示被拒绝的句子。



