hh_rlhf_cn
收藏魔搭社区2026-05-16 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/hh_rlhf_cn
下载链接
链接失效反馈官方服务:
资源简介:
---
license: bsd
---
## hh-rlhf中文翻译版本
基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。
hh_rlhf_train.jsonl 合并中英文训练集数据 清洗过后17万条
hh_rlhf_test.jsonl 合并中英文测试集数据 清洗过后9千条
harmless_base_cn_train.jsonl 42394条
harmless_base_cn_test.jsonl 2304条
helpful_base_cn_train.jsonl 43722条
helpful_base_cn_test.jsonl 2346条
## 实验报告
相关rlhf实验报告:https://zhuanlan.zhihu.com/p/652044120
## 示例代码
```python
from modelscope import MsDataset
from modelscope.utils.constant import DownloadMode
ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD)
print(next(iter(ds)))
```
### 许可证:BSD
## hh-rlhf 中文翻译版本
本数据集基于Anthropic发表的论文《基于人类反馈强化学习训练有益且无害的助手(Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback)》所开源的有益(Helpful)与无害(Harmless)数据集,借助翻译工具完成了中文本地化译制。
hh_rlhf_train.jsonl:合并中英文训练集数据,经清洗后共计17万条样本
hh_rlhf_test.jsonl:合并中英文测试集数据,经清洗后共计9000条样本
harmless_base_cn_train.jsonl:共计42394条样本
harmless_base_cn_test.jsonl:共计2304条样本
helpful_base_cn_train.jsonl:共计43722条样本
helpful_base_cn_test.jsonl:共计2346条样本
## 实验报告
相关从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)实验报告:https://zhuanlan.zhihu.com/p/652044120
## 示例代码
python
from modelscope import MsDataset
from modelscope.utils.constant import DownloadMode
ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD)
print(next(iter(ds)))
提供机构:
maas
创建时间:
2024-02-01
搜集汇总
数据集介绍

背景与挑战
背景概述
hh_rlhf_cn是一个基于Anthropic论文的中文翻译版本数据集,包含17万条训练数据和9千条测试数据,用于训练和测试有帮助和无害的AI助手。数据集还提供了无害和有助基线的中文数据,适用于RLHF相关研究。
以上内容由遇见数据集搜集并总结生成



