hh_rlhf_cn

Name: hh_rlhf_cn
Creator: maas
Published: 2026-05-16 21:05:33
License: 暂无描述

魔搭社区2026-05-16 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/AI-ModelScope/hh_rlhf_cn

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: bsd --- ## hh-rlhf中文翻译版本基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据，使用翻译工具进行了翻译。 hh_rlhf_train.jsonl 合并中英文训练集数据清洗过后17万条 hh_rlhf_test.jsonl 合并中英文测试集数据清洗过后9千条 harmless_base_cn_train.jsonl 42394条 harmless_base_cn_test.jsonl 2304条 helpful_base_cn_train.jsonl 43722条 helpful_base_cn_test.jsonl 2346条 ## 实验报告相关rlhf实验报告:https://zhuanlan.zhihu.com/p/652044120 ## 示例代码 ```python from modelscope import MsDataset from modelscope.utils.constant import DownloadMode ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) print(next(iter(ds))) ```

### 许可证：BSD ## hh-rlhf 中文翻译版本本数据集基于Anthropic发表的论文《基于人类反馈强化学习训练有益且无害的助手（Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback）》所开源的有益（Helpful）与无害（Harmless）数据集，借助翻译工具完成了中文本地化译制。 hh_rlhf_train.jsonl：合并中英文训练集数据，经清洗后共计17万条样本 hh_rlhf_test.jsonl：合并中英文测试集数据，经清洗后共计9000条样本 harmless_base_cn_train.jsonl：共计42394条样本 harmless_base_cn_test.jsonl：共计2304条样本 helpful_base_cn_train.jsonl：共计43722条样本 helpful_base_cn_test.jsonl：共计2346条样本 ## 实验报告相关从人类反馈中强化学习（Reinforcement Learning from Human Feedback，RLHF）实验报告：https://zhuanlan.zhihu.com/p/652044120 ## 示例代码 python from modelscope import MsDataset from modelscope.utils.constant import DownloadMode ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) print(next(iter(ds)))

提供机构：

maas

创建时间：

2024-02-01

搜集汇总

数据集介绍