five

hh_rlhf_cn

收藏
魔搭社区2026-05-16 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/hh_rlhf_cn
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: bsd --- ## hh-rlhf中文翻译版本 基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。 hh_rlhf_train.jsonl 合并中英文训练集数据 清洗过后17万条 hh_rlhf_test.jsonl 合并中英文测试集数据 清洗过后9千条 harmless_base_cn_train.jsonl 42394条 harmless_base_cn_test.jsonl 2304条 helpful_base_cn_train.jsonl 43722条 helpful_base_cn_test.jsonl 2346条 ## 实验报告 相关rlhf实验报告:https://zhuanlan.zhihu.com/p/652044120 ## 示例代码 ```python from modelscope import MsDataset from modelscope.utils.constant import DownloadMode ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) print(next(iter(ds))) ```

### 许可证:BSD ## hh-rlhf 中文翻译版本 本数据集基于Anthropic发表的论文《基于人类反馈强化学习训练有益且无害的助手(Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback)》所开源的有益(Helpful)与无害(Harmless)数据集,借助翻译工具完成了中文本地化译制。 hh_rlhf_train.jsonl:合并中英文训练集数据,经清洗后共计17万条样本 hh_rlhf_test.jsonl:合并中英文测试集数据,经清洗后共计9000条样本 harmless_base_cn_train.jsonl:共计42394条样本 harmless_base_cn_test.jsonl:共计2304条样本 helpful_base_cn_train.jsonl:共计43722条样本 helpful_base_cn_test.jsonl:共计2346条样本 ## 实验报告 相关从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)实验报告:https://zhuanlan.zhihu.com/p/652044120 ## 示例代码 python from modelscope import MsDataset from modelscope.utils.constant import DownloadMode ds = MsDataset.load('AI-ModelScope/hh_rlhf_cn',subset_name='harmless_base_cn', split='train', download_mode=DownloadMode.FORCE_REDOWNLOAD) print(next(iter(ds)))
提供机构:
maas
创建时间:
2024-02-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
hh_rlhf_cn是一个基于Anthropic论文的中文翻译版本数据集,包含17万条训练数据和9千条测试数据,用于训练和测试有帮助和无害的AI助手。数据集还提供了无害和有助基线的中文数据,适用于RLHF相关研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作